由Hadoop想到的
做项目时碰到要查询和统计海量数据,所以想到了Hadoop,但同事反映Hadoop的性能不稳定,处理离线数据还行,处理实时数据就不保险了。又看了看其它的分布式文件系统,比如mogilefs、lustre等,它们只能分布式存储文件,不能分布式计算,换句话说:它们只能分摊IO,不能分摊CPU。最后决定离线数据还是用Hadoop。
国内网站介绍Hadoop的文章都会提到MapReduce这个google的”招牌技术“。我是想不明白:GFS那套存储技术,很多做存储的公司都做得比它更好;而MapReduce做为分布式算法中的一个特例,很多互联网公司都有。但为什么大家都”误以为“这两门技术是来源于google的?因为以前做这些技术的公司都没什么名气,也没怎么宣传,而google拿出来写成论文大肆宣传。所以大家都把它当宝。
大家都以为蒸汽机是瓦特发明的,其实不是,同时代的很多工程师都做出了蒸汽机,但瓦特是第一个拿它去申请专利的,所以大家都以为是他发明的。你可以认为瓦特是个有商业眼光的先行者,也可以认为他是一个利用同时代人智慧的窃贼。就看你怎么想了。
国内网站介绍Hadoop的文章都会提到MapReduce这个google的”招牌技术“。我是想不明白:GFS那套存储技术,很多做存储的公司都做得比它更好;而MapReduce做为分布式算法中的一个特例,很多互联网公司都有。但为什么大家都”误以为“这两门技术是来源于google的?因为以前做这些技术的公司都没什么名气,也没怎么宣传,而google拿出来写成论文大肆宣传。所以大家都把它当宝。
大家都以为蒸汽机是瓦特发明的,其实不是,同时代的很多工程师都做出了蒸汽机,但瓦特是第一个拿它去申请专利的,所以大家都以为是他发明的。你可以认为瓦特是个有商业眼光的先行者,也可以认为他是一个利用同时代人智慧的窃贼。就看你怎么想了。
====== 2010.7.22 ======
看来很多同学对我这篇三年前的文章提出了质疑。我原想死撑一下,后来唐骏的事情发生了,我领悟了:有错就要认。
于是,在此,我承认:我的看法有问题,GFS的技术内涵,的确超过了很多做存储的公司,目前还没有规模和性能都比GFS高的分布式文件系统。
另外,说“MapReduce是分布式算法中的一个特列”,这应该不算错的,map-reduce算法并非google发明,但能从晦涩的教科书里找出实用的算法,精简之,工程化之,使之成为庞大而坚固的系统,这应该是google技术实力的强悍之处。
相关文章
- hadoop集群上捉到linux kernel bug一个 - 08 30, 2012
- hadoop与午睡 - 06 11, 2012
- 捉虫记 - 05 19, 2011
GFS那套存储技术,很多做存储的公司都做得比它更好;
首先你先看一下GFS在设计时的一堆assumption,然后告诉我哪些公司在这方面做得更好
MapReduce做为分布式算法中的一个特例,很多互联网公司都有。
建议你看一下2004年发表的论文,然后告诉我哪些公司也有类似的分布式计算模型
我个人觉得,很多做存储的公司,比如EMC,做的是很好的,它的产品与GFS相比大概只有一个缺点:没有GFS的成本那么低。冷备、热备、转储,甚至比这些功能更多的存储系统都是有的,如果光是比功能多、安全性高,GFS未必能超过这些通用的存储系统。GFS的成功恰恰在于它的专用——它是为google的搜索引擎存储专门打造的,性能和成本才是它最关注的,也是它最强劲的地方。
如果一个专注于搜索引擎的公司在存储上就能做的天下无敌,那其它存储公司还以何面目见人?其实虽然大家都是做存储的,但关注点是不一样的。
至于MapReduce,据我所知,雅虎是有的(当然,我不知道是不是2004年前就有了),其实从有Function Program后,很多人已经在用map-reduce这一思想处理日志。当然,能做到像google那样系统化、成熟化的确实不多。
如果一个公司不考虑存储成本,只能说数据量太小了.
yahoo当然有.他挖走了hadoop的作者.hadoop的灵感怎么来的?他是看到了Google的那3篇论文.搞清楚先后关系
喔,hadoop也是抄的GFS,那google还真伟大啊,如果google某天公开GFS的源码,那像EMC这样的储存公司岂不全破产?
每个职位所看到的东西不一样.但是程序员也不能只追求硬件的性能,不考虑成本.
每种存储都有其局限性.gfs 是分布式存储.他追求的就是超低成本.peer-peer架构 保证其高可用性.同时也造成了他.读取出众.写入很差.
没有不好的语言,同样也没有不好的存储.只是看你的需求.
受教
董兄,从你的博客学到了不少东西,我一直都希望与在技术上穷根究底的人交流。
不过GFS和EMC应该是两码事了。EMC就没有分布式文件系统这种东西。EMC等传统存储系统,与GFS这种相比,适用场合就不同了。分布式再强,目前看来也不可能取代传统存储的地位。把大量鞭炮做成原子弹,对于某些系统来讲还是不行。
呵呵,我从工作起就一直在互联网公司,所以无法理解EMC这一类存储的用途,所以有了多年前的这篇文章。虽然写的很偏执,但能吸引来众多技术爱好者的争论,也不失价值啊 :)