由Hadoop想到的

        做项目时碰到要查询和统计海量数据,所以想到了Hadoop,但同事反映Hadoop的性能不稳定,处理离线数据还行,处理实时数据就不保险了。又看了看其它的分布式文件系统,比如mogilefslustre等,它们只能分布式存储文件,不能分布式计算,换句话说:它们只能分摊IO,不能分摊CPU。最后决定离线数据还是用Hadoop。
       国内网站介绍Hadoop的文章都会提到MapReduce这个google的”招牌技术“。我是想不明白:GFS那套存储技术,很多做存储的公司都做得比它更好;而MapReduce做为分布式算法中的一个特例,很多互联网公司都有。但为什么大家都”误以为“这两门技术是来源于google的?因为以前做这些技术的公司都没什么名气,也没怎么宣传,而google拿出来写成论文大肆宣传。所以大家都把它当宝。
        大家都以为蒸汽机是瓦特发明的,其实不是,同时代的很多工程师都做出了蒸汽机,但瓦特是第一个拿它去申请专利的,所以大家都以为是他发明的。你可以认为瓦特是个有商业眼光的先行者,也可以认为他是一个利用同时代人智慧的窃贼。就看你怎么想了。


====== 2010.7.22 ======

看来很多同学对我这篇三年前的文章提出了质疑。我原想死撑一下,后来唐骏的事情发生了,我领悟了:有错就要认。
于是,在此,我承认:我的看法有问题,GFS的技术内涵,的确超过了很多做存储的公司,目前还没有规模和性能都比GFS高的分布式文件系统。

另外,说“MapReduce是分布式算法中的一个特列”,这应该不算错的,map-reduce算法并非google发明,但能从晦涩的教科书里找出实用的算法,精简之,工程化之,使之成为庞大而坚固的系统,这应该是google技术实力的强悍之处。

相关文章

分类

8 Comments

Fcktx said:

GFS那套存储技术,很多做存储的公司都做得比它更好;

首先你先看一下GFS在设计时的一堆assumption,然后告诉我哪些公司在这方面做得更好

MapReduce做为分布式算法中的一个特例,很多互联网公司都有。
建议你看一下2004年发表的论文,然后告诉我哪些公司也有类似的分布式计算模型

DongHao Author Profile Page said:

我个人觉得,很多做存储的公司,比如EMC,做的是很好的,它的产品与GFS相比大概只有一个缺点:没有GFS的成本那么低。冷备、热备、转储,甚至比这些功能更多的存储系统都是有的,如果光是比功能多、安全性高,GFS未必能超过这些通用的存储系统。GFS的成功恰恰在于它的专用——它是为google的搜索引擎存储专门打造的,性能和成本才是它最关注的,也是它最强劲的地方。
如果一个专注于搜索引擎的公司在存储上就能做的天下无敌,那其它存储公司还以何面目见人?其实虽然大家都是做存储的,但关注点是不一样的。

至于MapReduce,据我所知,雅虎是有的(当然,我不知道是不是2004年前就有了),其实从有Function Program后,很多人已经在用map-reduce这一思想处理日志。当然,能做到像google那样系统化、成熟化的确实不多。

for said:

如果一个公司不考虑存储成本,只能说数据量太小了.
yahoo当然有.他挖走了hadoop的作者.hadoop的灵感怎么来的?他是看到了Google的那3篇论文.搞清楚先后关系

DongHao Author Profile Page said:

喔,hadoop也是抄的GFS,那google还真伟大啊,如果google某天公开GFS的源码,那像EMC这样的储存公司岂不全破产?

for said:

每个职位所看到的东西不一样.但是程序员也不能只追求硬件的性能,不考虑成本.
每种存储都有其局限性.gfs 是分布式存储.他追求的就是超低成本.peer-peer架构 保证其高可用性.同时也造成了他.读取出众.写入很差.
没有不好的语言,同样也没有不好的存储.只是看你的需求.

DongHao Author Profile Page said:

受教

冬瓜头 said:

董兄,从你的博客学到了不少东西,我一直都希望与在技术上穷根究底的人交流。
不过GFS和EMC应该是两码事了。EMC就没有分布式文件系统这种东西。EMC等传统存储系统,与GFS这种相比,适用场合就不同了。分布式再强,目前看来也不可能取代传统存储的地位。把大量鞭炮做成原子弹,对于某些系统来讲还是不行。

DongHao Author Profile Page said:

呵呵,我从工作起就一直在互联网公司,所以无法理解EMC这一类存储的用途,所以有了多年前的这篇文章。虽然写的很偏执,但能吸引来众多技术爱好者的争论,也不失价值啊 :)

留言:

关于文章

This page contains a single entry by DongHao published on 09 8, 2007 10:45 PM.

认错了“巨人” was the previous entry in this blog.

从大脑袋到小脑袋 is the next entry in this blog.

Find recent content on the main index or look in the 存档 to find all content.