`

Hadoop不是万能的

 
阅读更多
转发:http://www.open-open.com/news/view/b615d7

记者 / 董世晓
2011年,对 Hadoop 来说注定是载入史册的一年:Yahoo!与风险投资公司 Benchmark Capital 联合建立独立公司 Hortonworks,接手 Yahoo!开源软件平台 Apache Hadoop;Hadoop 海量数据分析平台 Datameer、Karmasphere 和 Hadapt 分别获得千万美元级别投资;一向对开源趋势不屑一顾的微软转投 Hadoop 怀抱;Hadoop 之父 Doug Cutting 第一次莅临中国,布道 Hadoop 0.23……

        可以说,Hadoop 生态系统呈现出一派欣欣向荣的景象。近日,记者专门采访了 Hadoop in China 的两位发起人——Yahoo!北京全球研发中心高级经理韩轶平和中科院计算所副研究员查礼,请他们为大家诠释 Hadoop 的现状。

        Hadoop 商机无限

        2011年关于 Hadoop 的众多投资以及微软等公司转向 Hadoop 的事件,昭示了业内感受到了 Hadoop 中蕴藏的商机。

        韩轶平认为:“互联网行业由于拥有深厚的技术实力,所以 Hadoop 得以率先在互联网行业得到了蓬勃发展。但这不意味着其他行业便没有商机。因为不是所有企业都有能力使用 Hadoop,但需求又实实在在地摆在那儿,需要很多的技术支持、定制化产品,这便会最终催生出一个产业,来做这些方面的服务。”

        查礼则解释了传统 IT 公司对 Hadoop 的态度:“微软、IBM 这些公司拥抱 Hadoop,并不是说它们在向 Hadoop 倾斜,而是将 Hadoop 作为一个标准来支持,将 Hadoop 加入到自己的产品体系或者业务架构中,并进而巩固其在这个市场上的地位。”

        通过支持 Hadoop,老牌 IT 厂商用最小的代价加入大数据处理这个新兴市场,不失为明智之举。

        Haoop 技术热点

        NoSQL

        从 2010 年 NoSQL 的好处被认识到之后,好像一夜之间在 IT 业内便已街知巷闻。目前,NoSQL 已经不再停留在学习概念和坐而论道的阶段,而是得到了广泛应用,HBase、MongoDB、Redis 等深入人心。应该说 Facebook 在这中间起到了领头羊的作用,率先采用了一些开源 NoSQL 系统来支持其大数据应用,而国内互联网企业也看到了这个趋势,并积极跟进,不断进行深入的交流和实践。

        实时处理

        据韩轶平介绍,现在包括 Facebook 和 Yahoo!在内的越来越多的公司都在向“实时处理”这个方向发展,而且会有更多的公司来关注怎样真正地让数据处理和分析能够越来越实时,因为处理接近实 时之后,会对业务产生深远的影响。例如对在线广告系统,如果处理时间从十分钟、一小时减少到一分钟,广告收益会有本质的区别。查礼认为,在解决了实时处理 这个“快”的问题之后,“准”的问题就迫在眉睫了。而 Hadoop/NoSQL 就能解决“准”的问题,从而实现精准营销,达到高利润、低成本的目标。

        此外,Namenode、Scalability(可扩展性)、HDFS Performance 这些存在已久的问题,仍然是 Hadoop 的技术热点。

        应用需求或者业务需求,说到底是要为企业赚钱。企业对经营模式、盈利模式的追求,最后导致业务追求,这种业务追求就反映到对系统的追求上,所以 这些追求决定了有哪些问题要解决。例如,High Availability(高可靠性)对电商来说至关重要,如果在圣诞节宕机一小时,损失可想而知。



两位 Hadoop in china 发起人畅谈 Hadoop 热点(左为韩轶平,右为查礼)

        Hadoop 应用场景

        可能是长久苦于大数据处理手段有限的缘故,随着 Hadoop 应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。

        对此,韩轶平说:“在我们研发中心的每次 Hadoop 训练班开学时,我都会告诫学员务必记住‘Hadoop 不是万能的’。在做具体工作时,首先要考量它是否适合使用 Hadoop。”这正如 Doug Cutting 所说:“如果一个小任务用一个节点就能完成,为何还多此一举用 Hadoop 呢?”但如果任务当前很小,考虑到以后会有暴涨的话,最好还是一开始就用 Hadoop 来实现,以便保持将来良好的可扩展性。因此,在动手做之前,这些问题都应该要想清楚,如果没有把握的话,可以多参加一些社区讨论和交流活动,看看哪些人、 哪些公司在做类似的事情、有哪些经验教训,参考过后,再去做选型:技术到底怎样构架、应用怎样来组合这些技术。总之,做到不迷信、不盲从。

        从狭义上来说,Hadoop 就是 MapReduce+HDFS,也就是一种离线处理或者批处理的模式。一方面,如果需求是对在线请求马上得到结果,Hadoop 肯定不适合;另一方面,MapReduce 是一个简化的并行模型,假设硬件总是要坏的,所以它中间所有的交互模式都做得很可靠、简单。这样一来,Hadoop 能够处理的负载或者应用,就会相对较窄。

        而互联网应用模式是一种简单模式,传统 IT 行业则复杂得多,路数与互联网企业完全不同,正因如此,Hadoop 率先在互联网企业获得成功。但以后 Hadoop 极可能应用到传统 IT 行业,比如 MIS 或者 ERP。在传统 IT 行业中,Hadoop 是否保持原样,继续是专用系统,还是慢慢演化成为通用系统,现在尚未可知,但已经显露出这样的苗头。因此,查礼断言,Hadoop 就像早期的操作系统一样,刚推出时是个专用系统,经过多年的发展,才成为通用系统。这也符合计算机行业中从专用到通用的螺旋上升趋势。

        虽然目前 Hadoop 在大企业,特别是互联网大企业中应用较多,但韩轶平认为这并不是因为存在技术门槛的缘故,而是一方面要看企业是否需要做 Hadoop,另一方面则是因为像 Facebook、Google、Yahoo!这样的公司得到了较多的媒体曝光,为人所熟知,而更多的小公司,不管是国内还是国外,都在用 Hadoop,可能规模较小、业务相对简单。而数据的膨胀,也让我们很难定义何为“小”公司了:硅谷一家创业公司,员工只有 13 人,但在 Amazon 租用了 1400 台机器跑它的一个搜索业务。

        Hadoop 主力谁属

        Doug Cutting 曾说:“Apache 软件基金会的初衷是不希望始终有企业在某一个项目里面一家独大,我们希望有更多的人参与进来,希望有更多的交流和碰撞。”因此,尽管目前 Yhaoo!在 Hadoop 中的贡献还是最大,但其占比一直在下降,这在韩轶平看来是件好事,因为现在有更多的公司在为 Hadoop 做贡献,Hadoop 生态系统也日益完善。

        目前看来,对 Yahoo!老大地位形成挑战的几家势头较猛的公司是 Cloudera、Facebook、Hortonworks,还包括国内的企业,比如华为的增长就很快。尽管华为此前从不开源,但现在还能够往 Hadoop 社区里面做贡献,也着实让人感到惊讶。韩轶平点评道:“这也从侧面反映了开源在中国慢慢得到认可了。”查礼则认为:“我觉得还是 Hadoop 给它带来了好处,或者至少没有什么坏处。”

        MapR 在特定应用场景下做出了贡献

        2011年 5 月,MapR 公司推出分布式文件系统和 MapReduce 引擎——MapR Distribution for Apache Hadoop,号称比开源版本的 Hadoop 性能高数倍。

        对此,韩轶平解释道:“在今年的 Hadoop Summit 上,我了解到 MapR 确实在某些特定的应用场景和特定的问题规模下,起到了一定的效果。这样的优化对业界和整个社区绝对是件好事,因为总体上能够推进技术的发展。但我又不认为 它能够完全解决问题,因为要把 Hadoop 做成一个通用系统,把所有问题都解决,还有很漫长的路要走。我很欣赏针对一类具体的问题,去提供一类的优化解决方案,这是绝对可能的,因为当整个产业扩大 了以后,必然会出现某种程度上的分化或者定制化。但我不觉得它已经本质性地改变了 Hadoop。而对于它公布出来的成绩,我也不怀疑,因为它是针对某些限定条件而得出的。”

        查礼也表示认同:“既然 MapR 要兼容 Hadoop,那么它的模式肯定没有创造性或者颠覆性的变化。Hadoop 本身有很多能够优化的地方,在某个 Benchmark 上完全可以做到比 Hadoop 快很多。做系统其实就是在平衡,舍弃一些特性,就像 CAP 理论一样,总是有舍有得,不可能设计出一个完美的系统。”

        2012年 Hadoop 畅想

        2011年,可以看作是 Hadoop 蓄势待发的准备年,那么 2012 年,Hadoop 又会怎样呢?

        韩轶平讲出了他的 Hadoop 愿景:“第一,完善 Hadoop 生态系统,而不仅仅局限于 Hadoop 本身的持续开发、新特征加入和改进。第二,希望进一步根据不同的应用场景、专业领域和应用逻辑,出现更多的中间件和解决方案,因为它们能够帮助 Hadoop 走出互联网公司,走进更多的公司和行业,从而真正推动整个信息产业和行业的发展。”

        查礼也畅想道:“2012年应该是 Hadoop 向传统信息领域进军的一年。在这个领域,海量数据的问题早就存在,只是没有办法解决或者解决的成本太高,再加之那种‘反正这样的问题同行们也都解决不了’ 的心态,所以就先搁置。互联网企业已经为 Hadoop 的应用做出了表率,明年完全有理由期待它在传统信息领域得到更多的应用。”

        众所周知,传统行业手中握有非常多的数据,但苦于没有好的方法充分利用起来。通过像 Hadoop 这样的大数据处理技术,完全可以帮助传统行业创造出更新的价值:一方面可以使其传统业务逻辑得到更有效的实现,另一方面也能够培养出一种思维和方法,使其 慢慢从中发现更多的价值,并进而延伸出更多的价值。此外,Hadoop 还可能催生很多其他行业,例如可以将高铁网络上的所有运行数据、轨道数据采集处理以后,进行优化,就会对交通运输的价格体系和物流体系产生深远影响。

        社会总是要前进,需要有更新的产业出现,Hadoop 是一个值得信赖的推动引擎。
分享到:
评论

相关推荐

    常见的hadoop十大应用误解

    **正解:** Hadoop 并非万能解决方案。虽然它的设计目标是为了处理大量非结构化和半结构化数据,但并不意味着它可以无缝替代所有现有系统。如同早期的数据库,Hadoop 需要特定的应用程序来发挥其潜力。这意味着企业...

    Hadoop 在大数据运算中的限制

    然而,尽管Hadoop在某些大数据处理方面表现出色,但它并非万能的。本文将探讨Hadoop在处理大数据运算中的局限性,并试图澄清有关Hadoop的优势与弱点的常见误解。 首先,Hadoop主要是为了支持某些批处理形式的分布式...

    Hadoop技术对比分析

    然而,Hadoop并不是万能的,它与其他数据存储和处理技术相比,既有优势也有局限性。本文将从企业应用的角度,对比Hadoop技术与其他传统技术之间的差异,并分析其比较优势。 首先,我们来看Hadoop的主要技术特性以及...

    Informatica与Hadoop

    然而,Hadoop并非万能,它并不取代现有的系统,而是作为补充,强化传统系统对大量数据的处理能力。在这个背景下,数据集成显得尤为重要,因为组织需要将Hadoop与其他系统的数据结合,以实现深度的业务洞察。...

    hadoop是什么共3页.pdf.zip

    然而,Hadoop并非万能,对于实时分析和低延迟需求,可能会选择其他的解决方案,如Spark或Flink。 总结来说,Hadoop是一个强大的分布式计算框架,通过其核心组件HDFS、MapReduce和YARN,以及丰富的生态系统,为企业...

    用Hadoop,还是不用Hadoop?(1).pdf

    Hadoop常被视为大数据处理的万能良药,但实际上,它的适用场景是有限的。以下是五个可能不适合使用Hadoop的情况: 1. 数据量并不大:Hadoop设计之初是为了处理TB或PB级别的大数据,而许多企业的数据处理规模远低于...

    Hadoop在大数据处理中的应用优势分析.pdf

    然而,Hadoop并非万能。尽管它在处理大规模数据方面具有明显优势,但如果一个企业拥有的数据量较少,并且数据类型不复杂,可能并不一定需要利用Hadoop进行数据分析。此外,在使用Hadoop集群时,必须在独立的服务器上...

    基于Hadoop的大数据处理关键技术综述22.pptx

    然而,Hadoop并非万能,它不适合存储小文件,不支持频繁的文件修改,且随机读取性能不佳,更适合写一次读多次的应用场景。Hadoop体系还包括如Pig、Hive等工具,Pig提供了一个高级的数据流语言来简化Hadoop上的大规模...

    完整版大数据课件集合2-大数据导论-第二章-大数据处理架构Hadoop(共44页).rar

    然而,Hadoop并非万能,它在实时处理、小规模数据处理和交互式查询等方面存在局限。为了弥补这些不足,后来出现了如Spark、Flink等新一代大数据处理框架,它们在速度和易用性上有所提升,但Hadoop仍然是大数据处理的...

    Hadoop技术HDFS的组成架构共7页.pdf.zip

    Hadoop技术是大数据处理领域的重要组成部分,其核心之一是分布式文件...然而,HDFS并非万能,对于低延迟随机读写或小文件存储,它可能不是最佳选择。因此,在实际应用中,需要结合业务需求选择合适的数据存储解决方案。

    大数据存储与处理-第三讲84.pptx

    然而,Hadoop并非万能。对于CPU密集型任务,由于Java的IO处理特性,其性能可能不如预期。此外,Hadoop生态系统还包括Hive(用于数据仓库)、Pig(高级数据分析)、HBase(NoSQL数据库)和Zookeeper(分布式协调服务...

    大数据存储与处理第三讲84.pptx

    然而,Hadoop并非万能解决方案。虽然它在处理大规模数据的存储和分析方面表现出色,但对于CPU密集型的任务,由于Java的IO处理特性,其性能可能受限。此外,Hadoop生态系统还包括Hive、Pig、HBase和Zookeeper等工具,...

    导出万能Excel(最精开发版)

    这时,可以借助Hadoop、Spark等大数据处理框架,将结果导出为Excel,便于直观查看和分析。 7. **数据清洗与预处理**: 在导出Excel之前,通常需要对数据进行清洗和预处理,如去除空值、处理异常值、统一格式等。这...

    winutils.zip

    需要注意的是,winutils.exe并不是万能的,有些特定于Linux的特性(如软链接、硬链接等)在Windows环境下可能无法完全模拟。此外,由于winutils.exe是针对Hadoop生态系统的,所以在非Hadoop场景下,它的作用相对有限...

    万能的搜索引擎免费代码

    6. **分布式搜索引擎**:对于大规模数据,单机处理效率低下,所以搜索引擎往往采用分布式架构,如Hadoop或Spark。这些框架可以分布式存储数据、并行处理任务,提高性能。 7. **免费代码与开源**:开源搜索引擎项目...

    万能数据库 连接工具,dbeaver7.0工具

    《万能数据库连接工具——DBeaver7.0详解》 DBeaver是一款广受欢迎的开源、免费的数据库管理工具,适用于多种操作系统,包括Windows、Linux和Mac OS。这款工具以其强大的功能和友好的用户界面,深受广大数据库管理...

    sqlDbPersonal 万能数据库连接器

    sqlDbPersonal就是这样一款备受瞩目的万能数据库连接器,它以其轻量级、高效能的特点,广泛应用于各类数据库的连接与管理。本文将深入探讨sqlDbPersonal的特性和使用方法,以期帮助读者更好地理解和应用这款工具。 ...

Global site tag (gtag.js) - Google Analytics