传送门:http://blog.sina.com.cn/s/blog_4a1f59bf0100utvd.html
主要内容我不用帖了,其实让我更有所得(或有所思)的是后面的评论:(贴一下,链接同上)
-
medcl2011-08-31 15:09:40 [举报]
Overnight success takes long time.~~
-
-
-
-
做学问要朴实归真2011-10-19 11:46:01 [举报]
回复
@小史的窗户 :MapReduce只适合作简单的计算,例如只有一个map或者一个map+一个reduce,它在当前的搜索领域应用效率不会成为瓶颈,但它的计算原理导致了其在复杂计算的效率低下,这在数据分析领域中尤为明显。
来自做学问要朴实归真的评论
-
做学问要朴实归真2011-10-19 11:46:12 [举报]
回复
@小史的窗户 :随着移动互联网的发展,数据分析将扮演越来越重要的角色(包括在搜索领域),MapReduce的性能瓶颈将不可避免,虽然不少大企业做了一些补丁与改 进,但这个瓶颈是由mapreduce的原理导致的,所以它必然会在主流计算中被淘汰。但它又是开源免费的,所以在很长一段时间内,它不会消失。
来自做学问要朴实归真的评论
-
小史的窗户2011-10-19 22:43:19 [举报]
回复
@做学问要朴实归真 :我没有学过数据分析,不太了解MapReduce的原理。但是我觉得以谷歌的实力推出的产品应该有很大的科学性。另外如果真的有缺陷,那么该产品推出了这么多年,也早应该有替代产品出现
来自小史的窗户的评论
-
做学问要朴实归真2011-10-20 08:58:40 [举报]
在Google提出 mapreduce时的搜索领域,MapReduce可以解决其大部分问题,但随着Google提出Perculator时,其mapreduce就被局 限在部分应用了,这部分应用包括数据过滤、排序等,即只有一个map或者一个map+reduce。 数据分析有些计算,用一个map+reduce解决不了,所以有幸能隐患。
来自做学问要朴实归真的评论
-
-
做学问要朴实归真2011-10-21 10:06:39 [举报]
回复
@小史的窗户 :是的。任何一个技术都有它适应的领域,MapReduce技术开始于2003年,现在已经8年了。网络环境也已经进入移动互联网时代,搜索应用也发生了变化,MapReduce也在面临各种瓶颈。
来自做学问要朴实归真的评论
分享到:
相关推荐
本文介绍了一种在雅虎开发并部署的工作流管理器——Nova。该系统旨在处理不断涌入的数据,并通过在Hadoop集群上执行Pig程序来实现这一目标。Pig是一种用于Hadoop MapReduce系统的结构化数据流语言及其运行时环境。...
- **Oozie:**用于工作流调度的任务协调服务。 - **Zookeeper:**分布式应用协调服务。 - **Mahout:**支持机器学习算法的库。 - **Cascading:**简化MapReduce编程模型的工具。 - **Scribe:**日志收集系统。 - **...
Pig是一个开源项目,它建立在Hadoop之上,主要用于数据处理和数据分析工作。Pig提供了一种名为Pig Latin的脚本语言,它是一种并行数据流语言,可以用来描述数据的转换和处理过程。Pig Latin语言的设计哲学是以简单...
Oozie是用于管理Hadoop作业的工作流调度系统。 Tom White是Hadoop领域著名的专家和贡献者之一。他从2006年开始为Hadoop项目作出贡献,最初专注于优化Hadoop在Amazon EC2和S3服务上的运行,之后又解决了许多问题,...
- Oozie:是Hadoop的工作流调度器,用于管理Hadoop作业和工作流程。 Hadoop的广泛应用包括社交媒体分析、大数据挖掘、日志处理、推荐系统等多个领域。Facebook、《纽约时报》和Last.fm等公司都成功地在生产环境中...
Oozie是用于管理Hadoop作业的工作流调度系统。 作为企业级的解决方案,Hadoop已被多家大型企业采用,帮助它们解决存储和分析大数据的挑战。Hadoop的核心价值在于其可扩展性、容错性、经济性和灵活性。可扩展性指的...
Oozie是一个工作流调度系统,用于管理和调度Hadoop作业。 综上所述,Hadoop作为一个成熟的大数据处理平台,它不仅仅包含了一个分布式文件系统和一个大数据处理模型,还有着一个非常丰富的技术生态。这使得Hadoop...
Oozie是一个工作流调度系统,用于在Hadoop中协调和调度复杂的数据处理工作流。它可以自动管理多个任务之间的依赖关系,简化了大数据处理流程的管理。 ##### 3.9 Mahout Mahout是一个用于构建智能应用程序的机器...
6. **Hadoop生态系统**:Hadoop是整个大数据生态的一部分,它周围有众多相关项目,如Hive(数据仓库工具)、Pig(数据流处理语言)、Spark(快速通用的大数据处理引擎)、HBase(NoSQL数据库)等,它们共同构成了...
MapReduce负责大规模数据处理,YARN作为资源管理系统,HBase是NoSQL数据库,Zookeeper提供分布式协调服务,Hive提供了SQL-like接口进行数据分析,Pig则简化了大数据处理的编程模型,Oozie是工作流调度系统,Sqoop...
- Pig:一种数据流语言和执行框架。 - ZooKeeper:协调服务,用于分布式应用中的协调工作。 #### 二、Hadoop分布式文件系统(HDFS) 1. **HDFS架构**: - NameNode:主节点,负责管理文件系统的命名空间和...
- **Hadoop生态系统**: 除了核心的Hadoop项目(包括HDFS和MapReduce)之外,Hadoop生态系统还包括一系列周边项目如Pig、HBase、ZooKeeper等,这些项目共同构建了一个强大的大数据处理平台。 - **Hadoop版本**: 本书...
Pig Latin 是为了解决 MapReduce 的局限性而设计的一种高级数据流语言,它结合了 SQL 的便捷性和 MapReduce 的并行处理能力。通过 Pig 编译器,Pig Latin 程序可以在 Hadoop 上高效执行,适合处理大规模数据集,特别...