MapReduce的适用场合 - yixiaohuamax - ITeye博客

`

yixiaohuamax

浏览: 30949 次
来自: ...

最近访客更多访客>>

zchin

潇毅2012

doubusha

bobocai

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

chenwq： Chain中貌似只有ChainMapper(addMapper ...
ChainMapper和ChainReducer的实现原理
Genie13：很不错的例子啊Conn3 c2 = new Conn3(); ...
ChainMapper和ChainReducer处理数据流程示例
zz_19830103：谢谢了，学习了
在Hadoop平台上运行程序时，导入第三方类库的方法
muruan：真是绝好文章，很有帮助，谢谢博主！
在Hadoop平台上运行程序时，导入第三方类库的方法

MapReduce的适用场合

博客分类：

MapReduce

Mapreduce Access performance C C++

阅读更多

MapReduce is a good fit for problems

that need to analyze the whole dataset, in a batch fashion, particularly for ad hoc analysis.

MapReduce suits applications where the data is written once, and read many

times, whereas a relational database is good for datasets that are continually updated.

MapReduce works well on unstructured or semistructured

data, since it is designed to interpret the data at processing time.

MapReduce is a linearly scalable programming model.

but becomes a problem when nodes need to

access larger data volumes (hundreds of gigabytes, the point at which MapReduce really

starts to shine), since the network bandwidth is the bottleneck, and compute nodes

become idle.

MapReduce tries to colocate the data with the compute node, so data access is fast

since it is local.* This feature, known as data locality, is at the heart of MapReduce and

is the reason for its good performance.

MPI gives great control to the programmer, but requires that he or she explicitly handle

the mechanics of the data flow, exposed via low-level C routines and constructs, such

as sockets, as well as the higher-level algorithm for the analysis. MapReduce operates

only at the higher level: the programmer thinks in terms of functions of key and value

pairs, and the data flow is implicit.

MapReduce is designed to run jobs that last minutes or hours on trusted, dedicated

hardware running in a single data center with very high aggregate bandwidth interconnects.

查看图片附件

分享到：

Java内存回收机制 | ChainMapper和ChainReducer的实现原理

2010-08-30 13:55
浏览 1668
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

MapReduce 实现员工信息按部门薪水排序: 应用场景及目的：本教程演示了怎样使用 MapReduce 在 Hadoop 上处理 CSV 文件，实现定制化的记录排序任务，特别是适用于数据处理，分析的场合。此外，在解决过程中所遇到问题的部分进行了详细解答。帮助读者能够更好...

一种基于 MapReduce 的薪资大数据处理的设计.pdf: 通过遍历map中传来的每一个键，将薪资列相加得到总和，使用for循环定义一个计数器变量count来计算岗位个数，然后将薪资总和除以岗位数得到平均薪资。这一处理过程在Reduce阶段完成，最终输出每个岗位的平均薪资。...

mahout-crf:基于MapReduce的并行CRF算法的设计与实现: 7. **应用场景**：基于MapReduce的并行CRF算法可以应用于诸如文本分类、语义分析、图像识别、生物信息学等领域，特别是处理大量序列数据的场合。通过深入理解这些知识点，开发者可以学习如何在实际项目中利用...

尚硅谷大数据技术hive学习笔记: 3. Hadoop 使用 HDFS 进行存储，使用 MapReduce 进行计算。 4. 驱动器：Driver，包括解析器、编译器、优化器、执行器。 Hive 的运行机制包括： 1. 用户创建 table create table …。 2. 用户针对数据表进行数据...

Hive原理及使用笔记(精华版): 1. 操作接口采用类SQL语法，提供快速开发的能力，简单易上手，降低了MapReduce的使用门槛。 2. 避免了直接编写MapReduce程序，减少了开发人员的学习成本。 3. Hive适合进行大数据分析，尤其在对实时性要求不高的数据...

大数据技术之Hive-01（基础）.pdf: 由于这些局限性，Hive更多地被应用于对实时性要求不高的数据分析场合。 Hive的架构原理包括多个核心组件。用户接口部分提供了命令行、JDBC/ODBC和浏览器访问等多种方式与Hive进行交互。元数据存储在Metastore中，...

apache hbase reference guide: - **Supported Datatypes**（支持的数据类型）：HBase支持的数据类型及其使用场合。 - **Time To Live (TTL)**（存活时间）：定义数据的过期时间，过期后数据会被自动删除。 - **Keeping Deleted Cells**（保留已...

Hadoop权威指南（中文版）: 在学习Hadoop时，通常需要了解如何搭建和管理Hadoop集群，包括如何配置HDFS、如何运行MapReduce作业、以及如何使用YARN进行资源调度。此外，学习者需要掌握使用Hadoop生态系统中的各种工具，以及如何编写自己的...

生物信息_大数据: 然而，尽管MapReduce在许多场合下表现出色，但本研究表明，在某些特定情况下，其他DDP模式可能会带来更好的性能提升。 #### CoGroup与Match：两种新的DDP模式除了传统的MapReduce模式外，研究者还探讨了两种新的...

hadoop开发者第三期: Hadoop是一个开源框架，主要用来对大规模数据集合进行分布式存储和分析，尤其擅长对...通过这种技术结合，开发者可以利用Hadoop的分布式计算能力，同时保留对传统数据库的依赖，这在很多实际应用场合中都是十分必要的。

hadoop海量数据处理详解与项目实战: 2. 使用MapReduce进行数据预处理和分析。 3. 应用Hive进行数据仓库建设，为数据分析提供SQL接口。 4. 利用Sqoop在Hadoop和外部数据库间进行数据交换。 5. 结果的输出和展示。在进行项目实战时，重要的不仅仅是编写...

apache_hbase_reference_guide(官网).pdf: - **HBase提供的MapReduce作业**，介绍了如何使用HBase内置的MapReduce作业。 - **HFiles直接写入**，提供了批量导入数据时如何直接写入HFiles的详细指南。 - **示例和案例研究**，包括如何在MapReduce作业中访问...

学习-hive源码.doc: 此外，Hive的查询性能受到MapReduce的限制，因此在需要高性能查询的场合，可能需要结合使用Tez或Spark作为执行引擎。总的来说，Hive是一个强大的大数据处理工具，特别适合数据仓库和BI场景。学习Hive源码可以帮助...

spark入门培训: Spark最初是作为MapReduce的替代方案而设计，它将数据加载到内存中，克服了MapReduce在进行迭代计算时对磁盘I/O的依赖，大幅度提升了处理速度。一、Spark简介与应用场合 Spark支持多种编程语言，如Java、Scala、...

大数据计算框架详细对比分析: MapReduce是Hadoop的原生批处理引擎，批处理模式来自MapReduce引擎。 Apache Spark是混合框架，支持批处理和流处理模式。Spark Core是Spark的核心组件，提供了批处理和流处理的能力。Spark SQL是Spark的SQL模块，...

基于Hadoop云计算平台仿百度智能输入提示算法的研究与实现.pdf: 云计算技术可以分为广义和狭义两个概念，广义云计算关注的是服务商如何向用户提供交付和使用服务的模式，狭义云计算则更侧重于用户能够根据需求随时获取所需的资源和IT基础设施。Hadoop作为狭义云计算的典型技术，...

Hive编程指南: 它广泛应用于数据仓库、日志分析和数据挖掘等场景中，特别是对于需要处理海量数据集的场合，Hive能够提供强大的支持。这本书的内容涵盖了Hive的基础知识、高级特性、优化技巧以及最佳实践等多个方面。作者可能会从...

Global site tag (gtag.js) - Google Analytics