Hadoop中关于MapReduce的疑问？ - ITeye问答

问答首页 → 移动开发技术

0 0

Hadoop中关于MapReduce的疑问？10

hadoop集群，有一个Master和五个Slave机器
当统计一个文件的单词数，这个文件为150M，所以上传这个文件后(默认block为64M)，所以文件存在三个Slave的DataNode中，
那么，JobTracher会启动几个Map线程来处理？是否启动的Map线程都是在文件所在的三台slave中？

Hadoop Mapreduce

2014年7月30日 23:00

shengxiaoshulong
15
0 0 2

3个答案按时间排序按投票排序

0 0

那么，JobTracher会启动几个Map线程来处理？
这个是有配置,参数来设定的. 我百度查找到了下面的文档. http://blog.sina.com.cn/s/blog_6a67b5c50100vo3l.html

是否启动的Map线程都是在文件所在的三台slave中
Hadoop会尽力保证让运算在数据所在的节点运行,如果不能保证(比如当前节点CPU长期满负荷),也会尽力保证在同一个机架上面的节点,最后才是随机的选择一个节点.

2014年8月06日 16:41

flyfoxs
63
0 0 5

添加评论

0 0

那么，JobTracher会启动几个Map线程来处理？
你这统计只是一个任务，启动一个job就可以了。

是否启动的Map线程都是在文件所在的三台slave中？
除了dataNode还有个nameNode，用来保存DataNode节点的一种数据结构。
所以他会自动找到对应的block，其他两个是他的备份

2014年8月01日 10:31

cntaizi
19
0 0 1

添加评论

0 0

我也在刚刚开始学安卓 +ios+ hadoop

我参考的是这个例子按它的理论自己做了下可以跑你看看

http://blog.csdn.net/hguisu/article/details/7237395

2014年7月30日 23:54

lao1984wang
617
0 0 24

1条评论

相关推荐

Hadoop本地安装教程: 这通常通过在`hadoop-env.sh`、`core-site.xml`、`hdfs-site.xml`和`yarn-site.xml`中添加特定的配置来实现，例如设置`dfs.datanode.data.dir`指向本地目录，并设置`mapreduce.framework.name`为`local`。...

浪潮Hadoop资料: 最底部是HDFS，它存储Hadoop 集群中所有存储节点上的文件。HDFS 的上一层是MapReduce 引擎，该引擎由JobTrackers 和TaskTrackers组成。这篇博客就主要来讲讲HDFS吧~~~ HDFS是Hadoop Distributed File System的简称...

Hadoop入门手册: 在学习过程中，读者会了解到如何设置Hadoop环境，创建和读取HDFS上的文件，编写MapReduce程序，以及如何监控和优化Hadoop集群的性能。此外，通过实例分析，可能会深入探讨Hadoop在数据分析、日志处理、推荐系统等...

企业级Hadoop 2.x项目实战: 同时，学院还鼓励学员在学习过程中积极提出疑问，并为学员提供答疑服务，以确保学员能够真正理解和掌握课程中的知识要点。综上所述，云帆大数据学院提供的企业级Hadoop 2.x项目实战课程，不仅能够让学员在理论与...

大规模Web性能优化调研报告.doc: 然而，1.3章节提出了一个疑问：Hadoop是否真的如传说中那么完美？实际上，Hadoop在处理小规模数据和实时查询时效率较低，且存在一定的延迟问题。1.4章节进一步分析了Hadoop在地理信息系统等特定学科应用中的适用性，...

Hadoop的eclipse的插件安装方法: 在这个窗口里，用户可以通过点击右侧的小象图标来创建一个New HadoopLocation，这个过程实际上是在Eclipse中配置一个新的Hadoop集群位置，之后便可以在这个集群上执行MapReduce作业了。安装Hadoop Eclipse插件之后...

大数据相关文档交流学习（内有云盘资料地址_包括视频教程等）: Hadoop MapReduce是其核心计算模型，通过将任务分解为小的Map和Reduce阶段，实现并行处理。随着Spark的崛起，其在大数据处理中的速度优势使其成为了Hadoop的有力补充，Spark提供了更高效的内存计算和交互式数据分析...

FusionInsight_HD_V100R002C50_培训材料_01: 【FusionInsight_HD_V100R002C50】是华为推出的分布式大数据处理平台FusionInsight HD的一个版本号，这表明该压缩包中的内容是关于这个特定版本的培训材料。FusionInsight HD是企业级的大数据解决方案，它基于Hadoop...

J2EE和数据分析实践分享-V0.2.pptx: - **关键技术**：如Hadoop MapReduce、Apache Spark、NoSQL数据库等。 #### 三、J2EE在信息化中的应用 - **企业级应用开发**：利用J2EE可以快速构建稳定可靠的企业级应用系统，如ERP（企业资源规划）、CRM（客户...

解惑大数据: 《解惑大数据》一书，正如其名，旨在解答关于大数据的各种疑问，帮助读者深入理解这一现代信息技术的核心概念。大数据不仅是技术领域的热门话题，也是推动各行各业创新与变革的关键力量。以下将从多个方面阐述大数据...

azkaban3.90_zip.zip: Azkaban 支持多种作业类型，包括 Hadoop MapReduce、Java、Shell 命令等，能够灵活地集成到大数据处理流程中。此外，它还支持 SLA（Service Level Agreement）设定，当作业超出预定时间未完成时，可以触发报警。通过...

ZZ052 大数据应用与服务赛项赛题.rar: 6. FAQ（常见问题解答）：解答参赛者可能遇到的疑问，提供比赛过程中的指导。 7. 提交指南：说明提交解决方案的格式、时间限制和其他要求。在大数据应用与服务的比赛中，参赛者需要掌握的关键知识点包括： 1. ...

开源力量公开课视频教程系列: - **Hadoop核心技术与实践**（文件源45）：涵盖Hadoop生态系统的核心组件，如MapReduce、HDFS等，帮助学员掌握大数据处理的关键技术。 - **Python Web应用开发**（文件源48、62）：通过Django框架，教授如何构建高...

完结23章大数据硬核技能进阶 Spark3实战智能物业运营系统.txt: - **第一代计算引擎**：以Hadoop MapReduce为代表，主要适用于批处理任务，但存在拆分算法复杂等问题。 - **第二代计算引擎**：如Tez和Oozie，支持DAG（有向无环图）框架，增强了作业间的依赖关系处理能力，但仍以...

199-大数据平台及数据治理整体方案.docx: 在当前大数据时代背景下，如何快速地从海量数据中提取有价值的信息，成为企业和组织面临的重大挑战。一方面，需要构建能够支撑大数据存储、计算、分析的一体化平台；另一方面，则需要通过科学的数据治理策略确保数据...

Ask-but

我的问答 FAQ | 勋章

相关推荐

已解决问题

未解决问题

排行榜

查看全部排名>>

Global site tag (gtag.js) - Google Analytics