0 0

Hadoop中关于MapReduce的疑问?10

hadoop集群,有一个Master和五个Slave机器
当统计一个文件的单词数,这个文件为150M,所以上传这个文件后(默认block为64M),所以文件存在三个Slave的DataNode中,
那么,JobTracher会启动几个Map线程来处理?是否启动的Map线程都是在文件所在的三台slave中?
2014年7月30日 23:00

3个答案 按时间排序 按投票排序

0 0

那么,JobTracher会启动几个Map线程来处理?
这个是有配置,参数来设定的. 我百度查找到了下面的文档. http://blog.sina.com.cn/s/blog_6a67b5c50100vo3l.html


是否启动的Map线程都是在文件所在的三台slave中
Hadoop会尽力保证让运算在数据所在的节点运行,如果不能保证(比如当前节点CPU长期满负荷),也会尽力保证在同一个机架上面的节点,最后才是随机的选择一个节点.

2014年8月06日 16:41
0 0

那么,JobTracher会启动几个Map线程来处理?
你这统计只是一个任务,启动一个job就可以了。



是否启动的Map线程都是在文件所在的三台slave中?
除了dataNode还有个nameNode,用来保存DataNode节点的一种数据结构。
所以他会自动找到对应的block,其他两个是他的备份

2014年8月01日 10:31
0 0

我也在刚刚开始学安卓 +ios+ hadoop 

我参考的是这个例子 按它的理论自己做了下可以跑 你看看

http://blog.csdn.net/hguisu/article/details/7237395

2014年7月30日 23:54

相关推荐

    Hadoop本地安装教程

    这通常通过在`hadoop-env.sh`、`core-site.xml`、`hdfs-site.xml`和`yarn-site.xml`中添加特定的配置来实现,例如设置`dfs.datanode.data.dir`指向本地目录,并设置`mapreduce.framework.name`为`local`。...

    浪潮Hadoop资料

    最底部是HDFS,它存储Hadoop 集群中所有存储节点上的文件。HDFS 的上一层是MapReduce 引擎,该引擎由JobTrackers 和TaskTrackers组成。 这篇博客就主要来讲讲HDFS吧~~~ HDFS是Hadoop Distributed File System的简称...

    Hadoop实战.pdf

    Hadoop的核心是两个组件:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一种分布式文件系统,用于存储大规模的数据集;而MapReduce则是一种编程模型,用于并行处理这些数据集。 ### Hadoop实战知识点...

    Hadoop入门手册

    在学习过程中,读者会了解到如何设置Hadoop环境,创建和读取HDFS上的文件,编写MapReduce程序,以及如何监控和优化Hadoop集群的性能。此外,通过实例分析,可能会深入探讨Hadoop在数据分析、日志处理、推荐系统等...

    企业级Hadoop 2.x项目实战

    同时,学院还鼓励学员在学习过程中积极提出疑问,并为学员提供答疑服务,以确保学员能够真正理解和掌握课程中的知识要点。 综上所述,云帆大数据学院提供的企业级Hadoop 2.x项目实战课程,不仅能够让学员在理论与...

    大规模Web性能优化调研报告.doc

    然而,1.3章节提出了一个疑问:Hadoop是否真的如传说中那么完美?实际上,Hadoop在处理小规模数据和实时查询时效率较低,且存在一定的延迟问题。1.4章节进一步分析了Hadoop在地理信息系统等特定学科应用中的适用性,...

    Hadoop的eclipse的插件安装方法

    在这个窗口里,用户可以通过点击右侧的小象图标来创建一个New HadoopLocation,这个过程实际上是在Eclipse中配置一个新的Hadoop集群位置,之后便可以在这个集群上执行MapReduce作业了。 安装Hadoop Eclipse插件之后...

    大数据相关文档交流学习(内有云盘资料地址_包括视频教程等)

    Hadoop MapReduce是其核心计算模型,通过将任务分解为小的Map和Reduce阶段,实现并行处理。随着Spark的崛起,其在大数据处理中的速度优势使其成为了Hadoop的有力补充,Spark提供了更高效的内存计算和交互式数据分析...

    FusionInsight_HD_V100R002C50_培训材料_01

    【FusionInsight_HD_V100R002C50】是华为推出的分布式大数据处理平台FusionInsight HD的一个版本号,这表明该压缩包中的内容是关于这个特定版本的培训材料。FusionInsight HD是企业级的大数据解决方案,它基于Hadoop...

    J2EE和数据分析实践分享-V0.2.pptx

    - **关键技术**:如Hadoop MapReduce、Apache Spark、NoSQL数据库等。 #### 三、J2EE在信息化中的应用 - **企业级应用开发**:利用J2EE可以快速构建稳定可靠的企业级应用系统,如ERP(企业资源规划)、CRM(客户...

    解惑大数据

    《解惑大数据》一书,正如其名,旨在解答关于大数据的各种疑问,帮助读者深入理解这一现代信息技术的核心概念。大数据不仅是技术领域的热门话题,也是推动各行各业创新与变革的关键力量。以下将从多个方面阐述大数据...

    azkaban3.90_zip.zip

    Azkaban 支持多种作业类型,包括 Hadoop MapReduce、Java、Shell 命令等,能够灵活地集成到大数据处理流程中。此外,它还支持 SLA(Service Level Agreement)设定,当作业超出预定时间未完成时,可以触发报警。通过...

    ZZ052 大数据应用与服务赛项赛题.rar

    6. FAQ(常见问题解答):解答参赛者可能遇到的疑问,提供比赛过程中的指导。 7. 提交指南:说明提交解决方案的格式、时间限制和其他要求。 在大数据应用与服务的比赛中,参赛者需要掌握的关键知识点包括: 1. ...

    开源力量公开课视频教程系列

    - **Hadoop核心技术与实践**(文件源45):涵盖Hadoop生态系统的核心组件,如MapReduce、HDFS等,帮助学员掌握大数据处理的关键技术。 - **Python Web应用开发**(文件源48、62):通过Django框架,教授如何构建高...

    完结23章大数据硬核技能进阶 Spark3实战智能物业运营系统.txt

    - **第一代计算引擎**:以Hadoop MapReduce为代表,主要适用于批处理任务,但存在拆分算法复杂等问题。 - **第二代计算引擎**:如Tez和Oozie,支持DAG(有向无环图)框架,增强了作业间的依赖关系处理能力,但仍以...

    199-大数据平台及数据治理整体方案.docx

    在当前大数据时代背景下,如何快速地从海量数据中提取有价值的信息,成为企业和组织面临的重大挑战。一方面,需要构建能够支撑大数据存储、计算、分析的一体化平台;另一方面,则需要通过科学的数据治理策略确保数据...

Global site tag (gtag.js) - Google Analytics