impove hadoop mapreduce performance -

gushuizerotoone

浏览: 175637 次
性别:
来自: 杭州

最近访客更多访客>>

rbaggio10

KnightMCH

牛哄哄

wenming6688

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

impove hadoop mapreduce performance

博客分类：

hadoop

Mapreduce performance Hadoop UP Apache

http://hadoop.apache.org/common/docs/current/mapred_tutorial.html
http://hadoop.group.iteye.com/group/topic/18294

1.set combiner:
Users can optionally specify a combiner, via JobConf.setCombinerClass(Class), to perform local aggregation of the intermediate outputs, which helps to cut down the amount of data transferred from the Mapper to the Reducer. 设置Combiner Class就是为了在把数据由mapper传给reducer前先把local machine的数据处理过，这样就避免数据的大规模迁移（先处理local data，再传给reducer）

2.how many maps:
理想状态下 = sizeOf(inputData)/blockSize(试？？，是理想状态下还是最高数目)
Task setup takes awhile, so it is best if the maps take at least a minute to execute（最好map的执行时间至少1分钟）. The right level of parallelism for maps seems to be around 10-100 maps per-node, although it has been set up to 300 maps for very cpu-light map tasks(cpu light的task可以设置得更高点).

Thus, if you expect 10TB of input data and have a blocksize of 128MB, you'll end up with 82,000 maps, unless setNumMapTasks(int) (which only provides a hint to the framework) is used to set it even higher. setNumMapTask()只是给mapreduce framework一个hint，而并非执行时真的就是这么个map task 数

3.How Many Reduces：

The right number of reduces seems to be 0.95 or 1.75 multiplied by (<no. of nodes> * mapred.tasktracker.reduce.tasks.maximum).

With 0.95 all of the reduces can launch immediately and start transfering map outputs as the maps finish. With 1.75 the faster nodes will finish their first round of reduces and launch a second wave of reduces doing a much better job of load balancing.

Increasing the number of reduces increases the framework overhead, but increases load balancing and lowers the cost of failures.

4.Reducer NONE:

It is legal to set the number of reduce-tasks to zero if no reduction is desired.不用reduce阶段

5.mapred.tasktracker.map.tasks.maximum:（default value = 2）
The maximum number of map tasks that will be run
simultaneously by a task tracker.一台机器上（tasktracker）同时运行的map task的个数。一个map task是有input data split 后的一份执行map函数？
《pro hadoop》书79页说这个值最好设置为the effective number of CPUs on the node.(意思是＝cpu的数目？双核的设为2？？)

6.mapred.map.tasks 这个job的所有tasks的个数（default value=2）如果要设定的话，根据上面第二点，＝machinenum*(10-100)试??

7. dfs.block.size 待

分享到：

关于map task和reduce task的个数 | eclipse下写程序遇到的奇怪事情

2010-04-09 20:50
浏览 1549
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

想学好英语的必备工具: 我的英语比较差，自从看了这个以后，英语得到很大提高，希望对大伙英语的IMPOVE有些帮助！

TinyYolo2实时视频流物体检测ONNX模型: TinyYolo2实时视频流物体检测ONNX模型运行 ONNX 模型，并结合 OpenCV 进行图像处理。具体流程包括： 1. 加载并初始化 ONNX 模型。 2. 从摄像头捕获实时视频流。 3. 对每一帧图像进行模型推理，生成物体检测结果。 4. 在界面上绘制检测结果的边界框和标签。

chromedriver-linux64-134.0.6998.23(Beta).zip: chromedriver-linux64-134.0.6998.23(Beta).zip

Web开发：ABP框架4-DDD四层架构的详解: Web开发：ABP框架4-DDD四层架构的详解

chromedriver-linux64-135.0.7029.0(Canary).zip: chromedriver-linux64-135.0.7029.0(Canary).zip

（参考项目）MATLAB人脸门禁系统.zip: 实现人脸识别的考勤门禁系统可以分为以下步骤： 1. 采集人脸图像数据集：首先需要采集员工的人脸图像数据集，包括正面、侧面等多个角度的图像。可以使用MATLAB中的图像采集工具或者第三方库进行采集。 2. 预处理人脸图像数据：对采集到的人脸图像数据进行预处理，包括人脸检测、人脸对齐、人脸裁剪等操作。MATLAB提供了相关的图像处理工具箱，可以用于实现这些处理步骤。 3. 特征提取与特征匹配：使用人脸识别算法提取人脸图像的特征，比如使用人脸识别中常用的特征提取算法如Eigenfaces、Fisherfaces或者基于深度学习的算法。然后将员工的人脸数据与数据库中的人脸数据进行匹配，判断是否为注册员工。 4. 考勤记录与门禁控制：如果人脸匹配成功，系统可以记录员工的考勤时间，并且控制门禁系统进行开启。MATLAB可以与外部设备进行通信，实现门禁控制以及考勤记录功能。

rdtyfv、ijij: yugy

企业IT治理体系规划.pptx: 企业IT治理体系规划.pptx

基于Nutz、SSH、SSM的新闻管理系统.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

基于多目标粒子群算法的冷热电联供综合能源系统优化调度与运行策略分析,基于多目标粒子群算法的冷热电联供综合能源系统优化调度与运行策略分析,MATLAB代码：基于多目标粒子群算法冷热电联供综合能源系统运行: 基于多目标粒子群算法的冷热电联供综合能源系统优化调度与运行策略分析,基于多目标粒子群算法的冷热电联供综合能源系统优化调度与运行策略分析,MATLAB代码：基于多目标粒子群算法冷热电联供综合能源系统运行优化关键词：综合能源冷热电三联供粒子群算法多目标优化参考文档：《基于多目标算法的冷热电联供型综合能源系统运行优化》仿真平台：MATLAB 平台采用粒子群实现求解优势：代码注释详实，适合参考学习，非目前烂大街的版本，程序非常精品，请仔细辨识主要内容：代码构建了含冷、热、电负荷的冷热电联供型综合能源系统优化调度模型，考虑了燃气轮机、电制冷机、锅炉以及风光机组等资源，并且考虑与上级电网的购电交易，综合考虑了用户购电购热冷量的成本、CCHP收益以及成本等各种因素，从而实现CCHP系统的经济运行，求解采用的是MOPSO算法（多目标粒子群算法），求解效果极佳，具体可以看图 ,核心关键词：综合能源系统; 冷热电三联供; 粒子群算法; 多目标优化; MOPSO算法; 优化调度模型; 燃气轮机; 电制冷机; 锅炉; 风光机组; 上级电网购售电交易。,基于多目标粒子群算法的CCHP综合

DSP28379D串口升级方案：单核双核升级与Boot优化，C#上位机开发串口通信方案,DSP28379D串口升级方案：单核双核升级与Boot优化，C#上位机开发实现串口通信,DSP28379D串口升: DSP28379D串口升级方案：单核双核升级与Boot优化，C#上位机开发串口通信方案,DSP28379D串口升级方案：单核双核升级与Boot优化，C#上位机开发实现串口通信,DSP28379D串口升级方案单核双核升级，boot升级，串口方案。上位机用c#开发。 ,DSP28379D; 串口升级方案; 单核双核升级; boot升级; 上位机C#开发,DSP28379D串口双核升级方案：Boot串口升级技术使用C#上位机开发

基于ASP.NET MVC+三层架构和EntityFramework的微博门户网站项目.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

基于PLC的双层自动门控制：光电传感触发，有序开关与延时功能实现，附程序、画面及参考文档 ,基于PLC的双层自动门控制系统：精准控制，保障无尘环境；门间联动，智能安防新体验 ,基于plc的双层自动门控: 基于PLC的双层自动门控制：光电传感触发，有序开关与延时功能实现，附程序、画面及参考文档。,基于PLC的双层自动门控制系统：精准控制，保障无尘环境；门间联动，智能安防新体验。,基于plc的双层自动门控制系统，全部采用博途仿真完成，提供程序，画面，参考文档，详情见图。实现功能(详见上方演示视频): ① 某房间要求尽可能地保持无尘，在通道上设置了两道电动门，门1和门2，可通过光电传感器自动完成门的打开和关闭。门1和门2 不能同时打开。 ② 第 1 道门（根据出入方向不同，可能是门 1 或门 2），是由在通道外的开门者通过按开门按钮打开的，而第 2 道门（根据出入方向不同，可能是门 1 或门 2 ）则是在打开的第 1 道门关闭后自动地打开的（也可以由通道内的人按开门按钮来打开第2 道门）。这两道门都是在门开后，经过 3s 的延时而自动关闭的。 ③ 在门关闭期间，如果对应的光电传感器的信号被遮断，则门立即自动打开。如果在门外或者在门内的开门者按对应的开门按钮时，立即打开。 ④ 出于安全方面的考虑，如果在通道内的某个人经过光电传感器时，对应的门已经打开，则通道外的开门者可以不按开门按钮。

黑马程序员Java品达通用权限项目，基于SpringCloud SpringBoot 的微服务框架的权限管理解决方案.zip: 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

DeepSeek+DeepResearch-让科研像聊天一样简单: DeepSeek+DeepResearch——让科研像聊天一样简单（1）DeepSeek如何做数据分析？（2）DeepSeek如何分析文件内容？（3）DeepSeek如何进行数据挖掘？（4）DeepSeek如何进行科学研究？（5）DeepSeek如何写综述？（6）DeepSeek如何进行数据可视化？（7）DeepSeek如何写作润色？（8）DeepSeek如何中英文互译？（9）DeepSeek如何做降重？（10）DeepSeek论文参考文献指令（11）DeepSeek基础知识。

基于springboot+uniapp实现的蛋糕商城小程序.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

jdepend-demo-2.9.1-10.el7.x64-86.rpm.tar.gz: 1、文件内容：jdepend-demo-2.9.1-10.el7.rpm以及相关依赖 2、文件形式：tar.gz压缩包 3、安装指令： #Step1、解压 tar -zxvf /mnt/data/output/jdepend-demo-2.9.1-10.el7.tar.gz #Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm 4、更多资源/技术支持：公众号禅静编程坊

关爱儿童公益网站 web 项目.zip: 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行；功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

MATLAB实现WOA-LSTM鲸鱼算法优化长短期记忆网络数据分类预测（含模型描述及示例代码）: 内容概要：本文档详细介绍了如何利用 MATLAB 实现鲸鱼优化算法 (WOA) 和长短期记忆网络 (LSTM) 相结合的技术——WOA-LSTM，在数据分类和预测领域的应用。文章首先概述了LSTM在网络训练中超参数依赖的问题以及WOA作为一种新颖的全局优化算法的优势。接着阐述了该项目的研究背景、目的及其重要意义，并深入讨论了项目面临的六大主要挑战，从模型优化到超参数空间管理。文档特别强调WOA-LSTM融合所带来的性能提升、降低计算复杂度的能力及其实现自动化的超参数优化流程。除此之外，文中展示了模型的应用广泛性，覆盖了从金融市场的股票预测到智能制造业的各种实际场景，并提供了具体的模型架构细节和代码实例，以帮助理解模型的工作原理和技术要点。适合人群：具有一定编程技能的研究人员、工程师和科学家们，尤其是对深度学习技术和机器学习感兴趣的专业人士。使用场景及目标：该文档的目标是向用户传授使用MATLAB实现WOA-LSTM进行复杂数据分类和预测的方法论，旨在指导读者理解和掌握如何利用WOA进行超参数寻优，从而改善LSTM网络性能。其他说明：通过阅读这份文档，使用者不仅能够获得有关WOA-LSTM技术的具体实现方式的知识，而且还可以获取关于项目规划和实际部署过程中的宝贵经验。

tomcat安装及配置教程.md: tomcat安装及配置教程.md

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

impove hadoop mapreduce performance

评论

发表评论

相关推荐

安装thrift

关于map task和reduce task的个数

备忘：生成自己的build.xml，jar包

生成自己的hadoop eclipse plugin

hadoop备忘

can we specify a job running on a set of certain nodes.

最近访客更多访客>>