- 浏览: 2097475 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (366)
- hadoop (91)
- DB (2)
- vmware (0)
- python (49)
- Java (72)
- Linux (57)
- 多线程 (2)
- hive (1)
- hbase (3)
- mongodb (5)
- Hibernate (3)
- nodejs (1)
- 模式与重构 (1)
- 持续集成CI (4)
- Mysql (2)
- chorme (1)
- 软件开发 (0)
- 敏捷 (5)
- maven (3)
- windows (7)
- 测试驱动 (1)
- scala (3)
- Jetty (0)
- android (1)
- eclipse (1)
- 设计模式 (1)
- 面向对象设计 (2)
- oracle (3)
- cassandra (15)
- pig (3)
- rails (1)
- redis (4)
- ruby (1)
- storm (0)
- 实时运算 (3)
- scribe (1)
- hadoop源码 (3)
- cassandra jna (1)
- Kafka (2)
- Sublime (2)
- C++ (2)
- C (1)
- 版本控制 (1)
- 服务器 (1)
- docker (0)
- flink (1)
最新评论
-
伍大都督:
解释太到位了,感谢分享
理解Linux系统中的load average(图文版) -
rfjian123:
非常感谢,用你的方法解决了问题。
Server sent unexpected return value (403 Forbidden) in response to OPTIONS -
yuhaifei12:
今天遇到同样的问题了。设置的是每分钟执行一次。结果发现每分钟执 ...
解决Linux下crontab同一时间重复执行问题 -
BigBird2012:
想问一下,使用ExecutorService每次都要调用 sh ...
spring quartz使用多线程并发“陷阱” -
zhuqx1130:
有用,谢谢
解决Sublime Text 3中文显示乱码(tab中文方块)问题
Hadoop调优
mapred.tasktracker.map.tasks.maximum
官方解释:The maximum number of map tasks that will be run simultaneously by a task tracker.
我的理解:一个tasktracker最多可以同时运行的map任务数量
默认值:2
优化值:mapred.tasktracker.map.tasks.maximum = cpu数量
服务器CPU总核数 = more /proc/cpuinfo | grep 'processor' | wc -l
每个CPU的核数 = more /proc/cpuinfo | grep 'cpu cores'
mapred.map.tasks
官方的解释:The default number of map tasks per job
我的解释:一个Job会使用task tracker的map任务槽数量,这个值 ≤ mapred.tasktracker.map.tasks.maximum
默认值:2
优化值:
- CPU数量 (我们目前的实践值)
- (CPU数量 > 2) ? (CPU数量 * 0.75) : 1 (mapr的官方建议)
注意:map任务的数量是由input spilit决定的,和上面两个参数无关
mapred.tasktracker.reduce.tasks.maximum
官方解释:The maximum number of reduce tasks that will be run simultaneously by a task tracker.
我的理解:一个task tracker最多可以同时运行的reduce任务数量
默认值:2
优化值: (CPU数量 > 2) ? (CPU数量 * 0.50): 1 (mapr的官方建议)
mapred.reduce.tasks
官方解释:The default number of reduce tasks per job. Typically set to 99% of the cluster's reduce capacity, so that if a node fails the reduces can still be executed in a single wave.
我的理解:一个Job会使用task tracker的reduce任务槽数量
默认值:1
优化值:
- 0.95 * mapred.tasktracker.tasks.maximum
理由:启用95%的reduce任务槽运行task, recude task运行一轮就可以完成。剩余5%的任务槽永远失败任务,重新执行
- 1.75 * mapred.tasktracker.tasks.maximum
理由:因为reduce task数量超过reduce槽数,所以需要两轮才能完成所有reduce task。具体快的原理我没有完全理解,上原文:
hadoop官方wiki: 写道
环境变量
disable ipv6配置,修改bin/hadoop,添加下行:
Hive调优:
mapred.reduce.tasks
to a prime close to the number of available hosts. Ignored when
mapred.job.tracker is "local". Hadoop set this to 1 by default, whereas hive uses -1 as its default value.
By setting this property to -1, Hive will automatically figure out what should be the number of reducers.
1. hive.exec.reducers.bytes.per.reducer(默认为1GB)
2. hive.exec.reducers.max(默认为999)
mapred.reduce.tasks = min ( 参数2,总输入数据量/参数1 )
默认值:-1
优化值:显式设置为Hadoop配置中mapred.reduce.tasks值,参考上文。
参考资料:
http://wiki.apache.org/hadoop/HowManyMapsAndReduces
http://www.mapr.com/doc/display/MapR/mapred-site.xml
http://hi.baidu.com/dtzw/blog/item/5b64880aaf057d33b0351db4.html
http://www.tbdata.org/archives/622
http://developer.yahoo.com/hadoop/tutorial/module7.html
发表评论
-
cloudera CDH5 vmware中cloudera manager报错"Internal error while querying the Host "
2014-07-22 10:19 2063无法获取host和service状态,解决办法: s ... -
thrift0.9.1简单教程(包含Java服务端和Java、python客户端)
2014-04-25 15:55 6414一、Thrift Java服务端和客户端 官 ... -
yum错误“Error in PREUN scriptlet in rpm package ”
2014-03-10 12:07 3983打算通过yum安装软件,发展之前有软件残骸。使用yu ... -
搭建cloudera yum私服
2014-03-05 11:08 3207一、安装Cloudera yum仓库 1. 下载仓库rpm ... -
cloudera创建私服错误一例
2014-02-24 11:41 1375执行“reposync -r cloudera-cdh4 ” ... -
Cloudera Manager的Hadoop配置文件管理
2014-02-11 10:21 11460本文基于Cloudera Manager 4.8,以下简称 ... -
修改cloudera manager管理主机名(转)
2014-02-10 14:22 7646I installed the Cloudera Mana ... -
cloudera manager tasktrakcer监控状态错误
2014-02-10 11:32 1302此文用作图片外链。cloudera网站坑爹呀! -
cloudera manager 4.8 添加设备DNS反向解析问题
2014-01-28 16:20 3769添加设备时agent会使用host命令反向解析获取clou ... -
apache kafka v0.8入门遇到问题
2014-01-23 12:20 1671官方文档:https://kafka.apache.org/ ... -
hadoop2.0(cdh4) fs client错误"java.io.IOException: No FileSystem for scheme: hdfe"
2013-12-31 12:32 10063启动dfs client时候报错:“java.io.IOE ... -
Hadoop Combiner的几个调用时间点
2013-12-20 08:37 2967Combiner是在Map端被执行,共有两个时机会被触 ... -
hadoop1.0中NameNode HA的妥协方案
2013-12-10 16:26 1529hadoop1.0没有HA,可以添加NFS做为metada ... -
hdaoop2.x (CDH4、5)下使用DFS Client(包含HA)
2013-12-09 16:42 3317一、不使用HA场景 1.1 获取FileSystem(下 ... -
Hadoop学习指南
2013-11-26 14:26 1395安装配置 CDH4(hadoop2.0) 端口 C ... -
cloudera cdh中hadoop-client包的作用
2013-11-22 22:12 4119hadoop-client是为了让开发者可以很方便的使用当前 ... -
could only be replicated to 0 nodes instead of minReplication (=1)
2013-11-18 17:02 13936一、出现这个错误,先看看DN是不是正常启动并与NN通信,使用 ... -
Hadoop Pig获取HDFS文件名
2013-11-15 08:37 3218A = LOAD 'input' using PigS ... -
cloudera CDH5正式版(与CDH4比较)
2013-11-04 22:14 2517要求JDK7以上,JDK6不被支持 基于a ... -
Pig写UDF解析XML遇到一诡异错误“ClassNotFoundException”
2013-10-16 10:11 1282UDF中使用apache digester做XML解析,代码 ...
相关推荐
Hadoop是一种开源的分布式存储和计算系统,它由Apache软件基金会开发。在初学者的角度,理解Hadoop的组成部分以及其架构...随着技术的深入学习,应逐步掌握其安装部署、性能调优、故障处理以及与其他工具的集成使用。
7. 性能调优:分享关于HBase性能优化的经验,包括配置调整、数据模型设计等。 8. 示例代码:通过"src"目录下的代码,提供实际操作的参考,帮助读者更好地理解和应用HBase。 这篇学习笔记对于想要深入了解HBase的...
7. **故障排查与性能调优**:学习如何诊断Hadoop集群的常见问题,以及如何通过调整配置来优化Hadoop的性能,例如增加数据节点、调整内存分配等。 8. **安全与高可用**:了解Hadoop的安全机制,如Kerberos认证,以及...
5. **Hadoop优化**:这部分可能会涉及性能调优,如调整HDFS参数、MapReduce调度策略优化等,以提高Hadoop集群的效率。 6. **Hadoop扩展组件**:除了基础组件,笔记可能还会介绍Hadoop生态中的其他工具,如HBase...
- **性能调优**: 分析了影响MapReduce任务性能的因素,并提出了一些有效的优化策略。 #### 七、Hadoop Hive SQL 语法解释 - **网址**: [Hadoop Hive SQL 语法解释](http://jeffxie.blog.51cto.com/1365360/317524)...
6. **MySQL性能调优最佳实践.pdf**:虽然主要关注的是MySQL,但这也是大数据环境中常见的数据存储系统,学习其性能优化对于提高整体数据处理效率至关重要。 7. **Hive编程入门-weibo.pdf**:可能是一个针对Hive的...
这个学习资料包含的"笔记"可能涵盖了Hadoop的核心组件、生态系统、安装配置以及实际操作等多个方面。以下是对Hadoop 3.1.3的一些关键知识点的详细说明: 1. **Hadoop核心组件**: - **HDFS(Hadoop Distributed ...
5. **Hadoop集群管理**:书中还涵盖了集群的部署、配置、监控和维护,包括硬件选择、网络规划、安全性设置,以及性能调优技巧。 6. **数据处理与分析**:书中探讨了如何利用Hadoop进行数据预处理、清洗、转换和分析...
5. **数据库优化与性能调优**:笔记可能包含了数据库性能监控、SQL查询优化、读写分离、分库分表等策略,以提升系统整体性能。 6. **安全与防护**:电商系统需要应对各种安全威胁,如SQL注入、XSS攻击等。这部分...
8. 性能调优:Spark性能优化包括调整executor数量、内存分配、并行度设置、减少shuffle操作等。理解Spark的内存模型和调优策略是提升应用性能的关键。 9. Spark与Hadoop的对比:Spark在内存计算和迭代计算上有优势...
这部分内容会涉及性能指标监控,如查询响应时间、CPU利用率、I/O性能等,以及调优方法,如调整内存分配、优化查询语句、合理分配表空间和索引。 【分布式数据库与云数据库】 随着技术发展,分布式数据库和云数据库...
- **性能调优**:学习如何根据实际需求调整Hadoop参数,提高系统性能。 - **故障排查**:通过分析源码,可以更好地定位和解决问题,提高系统的稳定性和可用性。 - **开发实践**:结合博客和注释,学习如何开发...
本笔记将详细阐述如何配置 Hadoop 3.3.1 集群,以便高效地管理和运行大数据任务。 **一、系统需求与环境准备** 1. **硬件要求**:为了搭建 Hadoop 集群,需要至少两台或更多的服务器或虚拟机,每台机器应具有足够的...
本笔记将全面深入地探讨Hive在大数据处理中的应用、原理及其实战技巧。 一、Hive简介 Hive是Apache软件基金会下的一个开源项目,它提供了一种基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表...
例如,使用 Kafka Connect 可以方便地连接到 Elasticsearch 或 Hadoop 进行数据索引和存储。Kafka 也支持 REST Proxy,允许非 JVM 语言的应用程序进行数据生产和消费。 4. **生产调优** 生产调优涉及的主题包括:...
2. 性能调优实战:通过监控工具(如VisualVM、JConsole)分析JVM性能,结合Kafka的监控指标(如生产者和消费者速率、延迟等),进行整体性能优化。 六、案例分析 1. 实战示例:分享实际项目中Kafka与JVM协同工作的...
7. **性能优化**:如何调优这些实时处理系统以提高处理速度和资源利用率,包括并行度调整、内存管理等。 8. **案例研究**:通过实际项目案例,理解实时大数据处理在业务中的具体应用和挑战。 通过这份笔记,学习者...
`GenerateData.java`可能是用于生成测试数据的工具,以模拟真实环境中的大数据量,这对于测试和性能调优至关重要。生成数据的工具可以帮助开发者预估系统在不同负载下的行为,从而进行有效的架构设计和优化。 在...
Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark...
Hive的学习不仅包括这些基本操作,还包括性能调优、视图、索引、UDF(用户自定义函数)的使用,以及如何与其他Hadoop组件如HBase、Spark集成等。理解Hive的工作原理和最佳实践,对于在大数据环境中进行高效的数据...