- 浏览: 2094958 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (366)
- hadoop (91)
- DB (2)
- vmware (0)
- python (49)
- Java (72)
- Linux (57)
- 多线程 (2)
- hive (1)
- hbase (3)
- mongodb (5)
- Hibernate (3)
- nodejs (1)
- 模式与重构 (1)
- 持续集成CI (4)
- Mysql (2)
- chorme (1)
- 软件开发 (0)
- 敏捷 (5)
- maven (3)
- windows (7)
- 测试驱动 (1)
- scala (3)
- Jetty (0)
- android (1)
- eclipse (1)
- 设计模式 (1)
- 面向对象设计 (2)
- oracle (3)
- cassandra (15)
- pig (3)
- rails (1)
- redis (4)
- ruby (1)
- storm (0)
- 实时运算 (3)
- scribe (1)
- hadoop源码 (3)
- cassandra jna (1)
- Kafka (2)
- Sublime (2)
- C++ (2)
- C (1)
- 版本控制 (1)
- 服务器 (1)
- docker (0)
- flink (1)
最新评论
-
伍大都督:
解释太到位了,感谢分享
理解Linux系统中的load average(图文版) -
rfjian123:
非常感谢,用你的方法解决了问题。
Server sent unexpected return value (403 Forbidden) in response to OPTIONS -
yuhaifei12:
今天遇到同样的问题了。设置的是每分钟执行一次。结果发现每分钟执 ...
解决Linux下crontab同一时间重复执行问题 -
BigBird2012:
想问一下,使用ExecutorService每次都要调用 sh ...
spring quartz使用多线程并发“陷阱” -
zhuqx1130:
有用,谢谢
解决Sublime Text 3中文显示乱码(tab中文方块)问题
前言
公司有日志排序的需求,目前收集环节会产生大量小文件,目前我们没有使用flume和Hbase,本次优化只涉及HDFS和MapReduce。
关于小文件对Namenode影响,本文不涉及,我们现在使用HAR归档小文件。
本文的结论基于HDFS大量小文件的情况。
一 、开启Jvm重用对Job影响:
文件数 |
文件大小 |
JVM重用 |
耗时 |
Jobid |
4815 |
7.54 GB |
Y |
26mins, 5sec |
job_201202211018_0034 |
N |
51mins, 49sec |
job_201202211018_0044 |
结论:对于大量小文件Job,开启JVM重用减少50%运行时间
二、Map压缩对Job影响(开启JVM重用)
2.1大量小文件情况
文件数 |
文件大小 |
压缩Map输出 |
耗时 |
Jobid |
4815
|
7.54 GB |
gz |
38mins, 38sec |
job_201202211018_0034 |
— |
27mins, 26sec |
job_201202211018_0031 |
||
lzo |
27mins, 17sec |
job_201202211018_0036 |
2.2每个文件140MB情况:
文件数 |
文件大小 |
压缩Map输出 |
耗时 |
Jobid |
48(合并小文件)
|
7.54 GB |
gz |
29mins, 37sec |
job_201202211018_0039 |
— |
24mins, 32sec |
job_201202211018_0042 |
||
lzo |
19mins, 18sec |
job_201202211018_0040 |
结论:
- 对于大量小文件Job,使用lzo压缩可以比gz压缩减少28%运行时间。
- 平均140MB输入文件的 Job比大量小文件Job减少30%的时间(jvm重用、map输出lzo)
三、 参数mapred.reduce.parallel.copies
任务时间 |
mapred.reduce.parallel.copies |
54mins, 21sec |
5(默认值) |
45mins, 30sec |
20 |
结论:通过配置参数mapred.reduce.parallel.copies可以提升16%性能
四、 总结
优化项 |
优化方法 |
可以减少Job时间 |
Jvm重用 |
开启jvm重用 |
50% |
mapred.reduce.parallel.copies |
默认值为5,优化值20 |
16% |
Map输出LZO格式 |
默认输出为gz,修改为lzo |
28% |
合并小文件 |
合并小文件 |
30% |
--本文来自heipark iteye博客
评论
- 4815个文件 7.5G(平均才1.5M),估计秒级就over了,大量的耗时在jvm启动中。 如果配置成一直重用同一个jvm估计更快。
- 压缩后的效果还是很明显
- 小文将试试CombineFileInputFormat
发表评论
-
cloudera CDH5 vmware中cloudera manager报错"Internal error while querying the Host "
2014-07-22 10:19 2045无法获取host和service状态,解决办法: s ... -
thrift0.9.1简单教程(包含Java服务端和Java、python客户端)
2014-04-25 15:55 6404一、Thrift Java服务端和客户端 官 ... -
yum错误“Error in PREUN scriptlet in rpm package ”
2014-03-10 12:07 3980打算通过yum安装软件,发展之前有软件残骸。使用yu ... -
搭建cloudera yum私服
2014-03-05 11:08 3203一、安装Cloudera yum仓库 1. 下载仓库rpm ... -
cloudera创建私服错误一例
2014-02-24 11:41 1370执行“reposync -r cloudera-cdh4 ” ... -
Cloudera Manager的Hadoop配置文件管理
2014-02-11 10:21 11453本文基于Cloudera Manager 4.8,以下简称 ... -
修改cloudera manager管理主机名(转)
2014-02-10 14:22 7642I installed the Cloudera Mana ... -
cloudera manager tasktrakcer监控状态错误
2014-02-10 11:32 1279此文用作图片外链。cloudera网站坑爹呀! -
cloudera manager 4.8 添加设备DNS反向解析问题
2014-01-28 16:20 3762添加设备时agent会使用host命令反向解析获取clou ... -
apache kafka v0.8入门遇到问题
2014-01-23 12:20 1666官方文档:https://kafka.apache.org/ ... -
hadoop2.0(cdh4) fs client错误"java.io.IOException: No FileSystem for scheme: hdfe"
2013-12-31 12:32 10052启动dfs client时候报错:“java.io.IOE ... -
Hadoop Combiner的几个调用时间点
2013-12-20 08:37 2963Combiner是在Map端被执行,共有两个时机会被触 ... -
hadoop1.0中NameNode HA的妥协方案
2013-12-10 16:26 1525hadoop1.0没有HA,可以添加NFS做为metada ... -
hdaoop2.x (CDH4、5)下使用DFS Client(包含HA)
2013-12-09 16:42 3312一、不使用HA场景 1.1 获取FileSystem(下 ... -
Hadoop学习指南
2013-11-26 14:26 1391安装配置 CDH4(hadoop2.0) 端口 C ... -
cloudera cdh中hadoop-client包的作用
2013-11-22 22:12 4113hadoop-client是为了让开发者可以很方便的使用当前 ... -
could only be replicated to 0 nodes instead of minReplication (=1)
2013-11-18 17:02 13918一、出现这个错误,先看看DN是不是正常启动并与NN通信,使用 ... -
Hadoop Pig获取HDFS文件名
2013-11-15 08:37 3214A = LOAD 'input' using PigS ... -
cloudera CDH5正式版(与CDH4比较)
2013-11-04 22:14 2514要求JDK7以上,JDK6不被支持 基于a ... -
Pig写UDF解析XML遇到一诡异错误“ClassNotFoundException”
2013-10-16 10:11 1277UDF中使用apache digester做XML解析,代码 ...
相关推荐
了解这些配置文件是实施和优化Hadoop集群的重要部分。核心配置文件core-site.xml涉及整个Hadoop环境的设置,而hdfs-site.xml和mapred-site.xml则针对Hadoop分布式文件系统(HDFS)和MapReduce计算框架进行局部配置。 ...
在提供的信息中,我们关注的是"Hadoop的dll文件",这是一个动态链接库(DLL)文件,通常在Windows操作系统中使用,用于存储可由多个程序共享的功能和资源。Hadoop本身是基于Java的,因此在Windows环境下运行Hadoop...
2. **Block Size配置**:适当增大或减小Block Size可优化大文件或小文件的存储和读取效率。 3. **缓存策略**:通过设置`dfs.client.read.shortcircuit`等参数,启用短路读取和数据本地化策略,提高读取速度。 4. *...
Hadoop小文件存储方法改进研究,陈洋,黄岚,Hadoop是一个开源的分布式计算框架。运用Hadoop所提供的分布式文件系统(Hadoop distributed file system, HDFS)处理农业生物领域不断增加的大量科�
在Windows 7环境下提交Hadoop作业(Job)是一项技术性的任务,涉及到多个步骤和概念。首先,我们需要了解Hadoop的基本架构。Hadoop是由Apache软件基金会开发的一个开源分布式计算框架,它允许在廉价硬件上处理和存储...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在廉价硬件上处理大量数据,提供了高可靠性、高扩展性和高效能的数据存储与处理能力。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)、...
3. **WinUtils**:WinUtils是Hadoop在Windows上的一个辅助工具,包含了像hadoop.dll这样的库文件。这些文件需要放在Hadoop的`bin`目录下,以便Hadoop能够找到它们。在压缩包文件中,可能包含这些必要的WinUtils库...
Hadoop平台的性能优化研究涉及了如何在大型分布式系统中提升任务处理速度和效率,这对于当前数据密集型应用的发展至关重要。本文将从以下几个关键点详细解读Hadoop平台性能优化的知识点。 首先,了解Hadoop平台的...
hadoop配置文件hadoop配置文件hadoop配置文件hadoop配置文件hadoop配置文件hadoop配置文件hadoop配置文件hadoop配置文件hadoop配置文件
在大数据处理领域,Hadoop是一个不可或...总之,Hadoop配置文件的管理和优化是大数据平台运维中的核心任务之一。通过详细分析和理解“Hadoop配置文件表”,IT专业人员可以提升Hadoop集群的性能,实现更高效的数据处理。
HDFS(Hadoop Distributed File System,Hadoop 分布式文件系统)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。分布式存储比普通存储方式节省时间。HDFS 由 NDFS 系统演变而来,主要解决海量大数据...
配置Hadoop HA集群需要对这些文件进行精确调整,以实现命名节点的自动故障切换、保证数据的安全性和一致性,以及优化资源分配和任务调度。在实际操作中,还需要关注其他配置,比如Zookeeper的设置(用于协调NN的故障...
Hadoop是一款开源的大数据处理框架,它主要由Apache基金会维护,是大数据领域的核心工具之一。这个压缩包"**HADOOP配置文件-有注释版.rar**"包含了Hadoop的配置文件,并且带有注释,这对于理解和配置Hadoop环境至关...
本文的研究不仅为Hadoop文件归档提供了一种实用的优化方法,也为大数据处理领域的实践者提供了有价值的参考。未来的研究可以进一步探索不同压缩算法的组合使用,以适应更多样化的需求,或者结合其他数据管理策略,如...
在分布式计算领域,Hadoop是一个不可或缺的关键框架,它主要用于处理和存储海量数据。Hadoop配置文件是这个系统的核心组成部分,它们定义了Hadoop集群的行为、性能和稳定性。在这个主题中,我们将深入探讨Hadoop配置...
Hadoop 2.2.0 是 Apache Hadoop 的一个关键版本,它包含了众多改进和优化,使得这个分布式计算框架在处理大数据集时更加高效和稳定。在这个配置文件中,我们将会探讨Hadoop 2.2.0 在4台CentOS 6.4系统上运行所需的...
Hadoop课程实验和报告——Hadoop安装实验报告 Hadoop是一个开源的大数据处理框架,由Apache基金会开发和维护。它提供了一种可靠、可扩展、可高效的方法来存储和处理大规模数据。在本实验报告中,我们将介绍Hadoop的...
Hadoop的默认配置文件对于理解和优化Hadoop集群的运行至关重要。本文将深入解析标题提及的四个核心配置文件:`core-default.xml`、`hdfs-default.xml`、`mapred-default.xml`以及`yarn-default.xml`。 首先,`core-...
Hadoop是Apache软件基金会的一个开源项目,它提供了一个分布式文件系统(HDFS)和MapReduce计算框架,能够处理和存储大量数据。这里我们将详细探讨如何在Windows上进行配置。 首先,你需要下载Hadoop的发行版。在本...
Core-site.xml 是 Hadoop 集群的核心配置文件,通过修改这个文件可以实现优化。 1. 调整 ipc.server.listen.queue.size 参数 可以通过修改 Core-site.xml 文件来实现。 Hadoop 优化需要从多方面入手,包括 ...