Hadoop MapReduce开发最佳实践

博客分类：

hadoop

MapRuduce开发对于大多数程序员都会觉得略显复杂，运行一个WordCount（Hadoop中hello word程序）不仅要熟悉MapRuduce模型，还要了解Linux命令（尽管有Cygwin，但在Windows下运行MapRuduce仍然很麻烦），此外还要学习程序的打包、部署、提交job、调试等技能，这足以让很多学习者望而退步。所以如何提高MapReduce开发效率便成了大家很关注的问题。但Hadoop的Committer早已经考虑到这些问题，从而开发了ToolRunner、MRunit（MapReduce最佳实践第二篇中会介绍）、MiniMRCluster、MiniDFSClu ...

2016-02-25 11:21
浏览 460
评论(0)
分类:编程语言

Hadoop管理员的十个最佳实践

博客分类：

hadoop

前言接触Hadoop有两年的时间了，期间遇到很多的问题，既有经典的NameNode和JobTracker内存溢出故障，也有HDFS存储小文件问题，既有任务调度问题，也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷（短板），有些则是使用的不当。在解决问题的过程中，有时需要翻源码，有时会向同事、网友请教，遇到复杂问题则会通过mail list向全球各地Hadoop使用者,包括Hadoop Committer（Hadoop开发者）求助。在获得很多人帮助后，自己将遇到问题和心得整理成文，希望本文可以对那些焦头烂额的Hadoop新手们有所帮助，少走笔者的弯路。 PS. ...

2016-02-25 11:20
浏览 410
评论(0)
分类:互联网

hadoop中NameNode、DataNode和Client三者之间协作关系及通信方式介绍

博客分类：

hadoop

1）NameNode、DataNode和Client NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。Client就是需要获取分布式文件系统文件的应用程序。2）文件写入

2016-02-25 11:13
浏览 491
评论(0)
分类:互联网

hadoop参数配置优化

博客分类：

hadoop

hadoop.tmp.dir默认值： /tmp说明：尽量手动配置这个选项，否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候，如果服务器是多磁盘的，每个磁盘都设置一个临时文件目录，这样便于mapreduce或者hdfs等使用的 ...

2016-02-25 10:32
浏览 960
评论(0)
分类:互联网

MapReduce:Job性能调优总结

博客分类：

hadoop

Benchmark: 对1G数据做wordcount 部分内容: ********************************* 硬件级别提高磁盘IO的性能 noatime 我为两台slaves server设置了noatime. vi /etc/fstab.map task的平均执行时间减少两秒,这影响硬盘IO的性能,shuffle的时间也相应地减少了1分钟,不影响reduce的执行时间 client端设置 map与reduce task数量 map task的数量由split的数量决定,split的数据越小,每个map task执行的时间就越短,但相应地, job的执行时间就拉长了 ...

2016-01-27 12:35
浏览 328
评论(0)
分类:互联网

MapReduce:详解Shuffle过程

博客分类：

hadoop

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优� ...

2016-01-27 09:30
浏览 362
评论(0)
分类:互联网

Hadoop Job Tuning

博客分类：

hadoop

Hadoop平台已经成为了大多数公司的分布式数据处理平台，随着数据规模的越来越大，对集群的压力也越来越大，集群的每个节点负担自然就会加重，而且集群内部的网络带宽有限，数据交换吞吐量也在面临考验，由此引发了人们对大规模数据处理进行优化的思考。本文仅从实践经验出发，针对Hadoop Job优化提出了一些观点，不包含HDFS的优化。 Job Tracker Related 严格来说，下面这个配置项，是决定HDFS文件block数量的多少(也就是文件个数)，但是它会间接的影响Job Tracker的调度和内存的占用(其实更能影响name node内存的使用)。 dfs.block.size ...

2016-01-11 17:55
浏览 388
评论(0)
分类:互联网

hadoop 学习笔记：mapreduce框架详解

博客分类：

hadoop

开始聊mapreduce，mapreduce是hadoop的计算框架，我学hadoop是从hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关，我开始学习某一套技术总是想着这套技术到底能干什么，只有当我真正理解了这套技术解决了什么问题时候，我后续的学习就能逐步的加快，而学习hdfs时候我就发现，要理解hadoop框架的意义，hdfs和mapreduce是密不可分，所以当我写分布式文件系统时候，总是感觉自己的理解肤浅，今天我开始写mapreduce了，今天写文章时候比上周要进步多，不过到底能不能写好本文了，只有试 ...

2016-01-08 10:51
浏览 600
评论(0)
分类:互联网

大数据计算平台Spark内核全面解读

博客分类：

spark

1、Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台，在2010年开源，目前是Apache软件基金会的顶级项目。随着 Spark在大数据计算领域的暂露头角，越来越多的企业开始关注和使用。2014年11月，Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录。Spark利用1/10的节点数，把100TB数据的排序时间从72分钟提高到了23分钟。 Spark在架构上包括内核部分和4个官方子模块--Spark SQL、Spark Streaming、机器学习库MLli ...

2016-01-06 10:11
浏览 484
评论(0)
分类:互联网

Spark编程指南——Python版

博客分类：

spark

摘要：对于1个年仅5岁的开源项目来说，其远谈不上尽善尽美，就比如文档相关。本文翻译自Spark Programming Guide，选取了其中使用Python的部分。自开源之日至今，Spark已经5岁了。从最初不到4000行代码发展到当下通用大数据处� ...

2016-01-05 11:41
浏览 883
评论(0)
分类:互联网

MapReduce: 提高MapReduce性能的七点建议[译]

博客分类：

hadoop

Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统，并且它们运行着各式各样用户的代码，这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来� ...

2015-11-06 16:06
浏览 545
评论(0)
分类:互联网

Hadoop 2.x的DistributedCache无法工作的问题

博客分类：

hadoop

现象：和这个帖子描述的一样，简单说来就是，在Hadoop 2.x上，用新的DistributedCache的API，在mapper中会获取不到这个cache文件。下面就详细地描述一下新旧API的用法区别以及解决办法。『1』旧API将HDFS文件添加到distributed cache中：

2015-11-04 09:24
浏览 895
评论(0)
分类:互联网

浅析Mapper类之setup()和cleanup()方法

博客分类：

hadoop

hadoop中的MapReduce框架里已经预定义了相关的接口，其中如Mapper类下的方法setup()和cleanup()。 setup()，此方法被MapReduce框架仅且执行一次，在执行Map任务前，进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中，导致Mapper任务在解析每一行输入时都会进行资源初始化工作，导致重复，程序运行效率不高！ cleanup(),此方法被MapReduce框架仅且执行一次，在执行完毕Map任务后，进行相关变量或资源的释放工作。若是将释放资源工作放入方法map()中，也会导致Mapper任务在解析、处理每一行文本后释放资 ...

2015-11-04 09:23
浏览 898
评论(0)
分类:互联网

CentOS6 Shell脚本/bin/bash^M: bad interpreter错误解决方法

博客分类：

工作中遇到异常及解决

在windows下保存了一个脚本文件，用ssh上传到centos，添加权限执行nginx提示没有那个文件或目录。shell脚本放到/etc/init.d/目录下，再执行/etc/init.d/nginx，提示多了这句/bin/bash^M: bad interpreter。网上找了资料才知道如果这个脚本在Windows下编辑过，就有可能被转换成Windows下的dos文本格式了，这样的格式每一行的末尾都是以\r\n来标识，它的ASCII码分别是0x0D，0x0A。如果你将这个脚本文件直接放到Linux上执行就会报/bin/bash^M: bad interpreter错误提示。

2015-09-30 09:17
浏览 711
评论(1)
分类:操作系统

hadoop入门--简单的MapReduce案例

博客分类：

hadoop

分析MapReduce执行过程 MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer任务会接收Mapper任务输出的数据，作为自己的输入数据，调用自己的方法，最后输出到HDFS的文件中。整个流程如图： Mapper任务的执行过程详解

2015-09-08 19:00
浏览 1247
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop MapReduce开发最佳实践

Hadoop管理员的十个最佳实践

hadoop中NameNode、DataNode和Client三者之间协作关系及通信方式介绍

hadoop参数配置优化

MapReduce:Job性能调优总结

MapReduce:详解Shuffle过程

Hadoop Job Tuning

hadoop 学习笔记：mapreduce框架详解

大数据计算平台Spark内核全面解读

Spark编程指南——Python版

MapReduce: 提高MapReduce性能的七点建议[译]

Hadoop 2.x的DistributedCache无法工作的问题

浅析Mapper类之setup()和cleanup()方法

CentOS6 Shell脚本/bin/bash^M: bad interpreter错误解决方法

hadoop入门--简单的MapReduce案例

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>