博客专栏 - 证道Hadoop

证道Hadoop

散仙结合个人的学习经历，愿意与大家分享学习hadoop的路程，希望能帮到更多有志之士，一起学习，一起进步。 hadoop探讨交流群：376932160

如何使用Hadoop的MultipleOutputs进行多文件输出

有时候，我们使用Hadoop处理数据时，在Reduce阶段，我们可能想对每一个输出的key进行单独输出一个目录或文件，这样方便数据分析，比如根据某个时间段对日志文件进行时间段归类等等。这时候我们就可以使用MultipleOutputs类，来搞定这件事，下面，先来看下散仙的测试数据：中国;我们美国;他们中国;123 中国人;善良美国;USA 美国;在北美洲输出结果：预期输出结 ...

hadoop 测试多文件输出

qindongliang1922 评论(3) 有8532人浏览 2014-04-10 19:07

如何使用Hadoop的Partitioner

Hadoop里面的MapReduce编程模型，非常灵活，大部分环节我们都可以重写它的API，来灵活定制我们自己的一些特殊需求。今天散仙要说的这个分区函数Partitioner，也是一样如此，下面我们先来看下Partitioner的作用：对map端输出的数据key作一个散列，使数据能够均匀分布在各个reduce上进行后续操作，避免产生热点区。 Hadoop默认使用的分区函数是Hash Parti ...

hadoop partition

qindongliang1922 评论(0) 有6528人浏览 2014-04-10 17:12

Map/Reduce执行流程

FileSplit:文件的子集--文件分割体简介：这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对Google的MapReduce各式模式不熟悉，请先参阅Map ...

hadoop mapreduce

qindongliang1922 评论(3) 有2846人浏览 2014-04-09 18:37

如何使用Hadoop的DistributedCache

DistributedCache是Hadoop的一个分布式文件缓存类，使用它有时候能完成一些比较方便的事，DistributedCache第一个比较方便的作用就是来完成分布式文件共享这件事，第二个比较有用的场景，就是在执行一些join操作时，将小表放入cache中，来提高连接效率。那么，散仙今天要介绍的是如何使用DistributedCache来共享全局的缓存文件。下面我们先通过一个表格来 ...

hadoop DistributedCache

qindongliang1922 评论(3) 有7444人浏览 2014-03-28 20:54

如何查看Hadoop运行过程中产生日志

用hadoop也算有一段时间了，一直没有注意过hadoop运行过程中，产生的数据日志，比如说System打印的日志，或者是log4j，slf4j等记录的日志，存放在哪里，日志信息的重要性，在这里散仙就不用多说了，调试任何程序基本上都得需要分析日志。 hadoop的日志主要是MapReduce程序，运行过程中，产生的一些数据日志，除了系统的日志外，还包含一些我们自己在测试时候，或者线上环境输出的日志 ...

hadoop mapreduce hadoop调试日志位置

qindongliang1922 评论(1) 有13233人浏览 2014-03-28 20:05

如何使用Hadoop读写数据库

在我们的一些应用程序中，常常避免不了要与数据库进行交互，而在我们的hadoop中，有时候也需要和数据库进行交互，比如说，数据分析的结果存入数据库，或者是，读取数据库的信息写入HDFS上，不过直接使用MapReduce操作数据库，这种情况在现实开发还是比较少，一般我们会采用Sqoop来进行数据的迁入，迁出，使用Hive分析数据集，大多数情况下，直接使用Hadoop访问关系型数据库，可能产生比较大的数据 ...

hadoop mapreduce 读写数据库

qindongliang1922 评论(0) 有2507人浏览 2014-03-26 20:33

如何使用eclipse调试Hadoop作业

使用eclipse来调试hadoop作业是非常简洁方便的，散仙以前也有用eclipse开发过hadoop程序，但是一直没有深入了解eclipse调试的一些模式，有些时候也会出一些莫名奇妙的异常，最常见的就是下面这个 java.lang.RuntimeException: java.lang.ClassNotFoundException: com.qin.sort.TestSort$SMapper ...

hadoop eclipse 调试

qindongliang1922 评论(0) 有5315人浏览 2014-03-25 19:47

sqoop的安装使用

散仙，在上篇文章中，简述了sqoop的的功能，作用，以及版本演进，那么本篇我们就来实战下，看下如下安装使用sqoop（注：散仙在这里部署的是sqoop1的环境搭建）。首先，sqoop是基于Hadoop工作的，所以在这之前，确保你的Linux环境下，已经有可以正常工作的hadoop集群，当然伪分布式和完全分布式都可以。其次，我们得下载一个sqoop的安全包，散仙在这里使用的是sqoop1， ...

sqoop sqoop数据迁移

qindongliang1922 评论(0) 有3575人浏览 2013-12-29 23:24

数据迁移工具sqoop入门

首先，先简单说明下sqoop是什么，sqoop 即 SQL to Hadoop ，是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具，充分利用MapReduce并行特点以批处理� ...

sqoop 数据迁移

qindongliang1922 评论(2) 有5169人浏览 2013-12-29 22:07

Hadoop2.2.0的eclipse插件的编译

Hadoop2.x之后，已经发布了稳定的版本hadoop2.2.0.但是由于没有eclipse插件工具，辅助，开发调试相对起来，会稍显麻烦，特别是基于Java开发的工程师们，虽然写完MR任务后，也可以采用打成jar包的方式，上传调试，但是这种方式，也有点繁琐，不过网上也好像有一些，使用程序能够自动打包任务的程序，散仙没具体用过，在这里，就不多涉及了，有知道的朋友们，欢迎分享。下面开始进入正题， ...

hadoop hadoop2.2.0的eclipse插件 eclipse-plugin

qindongliang1922 评论(8) 有8117人浏览 2013-12-17 13:12

如何使用Java API读写HDFS

HDFS是Hadoop生态系统的根基，也是Hadoop生态系统中的重要一员，大部分时候，我们都会使用Linux shell命令来管理HDFS，包括一些文件的创建，删除，修改，上传等等，因为使用shell命令操作HDFS的方式，相对比较简单，方便，但是有时候，我们也需要通过编程的方式来实现对文件系统的管理。比如有如下的一个小需求，要求我们实现读取HDFS某个文件夹下所有日志，经过加工处理后在写入 ...

java hadoop java读写hdfs HDFS

qindongliang1922 评论(4) 有12452人浏览 2013-11-27 20:35

如何使用hadoop对海量数据进行统计并排序

不得不说，Hadoop确实是处理海量离线数据的利器，当然，凡是一个东西有优点必定也有缺点，hadoop的缺点也很多，比如对流式计算，实时计算，DAG具有依赖关系的计算，支持都不友好，所以，由此诞生了很多新的分布式计算框架，Storm，Spark，Tez，impala，drill，等等，他们都是针对特定问题提出一种解决方案，新框架的的兴起，并不意味者他们就可以替代hadoop，一手独大，HDFS和Ma ...

hadoop mapreduce 统计数据排序分析数据

qindongliang1922 评论(0) 有9609人浏览 2013-11-13 17:54

Linux下编译Hadoop的Eclipse插件

虽然使用Java编写MapReduce作业有点繁琐，但是对于刚入门hadoop的新手来说，有利于理解hadoop的一些底层实现，这无疑也是一种巨大的收获。目前大部分的MapReduce作业都是使用Hive，Pig完成的，当然也有用其他语言实现的，通过使用HadoopStreaming的方式，用原生Java写MR作业的只有很少一部分。在Hadoop2.x中，已经不支持eclipse的插件了，不过可以在 ...

hadoop eclipse 编译eclipse插件 hadoop eclipse plugin

qindongliang1922 评论(2) 有7613人浏览 2013-11-07 16:11

图解shell命令运行Hadoop1.2的WordCount例子

在hadoop1.2.x的版本中，直接运行自带的WordCount的例子会报异常，这个原因是因为它路径的问题，所以，想要正常运行自带的例子，我们还是需要做一些准备工作的，当然你可以直接在eclipse中修改它的源码然后重新编译，再运行，这样一来比较麻烦，特别是对一些刚学习的朋友来说，在eclipse配置个hadoop也许都得折腾半天，所以本篇，散仙会介绍使用shell命令的改变它的编译路径，并重新打 ...

hadoop wordcount 编译运行wordcount

qindongliang1922 评论(0) 有2749人浏览 2013-11-04 19:07

图解Hadoop1.2.1容量调度器的配置

资源调度器是Hadoop集群中一个比较重要的模块，最初的hadoop资源调度器是基于队列形式的FIFO调度的，这种模式在大规模集群的时候，资源分配并不是很� ...

hadoop centos 资源调度器容量调度器 CapacityScheduler

qindongliang1922 评论(0) 有4804人浏览 2013-10-31 17:32

CentOS6.4之图解Hadoop1.2.1完全分布式部署

散仙上篇博客，介绍了Hadoop基于单机模式下的伪分布式的部署，那么今天我们来看下Hadoop完全分布式的部署，其实只要伪分布式部署的会了，那么完全分布式的相对来说就很简单了，只要我们在一台机器上部署好，然后远程拷贝给其他的子节点就可以了。散仙用的是Centos6.4的版本，hadoop1.2.1的版本，其他的一些linux系统都是大同小异，关于SSH的配置及一些准备工作,在这里就不多说了，不会 ...

hadoop centos 完全分布式部署 linux

qindongliang1922 评论(0) 有5919人浏览 2013-10-25 18:55

CentOS6.4之图解配置Hadoop1.2单机伪分布式

基于yarn平台的Hadoop2.2.0在前几天已经发布稳定版本了新版本解决了1.x中的NameNode，JobTracker单点故障问题，使用yarn统一了分布式开发的集群平台，给集� ...

hadoop centos linux 伪分布式部署

qindongliang1922 评论(0) 有5474人浏览 2013-10-22 16:40

CentOS6.4之SSH无验证双向登陆配置（二）

上一篇博客，散仙详细的描述了SSH的无验证登陆方式，但会发现命令流程还是有点复杂的，那么有没有一种简单，快捷的方式来搞定呢？答案是肯定的。 ...

ssh centos linux 无验证

qindongliang1922 评论(0) 有3448人浏览 2013-10-16 13:52

CentOS6.4之图解SSH无验证双向登陆配置

配置SSH无登陆验证，在很多场景下是非常方便的，尤其是在管理大型集群服务时，避免了繁琐的密码验证，在安全级别越高的服务器上，通常密码的设置更复杂，配置SSH，不仅可以用密钥保证节点间通信的安全性，同时也降低了频繁输入密码登陆的耗时，大大提高了管理效率。散仙写此篇文章，也是给准备入手Hadoop的道友们先做好一个基础的准备，当然你也可以不配置SSH，只要你愿意频繁输入Slave节点的密码来登陆。 ...

ssh centos hadoop 无登陆验证

qindongliang1922 评论(0) 有7220人浏览 2013-10-15 17:39

Hadoop日志系统知识

hadoop日志系统中的日志收集模块，在如今比较流行的以及开源具有代表性的有facebook的scribe，apache的chukwa，linkedin的kafka，以及非常优秀的cloudrea的flume，在1.x的hadoop生态系统中，flume比较适合做日志收集模块，因为其功能全面，且具有高扩展性，高稳定性，高可靠性，以及便于管理和维护。在1.xhadoop生态系统中，HDFS分布式 ...

hadoop flume 日志系统

qindongliang1922 评论(0) 有3997人浏览 2013-10-10 22:01

专栏创建者：qindongliang1922
创建时间：2014-04-10 10:40:16
专栏文章数：20篇
专栏被浏览：126551 次