证道Hadoop
收藏

散仙结合个人的学习经历,愿意与大家分享学习hadoop的路程,希望能帮到更多有志之士,一起学习,一起进步。 hadoop探讨交流群:376932160

分享到: Sina Tec

最近更新文章

如何使用Hadoop的MultipleOutputs进行多文件输出

有时候,我们使用Hadoop处理数据时,在Reduce阶段,我们可能想对每一个输出的key进行单独输出一个目录或文件,这样方便数据分析,比如根据某个时间段对日志文件进行时间段归类等等。这时候我们就可以使用MultipleOutputs类,来搞定这件事, 下面,先来看下散仙的测试数据: 中国;我们 美国;他们 中国;123 中国人;善良 美国;USA 美国;在北美洲 输出结果:预期输出结 ...
qindongliang1922 评论(3) 有8503人浏览 2014-04-10 19:07

如何使用Hadoop的Partitioner

Hadoop里面的MapReduce编程模型,非常灵活,大部分环节我们都可以重写它的API,来灵活定制我们自己的一些特殊需求。 今天散仙要说的这个分区函数Partitioner,也是一样如此,下面我们先来看下Partitioner的作用: 对map端输出的数据key作一个散列,使数据能够均匀分布在各个reduce上进行后续操作,避免产生热点区。 Hadoop默认使用的分区函数是Hash Parti ...
qindongliang1922 评论(0) 有6500人浏览 2014-04-10 17:12

Map/Reduce执行流程

FileSplit:文件的子集--文件分割体 简介:   这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对Google的MapReduce各式模式不熟悉,请先参阅Map ...
qindongliang1922 评论(3) 有2824人浏览 2014-04-09 18:37

如何使用Hadoop的DistributedCache

DistributedCache是Hadoop的一个分布式文件缓存类,使用它有时候能完成一些比较方便的事,DistributedCache第一个比较方便的作用就是来完成分布式文件共享这件事,第二个比较有用的场景,就是在执行一些join操作时,将小表放入cache中,来提高连接效率。 那么,散仙今天要介绍的是如何使用DistributedCache来共享全局的缓存文件。 下面我们先通过一个表格来 ...
qindongliang1922 评论(3) 有7427人浏览 2014-03-28 20:54

如何查看Hadoop运行过程中产生日志

用hadoop也算有一段时间了,一直没有注意过hadoop运行过程中,产生的数据日志,比如说System打印的日志,或者是log4j,slf4j等记录的日志,存放在哪里,日志信息的重要性,在这里散仙就不用多说了,调试任何程序基本上都得需要分析日志。 hadoop的日志主要是MapReduce程序,运行过程中,产生的一些数据日志,除了系统的日志外,还包含一些我们自己在测试时候,或者线上环境输出的日志 ...
qindongliang1922 评论(1) 有13185人浏览 2014-03-28 20:05

如何使用Hadoop读写数据库

在我们的一些应用程序中,常常避免不了要与数据库进行交互,而在我们的hadoop中,有时候也需要和数据库进行交互,比如说,数据分析的结果存入数据库,或者是,读取数据库的信息写入HDFS上,不过直接使用MapReduce操作数据库,这种情况在现实开发还是比较少,一般我们会采用Sqoop来进行数据的迁入,迁出,使用Hive分析数据集,大多数情况下,直接使用Hadoop访问关系型数据库,可能产生比较大的数据 ...
qindongliang1922 评论(0) 有2493人浏览 2014-03-26 20:33

如何使用eclipse调试Hadoop作业

使用eclipse来调试hadoop作业是非常简洁方便的,散仙以前也有用eclipse开发过hadoop程序,但是一直没有深入了解eclipse调试的一些模式,有些时候也会出一些莫名奇妙的异常,最常见的就是下面这个 java.lang.RuntimeException: java.lang.ClassNotFoundException: com.qin.sort.TestSort$SMapper ...
qindongliang1922 评论(0) 有5296人浏览 2014-03-25 19:47

sqoop的安装使用

散仙,在上篇文章中,简述了sqoop的的功能,作用,以及版本演进,那么本篇我们就来实战下,看下如下安装使用sqoop(注:散仙在这里部署的是sqoop1的环境搭建)。 首先,sqoop是基于Hadoop工作的,所以在这之前,确保你的Linux环境下,已经有可以正常工作的hadoop集群,当然伪分布式和完全分布式都可以。 其次,我们得下载一个sqoop的安全包,散仙在这里使用的是sqoop1, ...
qindongliang1922 评论(0) 有3541人浏览 2013-12-29 23:24

数据迁移工具sqoop入门

首先,先简单说明下sqoop是什么,sqoop 即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理 ...
qindongliang1922 评论(2) 有5151人浏览 2013-12-29 22:07

Hadoop2.2.0的eclipse插件的编译

Hadoop2.x之后,已经发布了稳定的版本hadoop2.2.0.但是由于没有eclipse插件工具,辅助,开发调试相对起来,会稍显麻烦,特别是基于Java开发的工程师们,虽然写完MR任务后,也可以采用打成jar包的方式,上传调试,但是这种方式,也有点繁琐,不过网上也好像有一些,使用程序能够自动打包任务的程序,散仙没具体用过,在这里,就不多涉及了,有知道的朋友们,欢迎分享。 下面开始进入正题, ...
qindongliang1922 评论(8) 有8101人浏览 2013-12-17 13:12

如何使用Java API读写HDFS

HDFS是Hadoop生态系统的根基,也是Hadoop生态系统中的重要一员,大部分时候,我们都会使用Linux shell命令来管理HDFS,包括一些文件的创建,删除,修改,上传等等,因为使用shell命令操作HDFS的方式,相对比较简单,方便,但是有时候,我们也需要通过编程的方式来实现对文件系统的管理。 比如有如下的一个小需求,要求我们实现读取HDFS某个文件夹下所有日志,经过加工处理后在写入 ...
qindongliang1922 评论(4) 有12369人浏览 2013-11-27 20:35

如何使用hadoop对海量数据进行统计并排序

不得不说,Hadoop确实是处理海量离线数据的利器,当然,凡是一个东西有优点必定也有缺点,hadoop的缺点也很多,比如对流式计算,实时计算,DAG具有依赖关系的计算,支持都不友好,所以,由此诞生了很多新的分布式计算框架,Storm,Spark,Tez,impala,drill,等等,他们都是针对特定问题提出一种解决方案,新框架的的兴起,并不意味者他们就可以替代hadoop,一手独大,HDFS和Ma ...
qindongliang1922 评论(0) 有9582人浏览 2013-11-13 17:54

Linux下编译Hadoop的Eclipse插件

虽然使用Java编写MapReduce作业有点繁琐,但是对于刚入门hadoop的新手来说,有利于理解hadoop的一些底层实现,这无疑也是一种巨大的收获。目前大部分的MapReduce作业都是使用Hive,Pig完成的,当然也有用其他语言实现的,通过使用HadoopStreaming的方式,用原生Java写MR作业的只有很少一部分。在Hadoop2.x中,已经不支持eclipse的插件了,不过可以在 ...
qindongliang1922 评论(2) 有7582人浏览 2013-11-07 16:11

图解shell命令运行Hadoop1.2的WordCount例子

在hadoop1.2.x的版本中,直接运行自带的WordCount的例子会报异常,这个原因是因为它路径的问题,所以,想要正常运行自带的例子,我们还是需要做一些准备工作的,当然你可以直接在eclipse中修改它的源码然后重新编译,再运行,这样一来比较麻烦,特别是对一些刚学习的朋友来说,在eclipse配置个hadoop也许都得折腾半天,所以本篇,散仙会介绍使用shell命令的改变它的编译路径,并重新打 ...
qindongliang1922 评论(0) 有2710人浏览 2013-11-04 19:07

图解Hadoop1.2.1容量调度器的配置

资源调度器是Hadoop集群中一个比较重要的模块,最初的hadoop资源调度器是基于队列形式的FIFO调度的,这种模式在大规模集群的时候,资源分配并不是很 ...
qindongliang1922 评论(0) 有4779人浏览 2013-10-31 17:32

CentOS6.4之图解Hadoop1.2.1完全分布式部署

散仙上篇博客,介绍了Hadoop基于单机模式下的伪分布式的部署,那么今天我们来看下Hadoop完全分布式的部署,其实只要伪分布式部署的会了,那么完全分布式的相对来说就很简单了,只要我们在一台机器上部署好,然后远程拷贝给其他的子节点就可以了。 散仙用的是Centos6.4的版本,hadoop1.2.1的版本,其他的一些linux系统都是大同小异,关于SSH的配置及一些准备工作,在这里就不多说了,不会 ...
qindongliang1922 评论(0) 有5869人浏览 2013-10-25 18:55

CentOS6.4之图解配置Hadoop1.2单机伪分布式

基于yarn平台的Hadoop2.2.0在前几天已经发布稳定版本了  新版本解决了1.x中的NameNode,JobTracker单点故障问题,使用yarn统一了分布式开发的集群平台,给集 ...
qindongliang1922 评论(0) 有5447人浏览 2013-10-22 16:40

CentOS6.4之SSH无验证双向登陆配置(二)

上一篇博客,散仙详细的描述了SSH的无验证登陆方式,但会发现命令流程还是有点复杂的,那么有没有一种简单,快捷的方式来搞定呢?答案是肯定的。 ...
qindongliang1922 评论(0) 有3394人浏览 2013-10-16 13:52

CentOS6.4之图解SSH无验证双向登陆配置

配置SSH无登陆验证,在很多场景下是非常方便的,尤其是在管理大型集群服务时,避免了繁琐的密码验证,在安全级别越高的服务器上,通常密码的设置更复杂,配置SSH,不仅可以用密钥保证节点间通信的安全性,同时也降低了频繁输入密码登陆的耗时,大大提高了管理效率。散仙写此篇文章,也是给准备入手Hadoop的道友们先做好一个基础的准备,当然你也可以不配置SSH,只要你愿意频繁输入Slave节点的密码来登陆。 ...
qindongliang1922 评论(0) 有7170人浏览 2013-10-15 17:39

Hadoop日志系统知识

hadoop日志系统中的日志收集模块,在如今比较流行的以及开源具有代表性的有facebook的scribe,apache的chukwa,linkedin的kafka,以及非常优秀的cloudrea的flume,在1.x的hadoop生态系统中,flume比较适合做日志收集模块,因为其功能全面,且具有高扩展性,高稳定性,高可靠性,以及便于管理和维护。 在1.xhadoop生态系统中,HDFS分布式 ...
qindongliang1922 评论(0) 有3960人浏览 2013-10-10 22:01
  • 专栏创建者:qindongliang1922
  • 创建时间:2014-04-10 10:40:16
  • 专栏文章数:20篇
  • 专栏被浏览:125883 次

本专栏热门文章

最新评论

之前看过你的文章觉得都还不错,这篇文章我认为实在太差了,有些语段根本就没说通也知道是转载还是原创的。毫 ...
the_small_base_ 评论了 Map/Reduce执行流程
如果指定的10个reduce,应该是随机的运行10个reduce任务
qindongliang1922 评论了 Map/Reduce执行流程
咨询一个问题,在wordcount这个例子解释中,每个reducer从100台节点上拿到属于自己分区的 ...
wwwwxiaoxiu 评论了 Map/Reduce执行流程
大神,你怎么设置的,local模式下能输出System.out.println的信息和LOG相关信息, ...
lifuxiangcaohui 评论了 如何查看Hadoop运行过程中产生日志
nanjihuoyan 写道请教博主,我要编译的hadoop-2.3.0,报错信息如下BUILD FA ...
qindongliang1922 评论了 Hadoop2.2.0的eclipse插件的编译
请教博主,我要编译的hadoop-2.3.0,报错信息如下BUILD FAILED/home/ubun ...
nanjihuoyan 评论了 Hadoop2.2.0的eclipse插件的编译
import com.qin.operadb.PersonRecoder; import com.qi ...
zhanggl23456 评论了 如何使用Hadoop的MultipleOutputs进行多文 ...
langke93 写道有没有sqoop2的安装文档,我按照官方文档操作下来,启动job后提示:Appl ...
shankses 评论了 数据迁移工具sqoop入门
aiyan3344 写道您好:如果 MultipleOutputs.addNamedOutput(jo ...
qindongliang1922 评论了 如何使用Hadoop的MultipleOutputs进行多文 ...
您好:如果 MultipleOutputs.addNamedOutput(job, "chi ...
aiyan3344 评论了 如何使用Hadoop的MultipleOutputs进行多文 ...
Global site tag (gtag.js) - Google Analytics