-
证道Hadoop
收藏散仙结合个人的学习经历,愿意与大家分享学习hadoop的路程,希望能帮到更多有志之士,一起学习,一起进步。 hadoop探讨交流群:376932160
最近更新文章
如何使用Hadoop的MultipleOutputs进行多文件输出
有时候,我们使用Hadoop处理数据时,在Reduce阶段,我们可能想对每一个输出的key进行单独输出一个目录或文件,这样方便数据分析,比如根据某个时间段对日志文件进行时间段归类等等。这时候我们就可以使用MultipleOutputs类,来搞定这件事,
下面,先来看下散仙的测试数据:
中国;我们
美国;他们
中国;123
中国人;善良
美国;USA
美国;在北美洲
输出结果:预期输出结 ...
如何使用Hadoop的Partitioner
Hadoop里面的MapReduce编程模型,非常灵活,大部分环节我们都可以重写它的API,来灵活定制我们自己的一些特殊需求。
今天散仙要说的这个分区函数Partitioner,也是一样如此,下面我们先来看下Partitioner的作用:
对map端输出的数据key作一个散列,使数据能够均匀分布在各个reduce上进行后续操作,避免产生热点区。
Hadoop默认使用的分区函数是Hash Parti ...
Map/Reduce执行流程
FileSplit:文件的子集--文件分割体
简介:
这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对Google的MapReduce各式模式不熟悉,请先参阅Map ...
如何使用Hadoop的DistributedCache
DistributedCache是Hadoop的一个分布式文件缓存类,使用它有时候能完成一些比较方便的事,DistributedCache第一个比较方便的作用就是来完成分布式文件共享这件事,第二个比较有用的场景,就是在执行一些join操作时,将小表放入cache中,来提高连接效率。
那么,散仙今天要介绍的是如何使用DistributedCache来共享全局的缓存文件。
下面我们先通过一个表格来 ...
如何查看Hadoop运行过程中产生日志
用hadoop也算有一段时间了,一直没有注意过hadoop运行过程中,产生的数据日志,比如说System打印的日志,或者是log4j,slf4j等记录的日志,存放在哪里,日志信息的重要性,在这里散仙就不用多说了,调试任何程序基本上都得需要分析日志。
hadoop的日志主要是MapReduce程序,运行过程中,产生的一些数据日志,除了系统的日志外,还包含一些我们自己在测试时候,或者线上环境输出的日志 ...
如何使用Hadoop读写数据库
在我们的一些应用程序中,常常避免不了要与数据库进行交互,而在我们的hadoop中,有时候也需要和数据库进行交互,比如说,数据分析的结果存入数据库,或者是,读取数据库的信息写入HDFS上,不过直接使用MapReduce操作数据库,这种情况在现实开发还是比较少,一般我们会采用Sqoop来进行数据的迁入,迁出,使用Hive分析数据集,大多数情况下,直接使用Hadoop访问关系型数据库,可能产生比较大的数据 ...
如何使用eclipse调试Hadoop作业
使用eclipse来调试hadoop作业是非常简洁方便的,散仙以前也有用eclipse开发过hadoop程序,但是一直没有深入了解eclipse调试的一些模式,有些时候也会出一些莫名奇妙的异常,最常见的就是下面这个
java.lang.RuntimeException: java.lang.ClassNotFoundException: com.qin.sort.TestSort$SMapper
...
sqoop的安装使用
散仙,在上篇文章中,简述了sqoop的的功能,作用,以及版本演进,那么本篇我们就来实战下,看下如下安装使用sqoop(注:散仙在这里部署的是sqoop1的环境搭建)。
首先,sqoop是基于Hadoop工作的,所以在这之前,确保你的Linux环境下,已经有可以正常工作的hadoop集群,当然伪分布式和完全分布式都可以。
其次,我们得下载一个sqoop的安全包,散仙在这里使用的是sqoop1, ...
数据迁移工具sqoop入门
首先,先简单说明下sqoop是什么,sqoop 即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理 ...
Hadoop2.2.0的eclipse插件的编译
Hadoop2.x之后,已经发布了稳定的版本hadoop2.2.0.但是由于没有eclipse插件工具,辅助,开发调试相对起来,会稍显麻烦,特别是基于Java开发的工程师们,虽然写完MR任务后,也可以采用打成jar包的方式,上传调试,但是这种方式,也有点繁琐,不过网上也好像有一些,使用程序能够自动打包任务的程序,散仙没具体用过,在这里,就不多涉及了,有知道的朋友们,欢迎分享。
下面开始进入正题, ...
如何使用Java API读写HDFS
HDFS是Hadoop生态系统的根基,也是Hadoop生态系统中的重要一员,大部分时候,我们都会使用Linux shell命令来管理HDFS,包括一些文件的创建,删除,修改,上传等等,因为使用shell命令操作HDFS的方式,相对比较简单,方便,但是有时候,我们也需要通过编程的方式来实现对文件系统的管理。
比如有如下的一个小需求,要求我们实现读取HDFS某个文件夹下所有日志,经过加工处理后在写入 ...
如何使用hadoop对海量数据进行统计并排序
不得不说,Hadoop确实是处理海量离线数据的利器,当然,凡是一个东西有优点必定也有缺点,hadoop的缺点也很多,比如对流式计算,实时计算,DAG具有依赖关系的计算,支持都不友好,所以,由此诞生了很多新的分布式计算框架,Storm,Spark,Tez,impala,drill,等等,他们都是针对特定问题提出一种解决方案,新框架的的兴起,并不意味者他们就可以替代hadoop,一手独大,HDFS和Ma ...
Linux下编译Hadoop的Eclipse插件
虽然使用Java编写MapReduce作业有点繁琐,但是对于刚入门hadoop的新手来说,有利于理解hadoop的一些底层实现,这无疑也是一种巨大的收获。目前大部分的MapReduce作业都是使用Hive,Pig完成的,当然也有用其他语言实现的,通过使用HadoopStreaming的方式,用原生Java写MR作业的只有很少一部分。在Hadoop2.x中,已经不支持eclipse的插件了,不过可以在 ...
图解shell命令运行Hadoop1.2的WordCount例子
在hadoop1.2.x的版本中,直接运行自带的WordCount的例子会报异常,这个原因是因为它路径的问题,所以,想要正常运行自带的例子,我们还是需要做一些准备工作的,当然你可以直接在eclipse中修改它的源码然后重新编译,再运行,这样一来比较麻烦,特别是对一些刚学习的朋友来说,在eclipse配置个hadoop也许都得折腾半天,所以本篇,散仙会介绍使用shell命令的改变它的编译路径,并重新打 ...
图解Hadoop1.2.1容量调度器的配置
资源调度器是Hadoop集群中一个比较重要的模块,最初的hadoop资源调度器是基于队列形式的FIFO调度的,这种模式在大规模集群的时候,资源分配并不是很 ...
CentOS6.4之图解Hadoop1.2.1完全分布式部署
散仙上篇博客,介绍了Hadoop基于单机模式下的伪分布式的部署,那么今天我们来看下Hadoop完全分布式的部署,其实只要伪分布式部署的会了,那么完全分布式的相对来说就很简单了,只要我们在一台机器上部署好,然后远程拷贝给其他的子节点就可以了。
散仙用的是Centos6.4的版本,hadoop1.2.1的版本,其他的一些linux系统都是大同小异,关于SSH的配置及一些准备工作,在这里就不多说了,不会 ...
CentOS6.4之图解配置Hadoop1.2单机伪分布式
基于yarn平台的Hadoop2.2.0在前几天已经发布稳定版本了
新版本解决了1.x中的NameNode,JobTracker单点故障问题,使用yarn统一了分布式开发的集群平台,给集 ...
CentOS6.4之SSH无验证双向登陆配置(二)
上一篇博客,散仙详细的描述了SSH的无验证登陆方式,但会发现命令流程还是有点复杂的,那么有没有一种简单,快捷的方式来搞定呢?答案是肯定的。 ...
CentOS6.4之图解SSH无验证双向登陆配置
配置SSH无登陆验证,在很多场景下是非常方便的,尤其是在管理大型集群服务时,避免了繁琐的密码验证,在安全级别越高的服务器上,通常密码的设置更复杂,配置SSH,不仅可以用密钥保证节点间通信的安全性,同时也降低了频繁输入密码登陆的耗时,大大提高了管理效率。散仙写此篇文章,也是给准备入手Hadoop的道友们先做好一个基础的准备,当然你也可以不配置SSH,只要你愿意频繁输入Slave节点的密码来登陆。
...
Hadoop日志系统知识
hadoop日志系统中的日志收集模块,在如今比较流行的以及开源具有代表性的有facebook的scribe,apache的chukwa,linkedin的kafka,以及非常优秀的cloudrea的flume,在1.x的hadoop生态系统中,flume比较适合做日志收集模块,因为其功能全面,且具有高扩展性,高稳定性,高可靠性,以及便于管理和维护。
在1.xhadoop生态系统中,HDFS分布式 ...
- 专栏创建者:qindongliang1922
- 创建时间:2014-04-10 10:40:16
- 专栏文章数:20篇
- 专栏被浏览:125883 次
本专栏热门文章
最新评论
nanjihuoyan 写道请教博主,我要编译的hadoop-2.3.0,报错信息如下BUILD FA ...
qindongliang1922 评论了 Hadoop2.2.0的eclipse插件的编译
qindongliang1922 评论了 Hadoop2.2.0的eclipse插件的编译
import com.qin.operadb.PersonRecoder; import com.qi ...
zhanggl23456 评论了 如何使用Hadoop的MultipleOutputs进行多文 ...
zhanggl23456 评论了 如何使用Hadoop的MultipleOutputs进行多文 ...
aiyan3344 写道您好:如果 MultipleOutputs.addNamedOutput(jo ...
qindongliang1922 评论了 如何使用Hadoop的MultipleOutputs进行多文 ...
qindongliang1922 评论了 如何使用Hadoop的MultipleOutputs进行多文 ...