在经历过忍饥挨饿、老眼昏花的深夜加班,最后扛不住没搞定,今天周六,再次来从新梳理思路和审核每一步操作,最终苍天终不负,让我搞定了LZO的安装,使集群间lzo文件的对拷和读写成为现实。期间,重启集群不下30遍,甚至一度丢掉了所有文件(测试环境),重新格式化。真心不容易,同时我很喜悦!因此,只要坚持和努力,结果不会令人太失望!
言归正传,把我安装的过程记录一下,以备下次再安装时,我就驾轻就熟了。
1、安装JAVA、HADOOP、ANT等环境以及安装lzo、lzop系统工具,这里不赘述;
2、下载lzo源码(我是从这里下载的 https://github.com/twitter/hadoop-lzo)和下载 hadoop-gpl-compression源码(https://code.google.com/a/apache-extras.org/p/hadoop-gpl-compression/downloads/list)最新版
3、 由于lzo已经年久失修,而hadoop的版本却与时俱进,这就导致了lzo的源码显得老气横秋,而hadoop却无比娇艳。因此,原生的lzo是不支持新版hadoop的,需要更改。更改的地方也不多,不要害怕,这些需要自己动手,问度娘也不知道的,具体涉及的是两个类三个地方, "Impala V1.0安装之lzo "
4、去lzo的根目录下(即hadoop-lzo-master下),把lib目录下的jar删除,替换成你要对应的hadoop版本的jar包(我的是Hadoop 2.0.0-cdh4.3.0 );
5、对更改好的lzo源码进行编译,去lzo源码根目录下执行
export CFLAGS=-m64
export CXXFLAGS=-m64
ant compile-native tar
把编译完成生产的 cp ./builder/hadoop-lzo-0.4.17-SNAPSHOT.jar $HADOOP_HOME/share/hadoop/yarn/lib
6、把更改好的lzo源码(java src部分)全部拷贝至 hadoop-gpl-compression-0.1.0 根目录下的 java src下。删除hadoop-gpl-compression-0.1.0目录下的lib,把 hadoop-lzo-master 下lib目录完全拷贝至 hadoop-gpl-compression-0.1.0目录下,在其根目录下执行
ant compile-native tar
拷贝结果 cp ./builder/hadoop-gpl-compression-0.1.0-dev.jar $HADOOP_HOME/share/hadoop/yarn/lib
tar -cBf - -C build/hadoop-gpl-compression-0.1.0-dev/lib/native . | tar -xBvf - -C $HADOOP_HOME/lib/native
把hadoop的lib、share目录scp至各个节点
7、设置 各个节点设置~/.bashrc (这很重要,我就因为忘了设置JAVA_LIBRARY_PATH,一直没无法读取lzo )
export JAVA_LIBRARY_PATH=/export/servers/jdk1.6.0_25/jre/lib/amd64/server:/export/servers/jdk1.6.0_25/jre/lib/amd64/server::/usr/local/hadoop/lib/native/Linux-amd64-64:/usr/local/hadoop/lib/native:/usr/local/lib:/usr/local/hadoop/lib/native/Linux-amd64-64:/usr/local/hadoop/lib/native:/usr/local/lib
export LD_LIBRARY_PATH=$JAVA_LIBRARY_PATH
至此,大功告成,重启集群,执行 hdfs dfs -text /你的lzo文件,那么就可以看到结果了,如果成功了,那么恭喜你;如果不成功,继续努力,去审查每个过程,是否有漏掉的错误没有解决。
欢迎进行交流,QQ:214814466
相关推荐
《Hadoop 2.0.0-cdh4.2.1:大数据处理的基石》 Hadoop,这个在大数据领域中具有里程碑意义的名字,代表着分布式计算的革新力量。Hadoop 2.0.0-cdh4.2.1是Cloudera公司发布的一个稳定版本,它基于Apache Hadoop的...
完成以上步骤后,你应该已经成功安装并启动了Hadoop-2.0.0-cdh4.3.0集群。接下来,你可以开始进行数据导入、MapReduce任务编写和运行,体验Hadoop的大数据处理能力。记住,监控日志和调整配置以优化性能是持续运维的...
自己编译的hadoop-2.0.0-cdh4.6.0版本eclipse插件
通过学习和分析`hadoop-2.0.0-cdh4.2.1`的源码,开发者可以更好地理解Hadoop的工作原理,定制化开发,或者优化Hadoop集群的性能。同时,这对于解决生产环境中遇到的问题,以及进行大数据处理的算法设计都是非常有...
【Hadoop-2.0.0-cdh4.3.0 安装手册(hbase-0.94.15-cdh4.6.0)】 在云计算和大数据处理领域,Apache Hadoop 和 Cloudera's Distribution Including Apache Hadoop (CDH) 是广泛使用的开源框架。CDH4 是 Cloudera 提供...
hadoop-cdh-4.5.0 eclipse plugin hadoop eclipse 插件 hadoop-eclipse-plugin-2.0.0-cdh4.5.0.jar
hadoop-2.0.0-cdh4.1.5-eclipse-plugin.jar 在cdh4.1.5的MRv1配置下的自编插件(亲测cdh4.1.5~cdh4.2.2可用)
spark-assembly-1.6.0-cdh5.9.2-hadoop2.6.0-cdh5.9.2.jar
hadoop-2.6.0-cdh5.14.0 源码 。
3. **安装与配置**:解压 "sqoop-1.4.2.bin__hadoop-2.0.0-alpha" 文件后,需要将 Sqoop 目录添加到环境变量,以便在命令行中调用。同时,需要根据实际的 Hadoop 集群配置文件(如 core-site.xml 和 hdfs-site.xml)...
标题中的"hadoop-2.6.0-cdh5.14.2.tar.gz"是一个针对Apache Hadoop的软件包,具体来说是CDH(Cloudera Distribution Including Apache Hadoop)5.14.2版本,它基于Hadoop 2.6.0。CDH是由Cloudera公司提供的一个开源...
大数据/Linux安装包-hadoop-2.6.0-cdh5.15.1.tar.gz 大数据/Linux安装包-hadoop-2.6.0-cdh5.15.1.tar.gz 大数据/Linux安装包-hadoop-2.6.0-cdh5.15.1.tar.gz
本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载,本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载
通过以上步骤,你应该能在CDH5.3.6环境中成功编译和使用带有Snappy支持的Hadoop native库。这将使你的集群能够充分利用Snappy的高速压缩和解压缩能力,提升大数据处理的效率。记住,每次Hadoop或Snappy有新版本时,...
而hadoop-2.6.0-cdh5.16.2.tar.gz则是Cloudera公司推出的基于Hadoop 2.6.0的CDH(Cloudera Distribution Including Apache Hadoop)版本。CDH是业界广泛采用的企业级Hadoop发行版,它不仅集成了Hadoop的核心组件,还...
带编译所需的maven库,hadoop-2.6.0-cdh5.15.2在CentOS Linux release 7.3.1611重新编译的版本
标题中的“hive-0.10.0-cdh4.3.0.tar.gz”是一个针对Hive的软件发行版本,具体来说是Hive 0.10.0集成在Cloudera Distribution Including Apache Hadoop(CDH)4.3.0版本的压缩包。Hive是Apache Software Foundation...
carbondata-1.4,spark-2.1,hadoop-2.6.0-cdh5.11.1源码编译
# 解压命令 tar -zxvf flink-shaded-hadoop-2-uber-3.0.0-cdh6.2.0-7.0.jar.tar.gz # 介绍 用于CDH部署 Flink所依赖的jar包