使用lzo压缩替换hadoop原始的Gzip压缩。相比之下有如下特点:
我们这使用的是hadoop客户端。
1.压缩解压的速度很快
2.lzo压缩是基于block分块的。这样,一个大文件(在hadoop上可能会占用多个block),就可以有多个 MapReduce并行来进行处理。
虽然Lzo的压缩比没有Gzip高,不过由于其前2个特性,在Hadoop上使用Lzo还是能整体提升集群的性能的。能提高效率的即是合理的。
接下来说说我遇到的问题:
以下是各个配置
1.Linux 83_20 2.6.18-128.el5 #1 SMP Wed Dec 17 11:41:38 EST 2008 x86_64 x86_64 x86_64 GNU/Linux
2.hadoop-0.20.2
3.jdk1.6 32位。[出现问题就在这里]
结果在运行时出现如下问题:
11/08/22 18:12:50 INFO input.FileInputFormat: Total input paths to process : 1
11/08/22 18:12:50 ERROR lzo.GPLNativeCodeLoader: Could not load native gpl library
java.lang.UnsatisfiedLinkError: no gplcompression in java.library.path
at java.lang.ClassLoader.loadLibrary(ClassLoader.java:1709)
at java.lang.Runtime.loadLibrary0(Runtime.java:823)
at java.lang.System.loadLibrary(System.java:1028)
at com.hadoop.compression.lzo.GPLNativeCodeLoader.<clinit>(GPLNativeCodeLoader.java:32)
at com.hadoop.compression.lzo.LzoCodec.<clinit>(LzoCodec.java:71)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:247)
at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:943)
检查了好半天原来是jdk版本的问题,改成64位的就好了。把错误记录下来,总结下!
分享到:
相关推荐
总之,Hadoop LZO是一个为Hadoop设计的高效压缩工具,通过使用hadoop-lzo-0.4.21-SNAPSHOT.jar,我们可以利用LZO算法来压缩和解压缩数据,提升数据存储和传输的效率。在大数据处理的实践中,合理运用Hadoop LZO可以...
为了在Hadoop集群中使用Hadoop LZO,用户需要将库文件添加到Hadoop的类路径中,并配置Hadoop的属性,如`io.compression.codecs`和`io.compression.codec.lzo.class`,以启用LZO压缩支持。同时,还需要确保集群中的...
hadoop2 lzo 文件 ,编译好的64位 hadoop-lzo-0.4.20.jar 文件 ,在mac 系统下编译的,用法:解压后把hadoop-lzo-0.4.20.jar 放到你的hadoop 安装路径下的lib 下,把里面lib/Mac_OS_X-x86_64-64 下的所有文件 拷到 ...
描述中提到的"Mac下编译的hadoop-lzo"意味着这个版本是在Mac操作系统上编译构建的,这确保了在Mac环境下运行Hadoop集群时,可以顺利集成和使用这个压缩库。Hadoop-LZO的源代码编译通常涉及到Java开发环境(JDK)、...
- `hadoop-lzo-0.4.20.jar`:这是一个已经编译好的Hadoop-LZO库,可以直接添加到Hadoop的类路径中,以便在不修改Hadoop源码的情况下使用LZO压缩。 - `hadoop-lzo-master.zip`:这是Hadoop-LZO项目的源代码,用户可以...
hadoop2 lzo 文件 ,编译好的64位 hadoop-lzo-0.4.15.jar 文件 ,在mac 系统下编译的,用法:解压后把hadoop-lzo-0.4.15.jar 放到你的hadoop 安装路径下的lib 下,把里面lib/Mac_OS_X-x86_64-64 下的所有文件 拷到 ...
理解并掌握Hadoop-LZO的原理和使用方法,对于优化Hadoop集群的性能和资源利用率具有重要意义。在实际项目中,根据具体需求选择合适的压缩算法,结合Hadoop-LZO的特性,可以为大数据处理带来显著的优势。
综合来看,这个压缩包可能是一个用于大数据处理环境的工具集,其中`lzo-2.06.tar.gz`提供了LZO压缩库,`hadoop-lzo-master.zip`包含了在Hadoop上使用LZO的代码,而`apache-maven-3.3.9-bin.tar.gz`则是用于构建和...
编译后的hadoop-lzo源码,将hadoop-lzo-0.4.21-SNAPSHOT.jar放到hadoop的classpath下 如${HADOOP_HOME}/share/hadoop/common。hadoop才能正确支持lzo,免去编译的烦恼
hadoop-lzo-0.4.13.jar 依赖包 hadoop-lzo-0.4.13.jar 依赖包 hadoop-lzo-0.4.13.jar 依赖包
标题提到的“hadoop-lzo所需包”指的是为了在Hadoop环境中使用LZO压缩功能,需要安装的相关软件包。这些包通常包括编译环境、LZO库本身、Hadoop的LZO插件以及其他依赖项。32位和64位版本的包是为了适应不同的操作...
hadoop用于解析lzo的包,这个问题在使用presto的时候需要将此包添加到presto的工具包中,以支持lzo格式文件的查询。
在大数据处理中,LZO与Hadoop-LZO的结合使用可以提供以下优势: 1. **存储效率**:通过LZO压缩,可以显著减少HDFS(Hadoop Distributed File System)上的存储空间需求,降低存储成本。 2. **计算效率**:LZO的快速...
将生成的 build/hadoop-lzo-0.4.15.jar cp 到 /usr/local/hadoop-1.0.2/lib 测试解压程序 bin/hadoop jar /usr/local/hadoop-1.0.2/lib/hadoop-lzo-0.4.15.jar ...