1。安装LZO
sudo apt-get install liblzo2-dev
或者下载lzo2
http://www.oberhumer.com/opensource/lzo/download/.
./configure --enable-shared
make
make install
确认安装成功
% ls -l /usr/lib*/liblzo2*
-rw-r--r-- 1 root root 171056 Mar 20 2006 /usr/lib/liblzo2.a
lrwxrwxrwx 1 root root 16 Feb 17 2007 /usr/lib/liblzo2.so -> liblzo2.so.2.0.0*
lrwxrwxrwx 1 root root 16 Feb 17 2007 /usr/lib/liblzo2.so.2 -> liblzo2.so.2.0.0*
-rwxr-xr-x 1 root root 129067 Mar 20 2006 /usr/lib/liblzo2.so.2.0.0*
-rw-r--r-- 1 root root 208494 Mar 20 2006 /usr/lib64/liblzo2.a
lrwxrwxrwx 1 root root 16 Feb 17 2007 /usr/lib64/liblzo2.so -> liblzo2.so.2.0.0*
lrwxrwxrwx 1 root root 16 Feb 17 2007 /usr/lib64/liblzo2.so.2 -> liblzo2.so.2.0.0*
-rwxr-xr-x 1 root root 126572 Mar 20 2006 /usr/lib64/liblzo2.so.2.0.0*
2。下载hadoop-gpl-compression源码
http://code.google.com/a/apache-extras.org/p/hadoop-gpl-compression/downloads/list
3.编译
export JAVA_HOME=/path/to/64bit/jdk
export CFLAGS=-m64
export CXXFLAGS=-m64
ant compile-native tar
4.拷贝生成的jar到指定目录
cp build/hadoop-gpl-compression-0.1.0-dev/hadoop-gpl-compression-0.1.0-dev.jar /path/to/hadoop/dist/lib
5.拷贝native library
tar -cBf - -C build/hadoop-gpl-compression-0.1.0-dev/lib/native . | tar -xBvf - -C /path/to/hadoop/dist/lib/native
6.修改hadoop配置文件core-site.xml
<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,org.apache.hadoop.io.compress.BZip2Codec</value>
</property>
<property>
<name>io.compression.codec.lzo.class</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
7.修改hadoop配置文件mapred-site.xml
<property>
<name>mapred.compress.map.output</name>
<value>true</value>
</property>
<property>
<name>mapred.map.output.compression.codec</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
8下载一个windows的lzop的客户端,生存一个test.lzo
9.生存索引
单机版
hadoop jar /path/to/your/hadoop-lzo.jar com.hadoop.compression.lzo.LzoIndexer big_file.lzo
集群版
hadoop jar /path/to/your/hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer big_file.lzo
10.执行一个mapred程序,如wordcount
添加参数"-inputformat com.hadoop.mapred.DeprecatedLzoTextInputFormat"
分享到:
相关推荐
在Hadoop的类路径中添加这个JAR文件后,就可以在MapReduce任务或者HDFS操作中使用LZO压缩功能。 3. `hadoop-lzo-0.4.21-SNAPSHOT-sources.jar`:这个文件包含了Hadoop-LZO的源代码,对于开发者来说非常有用,因为...
5. **与Hadoop的集成**:Hadoop-LZO库提供了与Hadoop的无缝集成,允许用户直接在Hadoop作业中使用LZO压缩,无需额外的复杂配置。 然而,值得注意的是,虽然LZO速度快,但其压缩比低可能会导致存储成本增加。因此,...
这个JAR文件需要添加到Hadoop的类路径(classpath)中,以便Hadoop集群能够识别并使用LZO压缩格式。 在实际使用Hadoop LZO时,我们需要进行以下步骤: 1. 安装和配置:首先,下载hadoop-lzo-0.4.21-SNAPSHOT.jar,...
- `hadoop-lzo-0.4.20.jar`:这是一个已经编译好的Hadoop-LZO库,可以直接添加到Hadoop的类路径中,以便在不修改Hadoop源码的情况下使用LZO压缩。 - `hadoop-lzo-master.zip`:这是Hadoop-LZO项目的源代码,用户可以...
Hadoop-LZO是一款专门为Apache Hadoop设计的高效数据压缩库,它基于开源的LZO压缩算法,旨在提高Hadoop生态系统中的数据存储和处理效率。在大数据领域,压缩技术是至关重要的,因为它可以显著减少存储需求,加快数据...
为了在Hadoop集群中使用Hadoop LZO,用户需要将库文件添加到Hadoop的类路径中,并配置Hadoop的属性,如`io.compression.codecs`和`io.compression.codec.lzo.class`,以启用LZO压缩支持。同时,还需要确保集群中的...
标题提到的“hadoop-lzo所需包”指的是为了在Hadoop环境中使用LZO压缩功能,需要安装的相关软件包。这些包通常包括编译环境、LZO库本身、Hadoop的LZO插件以及其他依赖项。32位和64位版本的包是为了适应不同的操作...
综合来看,这个压缩包可能是一个用于大数据处理环境的工具集,其中`lzo-2.06.tar.gz`提供了LZO压缩库,`hadoop-lzo-master.zip`包含了在Hadoop上使用LZO的代码,而`apache-maven-3.3.9-bin.tar.gz`则是用于构建和...
hadoop配置支持LZO压缩必备,版本号hadoop-lzo-0.4.20-SNAPSHOT.jar,
将生成的 build/hadoop-lzo-0.4.15.jar cp 到 /usr/local/hadoop-1.0.2/lib 测试解压程序 bin/hadoop jar /usr/local/hadoop-1.0.2/lib/hadoop-lzo-0.4.15.jar ...
Hadoop与LZO压缩 Hadoop是一个开源框架,主要用于处理和存储大规模数据,它由Apache软件基金会开发。在大数据处理领域,Hadoop以其分布式计算模型(MapReduce)和可扩展性而闻名。为了提高数据存储和传输效率,...
而“hadoop-lzo-master.zip”则是Hadoop-LZO项目的源代码,通常包含了项目的所有文件,包括Java源代码、构建脚本和文档,用户可以下载并根据指导进行编译和部署,以在Hadoop集群上启用LZO压缩功能。 在大数据处理中...
总之,`hadoop-lzo-release-0.4.20.zip`是一个重要的Hadoop扩展,它提供了对LZO压缩算法的支持,对于那些寻求提高大数据处理性能的开发者和运维人员来说,理解和使用这个库是十分有价值的。通过研究和配置,可以有效...