`
BlackWing
  • 浏览: 200576 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

hadoop 1.0.3增加snappy压缩

阅读更多
转载请标明来源:http://blackwing.iteye.com/blog/1940933

基础环境是ubuntu 10.04 LTS,网上得知hadoop 1.0.3以后集成了snappy,所以相比安装lzo,简便一点。

预备条件:
1. 预先配好环境

sudo apt-get install autoconf
sudo apt-get install automake
sudo apt-get install libtool


2. 下载并安装snappy
1)下载地址
http://code.google.com/p/snappy/downloads/list


2)安装
解压后,直接运行:
./configure
make
make install


之后就安装在/usr/local/lib下

3. hadoop方面设置
1)在core-site.xml中增加一下配置:
<property>
  <name>hadoop.native.lib</name>
  <value>true</value>
</property>


2)在mapred-site.xml中,增加一下设置
<property>
  <name>mapred.compress.map.output</name>
  <value>true</value>
</property>

<property>
  <name>mapred.map.output.compression.codec</name>
  <value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

表示通过snappy对map输出进行压缩

3)把/usr/local/lib下libsnappy*文件拷贝到 $HADOOP_HOME/lib/native/Linux-amd64-64/下

4)在hadoop-env.sh中设置:

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HADOOP_HOME/lib/native/Linux-amd64-64/:/usr/local/lib/



之后重启hadoop集群,运行MR程序就能看到已经能加载新的压缩codec。
分享到:
评论

相关推荐

    Hadoop总结资料Hadoop1.0.3

    【Hadoop总结资料Hadoop1.0.3】 Hadoop是一个开源的分布式计算框架,主要由Apache基金会维护。Hadoop1.0.3是该框架的一个早期版本,它包括了Hadoop的核心组件如HDFS(Hadoop Distributed File System)和MapReduce...

    apache hadoop1.0.3配置说明 doc

    本文档用于说明hadoop1.0.3安装配置的步骤 以及其中需要注意的事项

    Hadoop集群上Snappy压缩算法的安装配置

    Snappy 压缩算法的安装配置在 Hadoop 集群上 Snappy 压缩算法是一种高效的压缩算法,广泛应用于 Hadoop 和 HBase 等大数据处理系统中。 本篇文章将介绍 Snappy 压缩算法在 Hadoop 集群上的安装配置过程,并分享一些...

    hadoop2.7.2 之 snappy压缩支持包.zip

    在Hadoop 2.7.2版本中,引入了对Snappy压缩算法的支持,这是一种高效的数据压缩库,尤其适合大数据环境。这个压缩支持包是针对Hadoop 2.7.2版本的,用于增强其在数据压缩方面的能力。 Snappy是由Google开发的,旨在...

    hadoop 1.0.3安装包

    3. **下载与解压**:下载Hadoop 1.0.3安装包,解压缩到一个合适的目录,例如 `/usr/local/hadoop`。解压后的文件应该包括配置文件、可执行脚本和库文件等。 4. **配置Hadoop**:修改配置文件 `hadoop-env.sh`(设置...

    hadoop3.x带snappy(可用于windows本地开发)

    【标题】"hadoop3.x带snappy(可用于windows本地开发)"所涉及的知识点主要集中在Hadoop 3.0版本以及Snappy压缩算法在Windows环境下的应用。Hadoop是一个开源的大数据处理框架,由Apache软件基金会开发,它使得在...

    hadoop2.7.4-snappy

    Hadoop2.7.4版本通过编译源码的方式支持了Snappy压缩算法。Snappy是一种由Google开发的压缩库,旨在提供高速压缩和解压缩能力,同时也保证了一定的压缩率。在大数据场景中,选择合适的压缩算法对于提高整体系统的...

    hadoop 1.0.3 eclipse plugins 插件

    hadoop 1.0.3 eclipse plugins 插件

    hadoop-snappy-0.0.1-SNAPSHOT.tar.gz

    《Hadoop与Snappy压缩:深入理解与应用》 在大数据处理领域,Hadoop作为开源分布式计算框架,扮演着至关重要的角色。为了提高数据存储和处理的效率,Hadoop支持多种压缩算法,其中Snappy是一种广泛应用的高效压缩库...

    hadoop1.0.3的eclipse plugin

    Hadoop1.0.3的eclipse插件,常规links安装方式即可 Eclipse3.6及4.2亲测可用

    Hadoop源码编译支持Snappy压缩教程

    ### Hadoop源码编译支持Snappy压缩教程 #### 一、Snappy压缩技术简介 在大数据处理领域,数据压缩技术对于提高存储效率和降低I/O开销具有重要作用。Snappy是一种高效的压缩与解压缩算法,它在压缩比与速度之间取得...

    支持snappy压缩的hadoop,直接下载到本地,解压后即可使用

    标题中的“支持snappy压缩的hadoop”指的是Hadoop,一个开源的大数据处理框架,集成了对Snappy压缩算法的支持。Snappy是由谷歌开发的一种高效、快速的数据压缩和解压缩库,尤其适合大数据环境下的I/O操作。在Hadoop...

    支持snappy压缩的hadoop2.7.2

    在Hadoop 2.7.2版本中,引入了对Snappy压缩的支持,这是一个高效的压缩和解压缩库,尤其适合大数据处理场景。Snappy以其快速的压缩和解压速度以及相对较低的内存消耗而闻名,对于提升Hadoop集群的性能有着显著的作用...

    通过eclipse项目编译 hadoop 1.0.3 eclipse 4.2 ( juno ) plugin

    在本主题中,我们将深入探讨如何使用Eclipse IDE(版本4.2,也称为Juno)来编译Hadoop 1.0.3项目。Eclipse是一款强大的Java开发工具,而Hadoop则是一个分布式计算框架,广泛应用于大数据处理。通过集成Eclipse的插件...

    hadoop-snappy的java包

    在描述中提到的“hadoop-snappy的java包”是指一个特别编译的Hadoop模块,它包含了对Snappy压缩算法的支持。这个包的出现解决了用户自行编译的困扰,提供了现成的可使用的库文件。"hadoop-snappy-0.0.1-lib"是这个...

    hadoop-1.0.3-API.chm

    Hadoop-1.0.3 API, 帮助用户查看Hadoop自身提供的接口调用

    hadoop-snappy的jar包

    通常,要在Hadoop中启用Snappy压缩,开发者需要首先获取到与Hadoop版本兼容的hadoop-snappy JAR包。这个过程可能涉及到源代码的编译,因为官方可能并未提供预编译的二进制文件,尤其是对于特定版本的Hadoop或特定...

    hadoop-1.0.3 中文.chm

    hadoop-1.0.3 中文,资料都是来自apache,资料还是很齐全的,自己编译的,可以搜索,有些显示还是0.18版的,可能是文档没有更新过来。分数有点多,回复就会还你的。

Global site tag (gtag.js) - Google Analytics