在Pig中使用Lzo - The Big Data Way - ITeye博客

`

heipark

浏览: 2104883 次
性别:
来自: 北京

最近访客更多访客>>

chenlmnet

ninedragon

w11h22j33

lbyzx123

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

伍大都督：解释太到位了，感谢分享
理解Linux系统中的load average（图文版）
rfjian123：非常感谢，用你的方法解决了问题。
Server sent unexpected return value (403 Forbidden) in response to OPTIONS
yuhaifei12：今天遇到同样的问题了。设置的是每分钟执行一次。结果发现每分钟执 ...
解决Linux下crontab同一时间重复执行问题
BigBird2012：想问一下，使用ExecutorService每次都要调用 sh ...
spring quartz使用多线程并发“陷阱”
zhuqx1130：有用，谢谢
解决Sublime Text 3中文显示乱码（tab中文方块）问题

在Pig中使用Lzo

博客分类：

hadoop

hadoop pig lzo elephant-bird

阅读更多

一、寻找依赖包

要在pig下使用lzo，我们需要第三方lib，目前我在使用的是twitter的elephant-bird，项目地址：

https://github.com/kevinweil/elephant-bird

你可以自己编译出jar文件，我比较懒直接使用maven库（search.maven.org）中的lib，地址如下：

# elephant-bird-pig-3.0.8.jar
http://search.maven.org/remotecontent?filepath=com/twitter/elephantbird/elephant-bird-pig/3.0.8/elephant-bird-pig-3.0.8.jar
# elephant-bird-core-3.0.8.jar
http://search.maven.org/remotecontent?filepath=com/twitter/elephantbird/elephant-bird-core/3.0.8/elephant-bird-core-3.0.8.jar

二、使用Pig Lzo (elephant-bird)

写道

> pig
REGISTER 'elephant-bird-core-3.0.8.jar';
REGISTER 'elephant-bird-pig-3.0.8.jar';
rows = LOAD '/user/hdfs/test.lzo' USING com.twitter.elephantbird.pig.load.LzoTextLoader;
....

--end

分享到：

解决Linux下crontab同一时间重复执行问题 | python对XML的解析（转）

2013-03-26 08:41
浏览 3755
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

elephant-bird-core-4.6rc1.zip: 在Pig中，Elephant Bird提供了用户定义的函数（UDFs），允许用户在Pig Latin脚本中直接处理LZO压缩和protobuf格式的数据。这极大地扩展了Pig的功能，使得数据处理更加灵活。五、Hive SerDe 对于Hive，Elephant ...

象鸟：Twitter的LZO和与协议缓冲区相关的Hadoop，Pig，Hive和HBase代码的集合: 象鸟关于 Elephant Bird是Twitter的，和/或与相关的 InputFormats，OutputFormats，Writables， LoadFuncs， SerDe， miscellanea等的开源库。Twitter上的大多数此类代码在生产中都在... 通常，这是通过在pig-env

hadoop毅哥的压缩包.7z: 使用hadoop-lzo-0.4.20.jar，用户可以在Hadoop作业中利用LZO进行数据压缩和解压缩，以减少网络传输和存储成本。 4. **Hadoop-lzo开发**：对于开发者，hadoop-lzo-master.zip可以用来获取源代码，理解其工作原理，...

hadoop-0.20.0.tar: Hadoop是大数据处理领域的重要...通过深入学习和使用Hadoop，开发者和数据科学家可以应对不断增长的数据挑战，挖掘隐藏在海量数据中的洞察力。而“hadoop-0.20.0.tar”则为我们提供了一个探索这一强大框架的历史窗口。

java使用Parquet: - 虽然标题和描述仅提到“java使用Parquet”，但考虑到“GPU编程去重”这一标签，我们可以推测Parquet也可能在GPU加速的大数据处理中发挥作用。利用GPU的并行计算能力，可以对Parquet文件中的数据进行快速去重操作...

datax支持读取parquet格式文件，支持写入parquet格式文件，修复读取orc读取数据丢失问题: 4. **跨平台兼容性**：Parquet是Apache Hadoop生态系统的一部分，能够被各种Hadoop生态系统中的工具（如Pig、Hive、Impala等）读取和写入。新增的对Parquet格式的读取和写入支持意味着DataX现在可以更好地融入...

parquet-tools-0.1.0-bin.tar.gz: 在Parquet中，每一列数据都单独存储，这样在处理只涉及部分列的查询时，可以减少不必要的I/O操作。 3. **压缩**：Parquet支持多种压缩算法，如Snappy、Gzip和LZO，这些算法能有效减少磁盘空间占用，同时保持较高的...

EasyHadoop部署实战手册: - **检查master到每个node节点在Hadoop用户下使用密钥登录是否正常**：确保Hadoop用户能够正常登录到集群中的每一个节点。 - **配置master集群服务器地址**：在`masters`和`slaves`文件中定义集群的主节点和从节点...

暴风数据平台简介.pdf: - 支持数据压缩: 使用LZO压缩提高存储效率。 - 失败恢复: 在数据传输过程中遇到问题时能自动恢复，确保数据传输的连续性和完整性。 ##### 3. HCRush - **功能**: HCRush是一个基于MapReduce的通用日志清洗框架。 ...

parquet-mr,阿帕奇拼花.zip: 6. **与Apache Hadoop兼容**：作为Apache项目的一部分，Parquet-MR与Hadoop MapReduce和YARN框架无缝集成，可以与Hive、Pig、Spark等大数据处理工具配合使用。 7. **跨语言支持**：Parquet不仅仅局限于Java，还有...

大数据云计算技术暴风集团基于hadoop的数据平台总体架构简介（共18页）.ppt: 1. **IUPushRsync**: 这是数据平台中的一个关键组件，它使用rsync -U命令对日志文件进行增量同步，以实现准实时的数据传输和压缩，从而有效降低网络带宽占用。此外，IUPushRsync还确保数据传输的完整性，通过检验...

大数据技术复习大纲: 在大数据生态系统中，HBase是一个高性能、可伸缩的列式数据库，用于存储非结构化数据，通常运行在HDFS之上，是谷歌BigTable的开源实现。MapReduce是一个编程模型，用于大规模数据集的并行计算。Hive是一个基于Hadoop...

hbase性能调优: 在实际应用中，为了确保系统高效稳定运行，性能调优是必不可少的环节。本文将深入探讨HBase的性能优化策略，主要包括垃圾回收优化、数据压缩、region的拆分与合并以及预拆分策略。 1. **垃圾回收优化** HBase的...

“暴风数据平台简介”总结: Pig运行在Hadoop之上，能够处理结构化和半结构化的数据。 3. HBase：一个开源的非关系型分布式数据库（NoSQL），利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的大量数据，或者利用...

hadoop面试题: - **压缩**：使用Gzip或LZO等压缩算法，减小数据传输量。 - **MapReduce参数调整**：如调整map/reduce任务数量、内存分配等。 6. **Hadoop生态系统** Hadoop周围有一系列项目，如Hive提供SQL-like查询，Pig用于...

Hadoop主流开源云架构介绍.pptx: 此外，还有Hadoop的高级接口，如Pig、Hive、Spark等，这些接口允许开发者使用SQL或更高层次的抽象来处理数据。总结，Hadoop作为主流的开源云架构，其强大的分布式存储和计算能力解决了大数据处理的挑战。YARN的...

Hadoop in Practice(2012): Each technique addresses a specific task you'll face, like querying big data using Pig or writing a log file loader. You'll explore each problem step by step, learning both how to build and deploy ...

Hadoop知识库：Hadoop知识库和常规命令: MapReduce是Hadoop的数据处理模型，它将大型数据集拆分成小块，并在集群中的不同节点上并行处理。 1. **HDFS基本概念** - **NameNode**：HDFS的主节点，负责管理文件系统的元数据，如文件名、文件块位置等。 - **...

Global site tag (gtag.js) - Google Analytics