使用Pig优化mapreduce小文件处理 - The Big Data Way - ITeye博客

`

heipark

浏览: 2101815 次
性别:
来自: 北京

最近访客更多访客>>

chenlmnet

ninedragon

w11h22j33

lbyzx123

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

伍大都督：解释太到位了，感谢分享
理解Linux系统中的load average（图文版）
rfjian123：非常感谢，用你的方法解决了问题。
Server sent unexpected return value (403 Forbidden) in response to OPTIONS
yuhaifei12：今天遇到同样的问题了。设置的是每分钟执行一次。结果发现每分钟执 ...
解决Linux下crontab同一时间重复执行问题
BigBird2012：想问一下，使用ExecutorService每次都要调用 sh ...
spring quartz使用多线程并发“陷阱”
zhuqx1130：有用，谢谢
解决Sublime Text 3中文显示乱码（tab中文方块）问题

使用Pig优化mapreduce小文件处理

博客分类：

hadoop

阅读更多

测试数据：20GB gz数据，文件数4.7万个，大小从上百MB到几MB

测试机器：Slave 2台。8core，32GB内存，5 map slot，3 reduce slot

Job逻辑：输出文件总行数

使用Pig耗时：12mins
java代码（FileInputFormat）：>60 min （开启jvm重用，使用默认FileInputFormat）
java代码（CombineFileInputFormat）：21 min

结论：Pig对于处理小文件做了优化，性能远远好于Java编写代码。

关于PigInputFormat

默认使用集群配置block size来合并小文件，并作为input split传给map方法
时间input split 167个，远远小于Java编写代码（ FileInputFormat ）的4.7个input splits

-- end

分享到：

hadoop pig tips | PIG优化配置

2013-04-02 11:12
浏览 2896
评论(2)
分类:编程语言
查看更多

评论

2 楼 heipark 2013-04-16

墨规池写道

您好！能请教一下你的具体操作过程吗？

PIG默认就会使用PigInputFormat，这个默认就会合并小文件作为input split

1 楼墨规池 2013-04-16

您好！能请教一下你的具体操作过程吗？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

MapReduce的小应用: - 进一步优化MapReduce任务的效率，比如通过优化分区策略或改进排序算法。 - 考虑使用Hive等大数据查询工具来简化数据分析过程。 - 设计更直观的UI界面，以方便用户查看歌曲排行榜和用户音乐风格偏好。 - 进行更深入...

基于 Hadoop 平台，使用 MapReduce 编程，统计NBA球员五项数据.zip: 此外，Hadoop 还支持使用其他编程语言，如 Python 和 Scala，通过 Pig 或 Hive 等高级接口编写 MapReduce 作业，简化开发过程。然而，对于更复杂的逻辑，Java 仍然是首选，因为它提供了更大的灵活性和性能。在项目...

Apache Pig的性能优化.pdf: 根据给定的文件信息，我们可以深入探讨Apache Pig的性能优化及其在大数据处理中的角色与优势。首先，让我们从Apache Pig的基本概念入手。 ### Apache Pig概述 Apache Pig是一种高生产力的数据流语言和执行框架，...

基于MapReduce的交互可视化平台: 文章详细探讨了如何使用MapReduce这一大数据处理模型，结合GPU加速技术，MPI通信接口，以及Hadoop分布式文件系统等技术，构建一个高效、交互式的可视化平台。首先，MapReduce是一种编程模型，它允许开发者在不了解...

Hadoop MapReduce Cookbook 源码: 7. **高级特性**：如使用新版本的MapReduce API（如YARN和Flink等），以及与Hive、Pig等工具的集成。 8. **调试与监控**：介绍如何使用Hadoop自带的工具监控作业性能，定位并解决问题。通过本书的学习，读者不仅...

大数据之pig 命令: - **缺点**：虽然Pig简化了开发流程，但在某些特定情况下，MapReduce可能会提供更好的性能优化和控制能力。 #### 三、Pig的应用场景 - **数据清洗**：Pig特别适合用于数据清洗任务，如去除重复记录、填充缺失值等...

基于MapReduce的SQL查询优化分析.pdf: 总结来说，基于MapReduce的SQL查询优化分析是大数据处理领域的一个关键课题。通过深入理解SQL查询到MapReduce程序的转换过程，分析作业间的关系和数据处理逻辑，我们可以设计出更高效的数据处理流程，提高大数据系统...

pig-0.15.0: 用户在下载后，可以使用 `tar` 命令解压并安装，以在本地环境中使用 Apache Pig 0.15.0。标签“pig-0.15.0”是该资源的标识符，方便用户搜索和区分不同版本的 Pig。在实际应用中，选择合适的版本至关重要，因为...

Hadoop-MapReduce实践示例: 4. MapReduce优化技巧：在MapReduce的实践中，优化技巧包括但不限于合理设置map和reduce任务的数量、优化数据分区、调整内存使用等。例如，适当增加map任务的数量可以提高数据处理的并行度，而合理的数据分区则可以...

MapReduce on Hbase: MapReduce是一种编程模型，用于处理大规模数据集的计算。HBase是建立在Hadoop文件系统之上的一个开源、分布式的非关系型数据库（NoSQL），它以列族的形式存储数据。由于HBase是建立在Hadoop生态系统之上，因此它可以...

pig-0.16.0.tar安装包: - **Performance优化**: Pig支持多种性能优化策略，如使用`ORDER BY`和`GROUP BY`结合优化数据局部性，以及使用`PigStorage`或`TextLoader`等不同的数据加载器来优化I/O。总的来说，Pig提供了一种高级抽象，使得非...

HADOOP 系统之hadoop pig hive 整合版: HDFS为大数据提供了分布式存储，而MapReduce则提供了分布式计算的能力，将复杂任务分解为多个小任务并行处理。 **Hadoop The Definitive Guide** 这本书是Hadoop领域的权威指南，涵盖了Hadoop的安装、配置、优化...

pig-0.17.0.tar的安装包，: 假设你有一个名为 `sales.txt` 的数据文件，你可以使用以下Pig Latin脚本来加载并处理数据： ```piglatin -- 加载数据 sales = LOAD 'sales.txt' USING PigStorage(',') AS (date:chararray, product:chararray, ...

Hadoop技术内幕深入解析MapReduce架构设计与实现原理: 在实际应用中，MapReduce通常与其他Hadoop生态系统的组件结合使用，如Hive进行SQL查询，Pig进行数据处理，或者HBase进行实时数据访问。此外，Spark等新一代大数据处理框架，虽然在某些场景下可以提供更高的性能，但...

云计算PIG的使用.doc: Pig的优化器能够自动优化执行计划，提高处理效率。同时，Pig的UDF（用户定义函数）功能允许用户自定义处理逻辑，扩展其功能，以适应特定业务需求。总的来说，云计算PIG通过Pig Latin简化了Hadoop上的大数据处理，...

《pig编程指南》英文非图片电子版 Programming.Pig.pdf: 通过阅读这本书，读者能够学习如何使用PigLatin语言来编写高效的数据处理脚本，以及如何在生产环境中部署和优化Pig应用。《Pig编程指南》是学习和掌握Pig这一大数据处理工具不可或缺的参考资料。

pig-0.9.1.tar: 六、使用Pig Latin进行数据处理 Pig Latin是Pig的编程语言，用户可以通过编写简单的语句来处理数据。例如，以下是一个简单的Pig Latin脚本，用于统计文本文件中单词的数量： ``` grunt> data = LOAD 'input.txt' AS ...

Hadoop Mapreduce Cookbook（英文版）: 5. **优化技巧**：书中会探讨如何优化MapReduce作业，包括任务划分、内存管理、I/O优化、容错机制等，以提升整个集群的性能和资源利用率。 6. **实战案例**：《Hadoop MapReduce Cookbook》的一大亮点在于丰富的...

pig学习笔记: 3. **性能优化** ：Pig 在运行时会自动优化数据处理流程，避免不必要的计算，提高整体效率。 4. **兼容性** ：Pig 可以无缝集成到现有的 **Hadoop** 生态系统中，支持多种数据存储格式和后端计算框架。 5. **扩展性*...

用于进行hadoop pig分析的日志: 在Pig中，我们可以使用LOAD命令加载日志文件，然后通过各种数据处理步骤进行分析。例如，以下是一个简单的Pig Latin脚本示例，用于分析`access_log.txt`中的数据： ``` pig LOGS = LOAD 'access_log.txt' USING ...

Global site tag (gtag.js) - Google Analytics