`
heipark
  • 浏览: 2094811 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

使用Pig优化mapreduce小文件处理

 
阅读更多

 

测试数据:20GB gz数据,文件数4.7万个,大小从上百MB到几MB

测试机器:Slave 2台。8core,32GB内存,5 map slot,3 reduce slot

Job逻辑:输出文件总行数

 

  • 使用Pig耗时:12mins
  • java代码(FileInputFormat):>60 min (开启jvm重用,使用默认FileInputFormat)
  • java代码(CombineFileInputFormat):21 min 

结论:Pig对于处理小文件做了优化,性能远远好于Java编写代码。

 

 

关于PigInputFormat

  • 默认使用集群配置block size来合并小文件,并作为input split传给map方法
  • 时间input split 167个,远远小于Java编写代码( FileInputFormat )的4.7个input splits

 

-- end

 

 

分享到:
评论
2 楼 heipark 2013-04-16  
墨规池 写道
您好!能请教一下你的具体操作过程吗?


PIG默认就会使用PigInputFormat,这个默认就会合并小文件作为input split
1 楼 墨规池 2013-04-16  
您好!能请教一下你的具体操作过程吗?

相关推荐

    MapReduce的小应用

    - 进一步优化MapReduce任务的效率,比如通过优化分区策略或改进排序算法。 - 考虑使用Hive等大数据查询工具来简化数据分析过程。 - 设计更直观的UI界面,以方便用户查看歌曲排行榜和用户音乐风格偏好。 - 进行更深入...

    Apache Pig的性能优化.pdf

    根据给定的文件信息,我们可以深入探讨Apache Pig的性能优化及其在大数据处理中的角色与优势。首先,让我们从Apache Pig的基本概念入手。 ### Apache Pig概述 Apache Pig是一种高生产力的数据流语言和执行框架,...

    基于 Hadoop 平台,使用 MapReduce 编程,统计NBA球员五项数据.zip

    此外,Hadoop 还支持使用其他编程语言,如 Python 和 Scala,通过 Pig 或 Hive 等高级接口编写 MapReduce 作业,简化开发过程。然而,对于更复杂的逻辑,Java 仍然是首选,因为它提供了更大的灵活性和性能。 在项目...

    Hadoop MapReduce Cookbook 源码

    7. **高级特性**:如使用新版本的MapReduce API(如YARN和Flink等),以及与Hive、Pig等工具的集成。 8. **调试与监控**:介绍如何使用Hadoop自带的工具监控作业性能,定位并解决问题。 通过本书的学习,读者不仅...

    大数据之pig 命令

    - **缺点**:虽然Pig简化了开发流程,但在某些特定情况下,MapReduce可能会提供更好的性能优化和控制能力。 #### 三、Pig的应用场景 - **数据清洗**:Pig特别适合用于数据清洗任务,如去除重复记录、填充缺失值等...

    基于MapReduce的SQL查询优化分析.pdf

    总结来说,基于MapReduce的SQL查询优化分析是大数据处理领域的一个关键课题。通过深入理解SQL查询到MapReduce程序的转换过程,分析作业间的关系和数据处理逻辑,我们可以设计出更高效的数据处理流程,提高大数据系统...

    pig-0.15.0

    用户在下载后,可以使用 `tar` 命令解压并安装,以在本地环境中使用 Apache Pig 0.15.0。 标签“pig-0.15.0”是该资源的标识符,方便用户搜索和区分不同版本的 Pig。在实际应用中,选择合适的版本至关重要,因为...

    Hadoop-MapReduce实践示例

    4. MapReduce优化技巧:在MapReduce的实践中,优化技巧包括但不限于合理设置map和reduce任务的数量、优化数据分区、调整内存使用等。例如,适当增加map任务的数量可以提高数据处理的并行度,而合理的数据分区则可以...

    MapReduce on Hbase

    MapReduce是一种编程模型,用于处理大规模数据集的计算。HBase是建立在Hadoop文件系统之上的一个开源、分布式的非关系型数据库(NoSQL),它以列族的形式存储数据。由于HBase是建立在Hadoop生态系统之上,因此它可以...

    pig-0.16.0.tar安装包

    - **Performance优化**: Pig支持多种性能优化策略,如使用`ORDER BY`和`GROUP BY`结合优化数据局部性,以及使用`PigStorage`或`TextLoader`等不同的数据加载器来优化I/O。 总的来说,Pig提供了一种高级抽象,使得非...

    HADOOP 系统之hadoop pig hive 整合版

    HDFS为大数据提供了分布式存储,而MapReduce则提供了分布式计算的能力,将复杂任务分解为多个小任务并行处理。 **Hadoop The Definitive Guide** 这本书是Hadoop领域的权威指南,涵盖了Hadoop的安装、配置、优化...

    Hadoop技术内幕深入解析MapReduce架构设计与实现原理

    在实际应用中,MapReduce通常与其他Hadoop生态系统的组件结合使用,如Hive进行SQL查询,Pig进行数据处理,或者HBase进行实时数据访问。此外,Spark等新一代大数据处理框架,虽然在某些场景下可以提供更高的性能,但...

    云计算PIG的使用.doc

    Pig的优化器能够自动优化执行计划,提高处理效率。同时,Pig的UDF(用户定义函数)功能允许用户自定义处理逻辑,扩展其功能,以适应特定业务需求。 总的来说,云计算PIG通过Pig Latin简化了Hadoop上的大数据处理,...

    《pig编程指南》英文非图片电子版 Programming.Pig.pdf

    通过阅读这本书,读者能够学习如何使用PigLatin语言来编写高效的数据处理脚本,以及如何在生产环境中部署和优化Pig应用。《Pig编程指南》是学习和掌握Pig这一大数据处理工具不可或缺的参考资料。

    pig-0.9.1.tar

    六、使用Pig Latin进行数据处理 Pig Latin是Pig的编程语言,用户可以通过编写简单的语句来处理数据。例如,以下是一个简单的Pig Latin脚本,用于统计文本文件中单词的数量: ``` grunt> data = LOAD 'input.txt' AS ...

    Hadoop Mapreduce Cookbook(英文版)

    5. **优化技巧**:书中会探讨如何优化MapReduce作业,包括任务划分、内存管理、I/O优化、容错机制等,以提升整个集群的性能和资源利用率。 6. **实战案例**:《Hadoop MapReduce Cookbook》的一大亮点在于丰富的...

    pig学习笔记

    3. **性能优化** :Pig 在运行时会自动优化数据处理流程,避免不必要的计算,提高整体效率。 4. **兼容性** :Pig 可以无缝集成到现有的 **Hadoop** 生态系统中,支持多种数据存储格式和后端计算框架。 5. **扩展性*...

    用于进行hadoop pig分析的日志

    在Pig中,我们可以使用LOAD命令加载日志文件,然后通过各种数据处理步骤进行分析。 例如,以下是一个简单的Pig Latin脚本示例,用于分析`access_log.txt`中的数据: ``` pig LOGS = LOAD 'access_log.txt' USING ...

Global site tag (gtag.js) - Google Analytics