duguyiren3476

浏览: 467661 次
性别:
来自: 北京

最近访客更多访客>>

zhangyou1010

zhianchen

guochongcan

jyzbcs

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

pig on tez测试

博客分类：

tez
pig
hadoop

pig hadoop tez

pig on tez测试

pig tez hadoop hdfs

测试环境

pig-0.14.0
hadoop-2.5.2 ()1+2)

hive on tez 测试后,很好奇,pig是否可以在tez上运行呢?从官网上可以看到pig on tez的描述,就想应该是可以pig on tez的.

pig安装过程略过…

准备数据集

[hadoop@mymaster ~]$ wget http://hortonassets.s3.amazonaws.com/pig/lahman591-csv.zip
[hadoop@mymaster ~]$ unzip lahman591-csv.zip
[hadoop@mymaster ~]$ hadoop fs mkdir /test
[hadoop@mymaster ~]$ hadoop fs -put lahman591-csv/Batting.csv /test  // 将Batting.csv上传到hdfs

编写pig测试脚本

[hadoop@mymaster ~]$ mkdir pig
[hadoop@mymaster ~]$ vim pig/test.pig
batting = LOAD '/test/Batting.csv' USING PigStorage(',');
raw_runs = FILTER batting BY $1>0;
runs = FOREACH raw_runs GENERATE $0 AS playerID, $1 AS year, $8 AS runs;
grp_data = GROUP runs BY (year);
max_runs = FOREACH grp_data GENERATE group as grp, MAX(runs.runs) AS max_runs;
join_max_runs = JOIN max_runs BY ($0, max_runs), runs BY (year, runs);
join_data = FOREACH join_max_runs GENERATE $0 AS year, $2 AS playerID, $1 AS runs;
DUMP join_data;

mr方式运行 test.pig

[hadoop@mymaster ~]$ /usr/local/pig-0.14.0/bin/pig -x mr pig/test.pig
// 片段
Input(s):
Successfully read 95195 records (6399268 bytes) from: "/test/Batting.csv"

Output(s):
Successfully stored 151 records (4507 bytes) in: "hdfs://10.128.17.21:9000/tmp/temp1552838877/tmp1249909816"

Counters:
Total records written : 151
Total bytes written : 4507
Spillable Memory Manager spill count : 0
Total bags proactively spilled: 0
Total records proactively spilled: 0
-------
(1988,boggswa01,128.0)
(1989,boggswa01,113.0)
(1990,henderi01,119.0)
(1991,molitpa01,133.0)
(1992,phillto02,114.0)
(1993,dykstle01,143.0)
(1994,thomafr04,106.0)
(1995,biggicr01,123.0)
(1996,burksel01,142.0)
(1997,biggicr01,146.0)
(1998,sosasa01,134.0)
(1999,bagweje01,143.0)
(2000,bagweje01,152.0)
(2001,sosasa01,146.0)
(2002,soriaal01,128.0)
(2003,pujolal01,137.0)
(2004,pujolal01,133.0)
(2005,pujolal01,129.0)
(2006,sizemgr01,134.0)
(2007,rodrial01,143.0)
(2008,ramirha01,125.0)
(2009,pujolal01,124.0)
(2010,pujolal01,115.0)
(2011,grandcu01,136.0)
2015-06-02 13:49:39,574 [main] INFO  org.apache.pig.Main - Pig script completed in 1 minute, 10 seconds and 20 milliseconds (70020 ms)

运行情况:
输入:95195 records
输出:151 records
耗时:70s

tez 方式运行test.pig

[hadoop@mymaster pig]$ /usr/local/pig-0.14.0/bin/pig -x tez pig/test.pig

       HadoopVersion: 2.5.2                                                                                               
          PigVersion: 0.14.0                                                                                              
          TezVersion: 0.5.2                                                                                               
              UserId: hadoop                                                                                              
            FileName: 1.pig                                                                                               
           StartedAt: 2015-06-02 13:50:03                                                                                 
          FinishedAt: 2015-06-02 13:50:34                                                                                 
            Features: HASH_JOIN,GROUP_BY,FILTER                                                                           

Success!

DAG PigLatin:1.pig-0_scope-0:
       ApplicationId: job_1432693876849_0008                                                                              
  TotalLaunchedTasks: 3                                                                                                   
       FileBytesRead: 3494886                                                                                             
    FileBytesWritten: 5509316                                                                                             
       HdfsBytesRead: 6398886                                                                                             
    HdfsBytesWritten: 4507                                                                                                

Input(s):
Successfully read 95195 records (6398886 bytes) from: "/test/lahman591-csv/Batting.csv"

Output(s):
Successfully stored 151 records (4507 bytes) in: "hdfs://10.128.17.21:9000/tmp/temp-1130777030/tmp93164502"

(1994,thomafr04,106.0)
(1995,biggicr01,123.0)
(1996,burksel01,142.0)
(1997,biggicr01,146.0)
(1998,sosasa01,134.0)
(1999,bagweje01,143.0)
(2000,bagweje01,152.0)
(2001,sosasa01,146.0)
(2002,soriaal01,128.0)
(2003,pujolal01,137.0)
(2004,pujolal01,133.0)
(2005,pujolal01,129.0)
(2006,sizemgr01,134.0)
(2007,rodrial01,143.0)
(2008,ramirha01,125.0)
(2009,pujolal01,124.0)
(2010,pujolal01,115.0)
(2011,grandcu01,136.0)
2015-06-02 13:50:34,623 [main] INFO  org.apache.pig.Main - Pig script completed in 34 seconds and 350 milliseconds (34350 ms)
2015-06-02 13:50:34,634 [main] INFO  org.apache.pig.backend.hadoop.executionengine.tez.TezLauncher - Shutting down thread pool

运行情况:
输入:95195 records
输出:151 records
耗时:34s

测试结果 tez比yarn快2倍多
根据本轮测试效果差异不大,要根据mr的串联数和数据大小进行严格的测试才能达到理想的官网测试性能指标,但是可以肯定的是,mr任务串联越多,tez的性能越显著.

hive on tez 的配置稍嫌麻烦,相对来说pig on tez的测试环境相当容易

参考:http://zh.hortonworks.com/hadoop-tutorial/faster-pig-tez/

分享到：

编译tez 0.7 | hive 小记

2015-06-02 14:16
浏览 1561
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

tez about hadoop-2.7.1: - `tez-tests-0.5.4.jar`：包含了Tez的测试用例和库，用于验证和调试Tez组件的功能。 - `tez-yarn-timeline-history-0.5.4.jar`：涉及Tez与YARN的时间线服务集成，用于记录和检索作业的历史信息。 - `tez-runtime...

apache-hive-3.1.2-src.tar.gz: 这个版本的 Hive 已经经过广泛的测试和优化，适合在生产环境中使用。 **Hive 的核心组件和架构：** 1. **Metastore**：存储元数据，如表结构、分区信息、字段等，通常以 RDBMS（如 MySQL）的形式存在。 2. **Driver...

hive如何去安装与配置: 3. **其他依赖**：如HBase、Tez或Spark等，根据你的需求选择安装。 ### 二、下载与解压Hive 访问Apache官方网站下载最新版本的Hive，解压缩到指定目录。例如，可以将Hive解压到`/usr/local`目录下，并创建一个软...

hhhhh安卓开发教程大全: hhhhh安卓开发教程大全

avem-labs_Avem_1740990015.zip: avem-labs_Avem_1740990015.zip

25883-mofangmall.com 微信群管理机器人系统网站.zip: 微信群机器人管理系统源码微信群机器人管理系统源码支持同登陆多个微信源码类型： C/S 开发环境： VS2010 SQL2008R2 菜单功能 1、支持同时登录多个微信 2、支持机器人聊天（笑话，成语接龙、故事会、智力等等） 3、支持签到 4、可自定义回复 5、可自定义红包语 6、支持定期发送公告（如群规，广告）等 1、WeChatRobots后台配置web版 2、数据库在WeiChartGroup.Net/app_data中，附加即可

https://upload.csdn.net/creation/uploadResources?spm=1003.2018.3001.4314: https://upload.csdn.net/creation/uploadResources?spm=1003.2018.3001.4314

名字微控制器_STM32_课程_DeepBlue_1740989720.zip: 名字微控制器_STM32_课程_DeepBlue_1740989720.zip

S7-200Smart恒压供水程序示例与485通讯实践：操作指南与案例解析,S7-200 Smart可编程控制器恒压供水程序设计与实现，附带485通讯范例,S7-200Smart 恒压供水程序样例+4: S7-200Smart恒压供水程序示例与485通讯实践：操作指南与案例解析,S7-200 Smart可编程控制器恒压供水程序设计与实现，附带485通讯范例,S7-200Smart 恒压供水程序样例+485通讯样例 ,S7-200Smart; 恒压供水程序样例; 485通讯样例,S7-200Smart程序样例：恒压供水及485通讯应用示例

Java读写Mifare M1卡IC卡源码: Java使用JNA、JNI两种不同方式调用DLL、SO动态库方式读写M1卡源码，支持读写M1卡扇区数据、修改IC卡扇区密钥、改写UID卡卡号等功能，支持Windows系统，同时支持龙芯Mips、LoongArch、海思麒麟鲲鹏飞腾Arm、海光兆芯x86_Amd64等架构平台的国产统信、麒麟等Linux系统，内有jna-4.5.0.jar包，vx13822155058 qq954486673

UDP协议接收和发送数据示例JAVA: UDP协议接收和发送数据示例JAVA

VU-DBS项目：深脑刺激器的全程辅助: 本文介绍了范德堡大学深脑刺激器（DBS）项目，该项目旨在开发和临床评估一个系统，以辅助从规划到编程的整个过程。DBS是一种高频刺激治疗，用于治疗运动障碍，如帕金森病。由于目标区域在现有成像技术中可见性差，因此DBS电极的植入和编程过程复杂且耗时。项目涉及使用计算机辅助手术技术，以及一个定制的微定位平台（StarFix），该平台允许在术前进行图像采集和目标规划，提高了手术的精确性和效率。此外，文章还讨论了系统架构和各个模块的功能，以及如何通过中央数据库和网络接口实现信息共享。

图像识别项目源码资源（Python和C++）: 图像识别”项目源码资源（Python和C++）

虚拟同步电机与并电网模型的Simulink仿真参数配置与直接使用指南,虚拟同步电机与并电网模型的Simulink仿真：参数齐全，直接使用,同步电机simulink仿真并电网模型仿真参数设置好了: 虚拟同步电机与并电网模型的Simulink仿真参数配置与直接使用指南,虚拟同步电机与并电网模型的Simulink仿真：参数齐全，直接使用,同步电机simulink仿真并电网模型仿真参数设置好了，可直接使用 ,虚拟同步电机; simulink仿真; 并电网模型仿真; 参数设置; 使用,虚拟同步电机Simulink仿真与并电网模型参数化应用

三菱FX3U与力士乐VFC-x610变频器通讯案例详解：PLC控制下的变频器操作与设置程序，含接线方式及昆仑通态触摸屏操作指南,三菱FX3U与力士乐VFC-x610变频器通讯案例详解：接线、设置与程序: 三菱FX3U与力士乐VFC-x610变频器通讯案例详解：PLC控制下的变频器操作与设置程序，含接线方式及昆仑通态触摸屏操作指南,三菱FX3U与力士乐VFC-x610变频器通讯案例详解：接线、设置与程序注解，实现频率设定、启停控制与实时数据读取功能。,三菱FX3U与力士乐VFC-x610变频器通讯程序三菱FX3U与力士乐VFC-x610变频器通讯案例程序，有注释。并附送程序，有接线方式，设置。器件：三菱FX3U的PLC，力士乐VFCx610变频器，昆仑通态，威纶通触摸屏。功能：实现频率设定，启停控制，实际频率读取等。 ,三菱FX3U;力士乐VFC-x610变频器;通讯程序;案例程序;注释;接线方式;设置;频率设定;启停控制;实际频率读取;昆仑通态;威纶通触摸屏。,三菱FX3U与力士乐VFC-x610变频器通讯程序及案例：频率控制与读取实践

xmselect测试用例~~~~~~~~~~~~~~: xmselect测试用例~~~~~~~~~~~~~~

Unity-游戏开发-模型资源-科幻武器: 总共包含 32 款 AAA 级科幻武器。四种武器类型，每种有 8 种不同的纹理变化！所有内容均采用 PBR 材质，可直接用于开发游戏！

python词云生成器，将txt文本自动分割生成词云图: python词云生成器，将txt文本自动分割生成词云图

基于物联网智能化平台的智慧园区解决方案PPT(28页).pptx: 智慧园区，作为现代城市发展的新形态，旨在通过高度集成的信息化系统，实现园区的智能化管理与服务。该方案提出，利用智能手环、定制APP、园区管理系统及物联网技术，将园区的各类设施与设备紧密相连，形成一个高效、便捷、安全的智能网络。从智慧社区到智慧酒店，从智慧景区到智慧康养，再到智慧生态，五大应用板块覆盖了园区的每一个角落，为居民、游客及工作人员提供了全方位、个性化的服务体验。例如，智能手环不仅能实现定位、支付、求助等功能，还能监测用户健康状况，让科技真正服务于生活。而智慧景区的建设，更是通过大数据分析、智能票务、电子围栏等先进技术，提升了游客的游玩体验，确保了景区的安全有序。尤为值得一提的是，方案中的智慧康养服务，展现了科技对人文关怀的深刻体现。通过智慧手环与传感器，自动感知老人身体状态，及时通知家属或医疗机构，有效解决了“空巢老人”的照护难题。同时，智慧生态管理系统的应用，实现了对大气、水、植被等环境要素的实时监测与智能调控，为园区的绿色发展提供了有力保障。此外，方案还提出了建立全域旅游营销平台，整合区域旅游资源，推动旅游业与其他产业的深度融合，为区域经济的转型升级注入了新的活力。总而言之，这份智慧园区建设方案以其前瞻性的理念、创新性的技术和人性化的服务设计，为我们展示了一个充满智慧与活力的未来园区图景。它不仅提升了园区的运营效率和服务质量，更让科技真正融入了人们的生活，带来了前所未有的便捷与舒适。对于正在规划或实施智慧园区建设的决策者而言，这份方案无疑提供了一份宝贵的参考与启示，激发了他们对于未来智慧生活的无限遐想与憧憬。

使用 SignalR 在 .NET Core 8 最小 API 中构建实时通知: 使用 SignalR 在 .NET Core 8 最小 API 中构建实时通知，构建实时应用程序已成为现代 Web 开发中必不可少的部分，尤其是对于通知、聊天系统和实时更新等功能。SignalR 是 ASP.NET 的一个强大库，可实现服务器端代码和客户端 Web 应用程序之间的无缝实时通信。参考文章：https://blog.csdn.net/hefeng_aspnet/article/details/145990801

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

pig on tez测试

pig on tez测试

测试环境

准备数据集

编写pig测试脚本

mr方式运行 test.pig

tez 方式运行test.pig

评论

发表评论

相关推荐

spark运行在yarn上的一个异常

drill1.0配置hive storage plugin及测试

tez ui 安装测试

编译tez 0.7

hive 小记

ambari 安装配置

hive on tez hive运行在tez之上 安装测试

hadoop2.5.2配置httpfs服务

NFS挂载hdfs到本地

apache drill 0.8.0 单机/分布式安装测试

测试hbase预设分区

Phoenix设置时间戳

eclipse远程连接hadoop进行开发测试

hadoop2.x jobhistoryserver 配置

hadoop balancer

hadoop second namenode异常 Inconsistent checkpoint fields

Hadoop2本地库和系统库版本不一致 解决方案

fuse挂载hdfs 安装配置

基于hadoop源码开发环境搭建

hadoop 在win系统中的eclipse开发测试问题及解决

最近访客更多访客>>

hive on tez hive运行在tez之上安装测试

Hadoop2本地库和系统库版本不一致解决方案