pig on tez测试
测试环境
- pig-0.14.0
- hadoop-2.5.2 ()1+2)
hive on tez 测试后,很好奇,pig是否可以在tez上运行呢?从官网上可以看到pig on tez的描述,就想应该是可以pig on tez的.
pig安装过程略过…
准备数据集
[hadoop@mymaster ~]$ wget http://hortonassets.s3.amazonaws.com/pig/lahman591-csv.zip
[hadoop@mymaster ~]$ unzip lahman591-csv.zip
[hadoop@mymaster ~]$ hadoop fs mkdir /test
[hadoop@mymaster ~]$ hadoop fs -put lahman591-csv/Batting.csv /test // 将Batting.csv上传到hdfs
编写pig测试脚本
[hadoop@mymaster ~]$ mkdir pig
[hadoop@mymaster ~]$ vim pig/test.pig
batting = LOAD '/test/Batting.csv' USING PigStorage(',');
raw_runs = FILTER batting BY $1>0;
runs = FOREACH raw_runs GENERATE $0 AS playerID, $1 AS year, $8 AS runs;
grp_data = GROUP runs BY (year);
max_runs = FOREACH grp_data GENERATE group as grp, MAX(runs.runs) AS max_runs;
join_max_runs = JOIN max_runs BY ($0, max_runs), runs BY (year, runs);
join_data = FOREACH join_max_runs GENERATE $0 AS year, $2 AS playerID, $1 AS runs;
DUMP join_data;
mr方式运行 test.pig
[hadoop@mymaster ~]$ /usr/local/pig-0.14.0/bin/pig -x mr pig/test.pig
// 片段
Input(s):
Successfully read 95195 records (6399268 bytes) from: "/test/Batting.csv"
Output(s):
Successfully stored 151 records (4507 bytes) in: "hdfs://10.128.17.21:9000/tmp/temp1552838877/tmp1249909816"
Counters:
Total records written : 151
Total bytes written : 4507
Spillable Memory Manager spill count : 0
Total bags proactively spilled: 0
Total records proactively spilled: 0
-------
(1988,boggswa01,128.0)
(1989,boggswa01,113.0)
(1990,henderi01,119.0)
(1991,molitpa01,133.0)
(1992,phillto02,114.0)
(1993,dykstle01,143.0)
(1994,thomafr04,106.0)
(1995,biggicr01,123.0)
(1996,burksel01,142.0)
(1997,biggicr01,146.0)
(1998,sosasa01,134.0)
(1999,bagweje01,143.0)
(2000,bagweje01,152.0)
(2001,sosasa01,146.0)
(2002,soriaal01,128.0)
(2003,pujolal01,137.0)
(2004,pujolal01,133.0)
(2005,pujolal01,129.0)
(2006,sizemgr01,134.0)
(2007,rodrial01,143.0)
(2008,ramirha01,125.0)
(2009,pujolal01,124.0)
(2010,pujolal01,115.0)
(2011,grandcu01,136.0)
2015-06-02 13:49:39,574 [main] INFO org.apache.pig.Main - Pig script completed in 1 minute, 10 seconds and 20 milliseconds (70020 ms)
运行情况:
输入:95195 records
输出:151 records
耗时:70s
tez 方式运行test.pig
[hadoop@mymaster pig]$ /usr/local/pig-0.14.0/bin/pig -x tez pig/test.pig
HadoopVersion: 2.5.2
PigVersion: 0.14.0
TezVersion: 0.5.2
UserId: hadoop
FileName: 1.pig
StartedAt: 2015-06-02 13:50:03
FinishedAt: 2015-06-02 13:50:34
Features: HASH_JOIN,GROUP_BY,FILTER
Success!
DAG PigLatin:1.pig-0_scope-0:
ApplicationId: job_1432693876849_0008
TotalLaunchedTasks: 3
FileBytesRead: 3494886
FileBytesWritten: 5509316
HdfsBytesRead: 6398886
HdfsBytesWritten: 4507
Input(s):
Successfully read 95195 records (6398886 bytes) from: "/test/lahman591-csv/Batting.csv"
Output(s):
Successfully stored 151 records (4507 bytes) in: "hdfs://10.128.17.21:9000/tmp/temp-1130777030/tmp93164502"
(1994,thomafr04,106.0)
(1995,biggicr01,123.0)
(1996,burksel01,142.0)
(1997,biggicr01,146.0)
(1998,sosasa01,134.0)
(1999,bagweje01,143.0)
(2000,bagweje01,152.0)
(2001,sosasa01,146.0)
(2002,soriaal01,128.0)
(2003,pujolal01,137.0)
(2004,pujolal01,133.0)
(2005,pujolal01,129.0)
(2006,sizemgr01,134.0)
(2007,rodrial01,143.0)
(2008,ramirha01,125.0)
(2009,pujolal01,124.0)
(2010,pujolal01,115.0)
(2011,grandcu01,136.0)
2015-06-02 13:50:34,623 [main] INFO org.apache.pig.Main - Pig script completed in 34 seconds and 350 milliseconds (34350 ms)
2015-06-02 13:50:34,634 [main] INFO org.apache.pig.backend.hadoop.executionengine.tez.TezLauncher - Shutting down thread pool
运行情况:
输入:95195 records
输出:151 records
耗时:34s
测试结果 tez比yarn快2
倍多
根据本轮测试效果差异不大,要根据mr的串联数和数据大小 进行严格的测试 才能达到理想的官网测试性能指标,但是可以肯定的是,mr任务串联越多,tez的性能越显著.
hive on tez 的配置稍嫌麻烦,相对来说pig on tez的测试环境相当容易
参考:http://zh.hortonworks.com/hadoop-tutorial/faster-pig-tez/
相关推荐
这里我们将深入探讨五个在Hive on Tez中常见的报错问题及其解决方案。 1. 错误一:Failing because I am unlikely to write too。 这个问题是由于Hive中的一个已知bug,具体问题可以在Apache JIRA的HIVE-16398中...
6. **测试与验证**:运行一个Hive查询并检查Tez UI是否能正确显示其执行情况。 通过以上步骤,可以有效地解决Tez UI编译和部署的问题,提升Hadoop和Tez环境的管理和监控能力。尤其对于大数据开发团队,掌握如何使用...
7. **Hive on Tez的配置**: 在Hive的配置文件(如`hive-site.xml`)中,设置`hive.execution.engine`为`tez`来启用Tez执行引擎。同时,可能需要根据具体环境调整其他相关的Tez配置参数。 8. **常见问题与解决**:...
如果使用 HIVE,请考虑版本匹配,目前经过测试 TEZ 0.7.0 和 HIVE 1.2 可以正常工作。 方法一:修改 mapred-site.xml 文件,将 mapreduce.framework.name 从 yarn 修改为 yarn-tez。这样做的缺点是,所有任务都由 ...
- 使用 Hive 或 Pig 等工具提交一些简单的 MapReduce 任务,检查这些任务是否由 Tez 引擎执行。 - 可以通过查看 YARN 应用程序历史记录来确认任务是由 Tez 处理的。 #### 总结 本文介绍了如何在 CDH 6.3.2 中...
用户可以期待这个版本的TEZ在功能上是最新的,并且经过了与Hadoop 3.2.1的测试,提供了一个简洁的基础环境,适用于快速部署和实验。 【标签】"hadoop"、"hadoop3"和"tez"揭示了该压缩包的主要技术栈。Hadoop是一个...
1. **Hive on Tez**: Hive 查询会被转换为 Tez DAG,允许并行执行多个操作,减少了数据的磁盘 I/O 和网络传输,从而提高了整体查询速度。 2. **动态分区**: 使用 Tez,Hive 可以更有效地处理动态分区,因为 Tez 的...
6. `tez-tests-0.9.1.jar`:包含了Tez的测试代码,用于验证框架的功能和性能。 7. `tez-common-0.9.1.jar`:提供了Tez框架中通用的工具和类,适用于所有Tez组件。 除了这些核心库文件,压缩包中还包含了一些许可...
5. **测试安装**:安装完成后,运行`tez versions`命令检查Tez是否已正确安装并找到相应的版本信息。 6. **运行示例**:可以尝试运行Tez自带的示例,如WordCount,以验证安装是否成功。 Tez的性能提升主要体现在...
- `tez-tests-0.5.4.jar`:包含了Tez的测试用例和库,用于验证和调试Tez组件的功能。 - `tez-yarn-timeline-history-0.5.4.jar`:涉及Tez与YARN的时间线服务集成,用于记录和检索作业的历史信息。 - `tez-runtime...
Tez是Hadoop生态系统中的一个开源任务执行框架,它由Apache Software Foundation开发,用于提高Hive、Pig等数据处理工具的性能。 【描述】"tez-0.10.1-SNAPSHOT-minimal.tar.gz" 指示这是一个特定版本(0.10.1)的...
Apache Tez 是一个高度可扩展和灵活的数据处理框架,它构建在 Apache Hadoop 上,用于执行复杂的、有向无环图(DAG)任务。这个框架优化了 MapReduce 模型,提供了更高效的并行计算能力,适用于大规模数据处理工作。...
3. **tez-tests-0.8.5.jar** - 测试用例库,用于验证Tez的功能和性能。 4. **tez-yarn-timeline-history-0.8.5.jar** - 关于YARN时间线服务和历史记录的组件,可能用于监控和调试。 5. **tez-job-analyzer-0.8.5.jar...
7. tez-tests-0.9.2.jar:测试库,用于验证Tez的功能和性能,确保其正确性和稳定性。 8. tez-ext-service-tests-0.9.2.jar:扩展服务测试库,可能包含针对特定环境或插件的测试用例。 综合以上信息,Tez-0.9.2.tar...
5. `tez-tests-0.10.1-SNAPSHOT.jar`、`tez-ext-service-tests-0.10.1-SNAPSHOT.jar`:测试相关的JAR文件,用于验证Tez的功能和性能,确保其正确性和稳定性。 总结来说,Tez-0.10.1-SNAPSHOT.tar.gz是Apache Tez的...
在 Tez 上运行 Apache Hive 的 Docker 镜像此存储库包含一个 docker 文件,用于构建 docker 映像以在 Tez 上运行 Apache Hive。 这个 docker 文件依赖于我的其他包含和 基础镜像的存储库。当前版本Apache Hive(主干...
在实际应用中,Tez常用于Apache Hive和Pig等大数据处理工具,用于加速SQL查询和数据转换任务。由于其高度可扩展性和灵活性,Tez也常被用作大数据分析和ETL(提取、转换、加载)流程中的基础组件。 总的来说,Tez ...
实验数据表明,基于Tez的Hive、Pig、Spark和Cascading在YARN上的实现,在流行基准(TPC-DS、TPC-H)和生产工作负载上,性能优于它们原本基于YARN的实现。 Hadoop生态系统的快速发展,伴随着多样化和不断演进的应用...
本课程主要介绍hive的架构与应用,首先介绍了hive的实现结构,然后介绍了Hive Metastore三种模式,接着重点介绍hive的安装与配置,以及hive sql的基本操作,后面又介绍了hive beeline、hive on tez的使用,并测试了...