1,Tez是什么?
Tez是Hortonworks公司开源的一种新型基于DAG有向无环图开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能,看下面一张图,就能说明问题:
2,Tez能干什么?
上图已经说明问题了,如果将我们的Hive,或者Pig运行在Tez之上,那么速度会有几倍的提升,当然这仅仅是相对MapReduce来讲的,因为Spark这种分布式内存计算框架才是未来的的主流,所以让大家熟悉了解一下这个东西也并无坏处。
当我们的程序有很多复杂的操作时,例如,过滤,分组,排序,合并,聚合等,传统的MR是会每一个阶段都会落地操作的,当然开发者当初这么设计,也并不是没有道理的,只不过随着时代进步,人们追求更高,更快的性能或速度时,这个落地操作,拖了整体处理的性能,Tez能够合并多个阶段的过程,直接无须落地,就能进行下一阶段的任务处理,这是提速的一种不错的方法,当然spark直接利用内存做迭代运算,速度更是快的没法说,当然前提是你有足够大的内存,如果你没有那么大的内存,性能其实与普通MR是差不多的。
3,下面进入正题,看看如何使Pig运行在Tez之上。
Pig最新的版本,Pig0.15已经支持Pig On Tez的模式运行,使用方法,也非常简单
不需要你下载Tez的源码,然后编译大半天,最后还有可能失败,因为Pig直接内置了Tez的处理jar包
(1)在装好的Hadoop的etc/hadoop/下面
直接新建一个 vi tez-site.xml
- <configuration>
- <property>
- <name>tez.lib.uris</name>
- <value>/user/tez</value>
- </property>
- </configuration>
<configuration> <property> <name>tez.lib.uris</name> <value>/user/tez</value> </property> </configuration>
(2)在hdfs上新建一个/user/tez目录
(3)拷贝/ROOT/server/pig/lib/h2下,以tez开头的所有的jar包上传到/user/tez下面
除此之外,还需要guice3.0所有的jar包
以及:commons-collections4-4.0.jar包
至此,所有的jar包已经齐全
(4)Tez vs MapReduce
同样一个pig脚本,分别运行两种任务模式
pig t.pig MapReduce模式
pig -x tez t.pig Tez模式
MapReduce的截图如下:
Tez任务耗时截图:
可以看出Tez下,任务执行的非常之迅速,堪比Spark的速度了,
最后再记录一个问题:
由于我的
dfs.datanode.max.xcievers打开的文件数,设置的太大了(65535),导致上述的异常发生,这个
属性的含义是:
相当于linux下的打开文件最大数量,文档中无此参数,当出现DataXceiver报错的时候,需要调大。默认256
当修改为2048后,重启启动集群再次,跑Tez作业时,没有上述的异常发生了
相关推荐
Hortonworks是一家专注于Hadoop及相关技术的公司,其理念深深植根于开源精神。Hortonworks致力于贡献和维护Apache Hadoop生态系统,提供企业级的数据管理解决方案。公司的产品和服务围绕Apache Hadoop构建,确保企业...
HDP(Hortonworks Data Platform)是 Hortonworks 的开源大数据平台,其中包含了 Hadoop、HBase、Hive、Spark 等多个大数据组件,是一个完整的大数据解决方案。 知识点2:什么是 Tez? Tez 是一个 Apache 项目,...
Apache Tez 是一个开源框架,主要作用是构建和执行数据处理应用程序,特别强调了数据流驱动的处理运行时。Tez 旨在优化基于YARN(Yet Another Resource Negotiator)的Hadoop环境中的数据处理,通过对数据执行过程的...
Tez的设计主要由Hortonworks的开发团队推动,并在2013年的Hadoop大会上进行了分享。这个框架建立在YARN(Hadoop的资源管理框架)之上,是一个开源的Apache孵化器项目,采用Apache许可证。 Tez的主要目标是提高执行...
Hortonworks Stinger Initiative是Hortonworks公司发起的一个项目,旨在提升Hive的性能。Stinger包含Tez这个DAG计算框架,Tez可以优化Hive的MapReduce作业,使得Hive的执行计划更高效,显著提高性能。Tez框架类似于...
标题中的“HDP3.1.5源码下载—hadoop hbase hive”指的是Hortonworks Data Platform(HDP)的3.1.5版本,它是一个全面的大数据解决方案,包含了对Hadoop、HBase和Hive等组件的源代码支持。这个版本是大数据开发者和...
相关资料中提到了几个开源查询引擎,如Phoenix、Tez(Stinger)和Presto,它们分别提供了在HBase之上运行SQL的能力、改进的Hive计算性能和Facebook开源的分布式查询引擎,可用于大数据平台的不同场景。 总的来说,...
Stinger,原名为Tez,是由Hortonworks主导开发的下一代Hive计算框架,运行在YARN之上。它提升了Hive的性能,增强了SQL支持,优化了执行计划,提高了单个Hive任务处理记录的速度。Stinger引入的新特性包括: - 更...
例如, Hortonworks是100%开源的,提供培训服务和授权支持,适用于大规模数据处理。然而,安装和操作可能需要专业培训。另一方面,国产套件可能提供更灵活的商业服务和支持,但可能在文档和社区资源上相对较少。 ...
2. **Stinger**:最初名为Tez,是由Hortonworks主导的项目,旨在优化Hive的性能。Stinger通过在YARN上运行的DAG计算框架改进了Hive的执行效率,提升了查询性能约10倍。它引入了新的运行时框架Tez,减少了不必要的...
【CDH】与【HDP】是两大知名的Hadoop发行版,由Cloudera和Hortonworks分别开发,它们都提供了完整的数据处理生态系统。CDH包括了Hadoop、HBase、Zookeeper、Spark、Hive等组件,而HDP则在相同的基础上可能有不同版本...
最后,参考相关资料,如HDP(Hortonworks Data Platform)是一个全面的企业级Hadoop平台,而其他的开源工具如Phoenix、Tez、Presto、Impala和Drill等,它们分别提供了SQL查询、DAG处理、高性能查询和数据处理的解决...
其次,平台需要具备信息统计、分析挖掘和全文检索等高级功能,这通常需要结合大数据处理引擎如MapReduce、Spark或Tez,以及数据分析和BI工具,例如FineBI。这些工具能够对数据进行深度分析,从而提供洞察力。 在...
- **HDP ( Hortonworks Data Platform)**:提供了一整套企业级Hadoop解决方案,包括安全、管理工具和优化,但成本相对较高。 - **Presto**:是一种分布式SQL查询引擎,用于处理PB级别的数据,适合交互式分析,但...
《CDHHDPMAPRDKH星环组件比较.pdf》文档详细对比了多个大数据平台的组件,涵盖了国内外多家公司的产品,如Cloudera的CDH、Hortonworks的HDP、MapR、中国大快(DKH)以及星环科技(Transwarp)等。这些组件包括但不...
商用版如Cloudera、Hortonworks等,提供企业级的支持和服务,适用于大规模生产环境。 ### Hadoop 应用场景 Hadoop 广泛应用于大数据处理,例如日志分析、推荐系统、机器学习、数据挖掘等。通过HDFS和MapReduce,...
Hadoop 2.0是重大的升级,主要由Hortonworks公司主持开发,并在2013年10月发布。2.0的关键特性包括: a) **YARN**:YARN(Yet Another Resource Negotiator)是新一代的资源调度器,允许Hadoop集群运行多种应用程序...
相关资料列举了多个开源工具,如Phoenix(SQL-on-HBase)、Tez(DAG计算框架)、Presto(分布式SQL查询引擎)等,这些都是构建大数据平台时可能用到的关键组件,它们各自在性能、易用性或特定场景下有其独特优势。...