Hive2.1.0集成Tez

qindongliang1922

浏览: 2209368 次
性别:
来自: 北京

最近访客更多访客>>

北风norther

godandghost

youhere

tanss

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：118298

: 证道Hadoop
浏览量：126672

: 证道shell编程
浏览量：60729

: ELK修真
浏览量：71899

文章分类

社区版块

存档分类

博客分类：

Hive

hive tez

#### Tez是什么？

Tez是Hontonworks开源的支持DAG作业的计算框架，它可以将多个有依赖的作业转换为一个作业从而大幅提升MapReduce作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序

#### 如何编译

Tez最新的版本是0.8.4，本文就记录下Tez的编译过程，之前的Tez版本都是源码包，最新的版本虽然提供了编译后的tar包，但是大部分情况下是针对特定的Hadoop版本，如果和我们的Hadoop版本不一致，可能某个时刻会出现一些未知的问题，所以为了稳定，还是建议和自己使用的Hadoop版本匹配，所以就需要编译了。

下载源码后：http://ftp.kddilabs.jp/infosystems/apache/tez/0.8.4/

（1）解压完毕，修改根目录下的pom.xml，修改对应的Hadoop的版本。

（2）注释掉tez-ui2的子项目依赖pom，因为tez ui2编译坑比较多，可能通不过

（3）如果你是root用户编译Tez，记得修改tez-ui/pom.xml，添加允许root权限执行nodejs安装bower

      <execution>
            <id>Bower install</id>
            <phase>generate-sources</phase>
            <goals>
              <goal>exec</goal>
            </goals>
            <configuration>
              <workingDirectory>${webappDir}</workingDirectory>
              <executable>${node.executable}</executable>
              <arguments>
                <argument>node_modules/bower/bin/bower</argument>
                <argument>install</argument>
              <argument>--allow-root</argument> //添加的部分
                <argument>--remove-unnecessary-resolutions=false</argument>
              </arguments>
            </configuration>
          </execution>

（4）注意编译的linux机器最好能fan qiang下载东西，如果不能就把根目录下的pom.xml中tez-ui也注释掉，因为不管是tez-ui还是tez-ui2都需要下载nodejs相关的东西，默认的是在墙外的，不能fan出去80%的几率会编译失败，所以如果是nodejs相关的编译失败，就把tez-ui相关的子项目都注释掉不让参与编译，这个ui没什么大的作用，就是看下job的计划，没有它也能使用Tez优化DAG依赖。

（5）能不能自己在linux上单独装nodejs，然后让tez的nodejs用本机装的那个而避免下载墙外的，经实测发现不行，tez里面的nodejs好像是单独依赖的，只要编译就会下载，最好的办法就是注释掉和tez-ui相关的东西

上面的一切搞定后，开始执行编译命令：

mvn clean package -DskipTests=true -Dmaven.javadoc.skip=true

编译成功后，截图如下：

#### 如何与Hive集成

（1）编译成功后，进入下面的目录

/root/apache-tez-0.8.4-src/tez-dist/target

可以看到tez编译的相关的jar包都在这里，有一个mini的最小包，还有一个包含所有Hado
op相对fat包，我们只需要将mini包里面所有的jar包，拷贝到hive的/lib目录下

（2）将tez-0.8.4.tar.gz重命名为tez.tar.gz
然后执行下面的命令上传的根目录下面

hadoop fs -put tez.tar.gz /user/search/

（3）然后启动Hive并切换为Tez引擎，执行下面的查询语句:

set hive.execution.engine=tez;
select name,count(*) as c from info  group by name  order by c desc    ;

会看到控制台出现下面的很nice的进度条时，就代表Tez集成成功！

然后，你无需改动任何一行原来写过的SQL的代码，直接切换引擎为Tez，性能就会提升数倍，越是复杂的SQL，提升性能越明显，最后，你就可以早点下班回家了陪女朋友了。

有什么问题可以扫码关注微信公众号：我是攻城师(woshigcs)，在后台留言咨询。
技术债不能欠，健康债更不能欠，求道之路，与君同行。

1
顶

0
踩

分享到：

实时收集Storm日志到ELK集群 | Apache Hive2.1.0安装笔记

2016-11-21 19:39
浏览 1393
评论(2)
分类:编程语言
查看更多

2 楼 qindongliang1922 2016-11-23

zhuqitian 写道

好久不登，我编译过了，可惜ui2不好过，我是注释了才过的

是的

1 楼 zhuqitian 2016-11-22