1,使用CDH的hadoop里面有对应的组件Pig,但版本较低,所以放弃使用了,直接下载
Apache Pig0.15最新的版本(支持Tez,比Hive更容易集成)
下载地址:http://archive.apache.org/dist/pig/pig-0.15.0/pig-0.15.0.tar.gz
直接下载二进制包即可
2,配置Pig的环境变量如下:
#Pig
export PIG_HOME=/ROOT/server/pig
export PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop
export PATH=/ROOT/server/pig/bin:$PATH
3,直接执行pig命令,启动程序,会报如下异常
[main]ERROR org.apache.pig.Main -ERROR 2998:Unhandled internal error.Found interface jline.Terminal,but class was expected
原因是由于jline这个包和hadoop的yarn/lib下面的jline的包不一致造成的。
可参考:https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started里面的解释
解决方法:
删掉hadoop的yarn/lib下的那个jline版本较高的包,将pig/lib下的jline-1.0.jar包拷贝到yarn/lib下,然后
重新执行pig命令,可正常启动。
然后执行一个pig脚本写的MapReduce作业,发现会报如下异常,但是MR作业是跑成功的:
原因是,Hadoop的jobhistroy进程没有启动。
解决办法:
执行sbin/mr-jobhistory-daemon.sh start historyserver 命令,启动日志守护进程
然后再次跑pig作业,一切正常 !
- 大小: 33.7 KB
- 大小: 93.4 KB
分享到:
相关推荐
CDH_Hadoop_单机安装_集群安装_CDH-Hadoop-Install
# 解压命令 tar -zxvf flink-shaded-hadoop-2-uber-3.0.0-cdh6.2.0-7.0.jar.tar.gz # 介绍 用于CDH部署 Flink所依赖的jar包
spark-assembly-1.6.0-cdh5.9.2-hadoop2.6.0-cdh5.9.2.jar
Spark 2.4.6是Apache Spark的一个稳定版本,它是一个快速、通用且可扩展的大数据处理框架。这个版本的Spark包含了对Hadoop 2.6.0-cdh5.7.0的支持,这意味着它可以无缝地与Cloudera Data Hub(CDH)5.7.0集群集成,...
<value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec ... ``` 6. **测试**:...
kettle 9.1 连接hadoop clusters (CDH 6.2) 驱动
flink 1.12及以上 兼容cdh6所需要的flink-shaded-hadoop jar包
`cdh6.3.1` 标签可能表明这是针对 Cloudera Data Hub (CDH) 6.3.1 的定制版本,CDH 是一个流行的 Hadoop 分发版,包含了 Hadoop、Spark 等一系列大数据工具的预配置和优化版本。 使用 Flink Shaded Hadoop Uber JAR...
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。...
这里的“hadoop-2.6.0-cdh5.7.0版本”指的是Cloudera的Hadoop发行版,CDH(Cloudera Distribution Including Apache Hadoop)5.7.0中的Hadoop组件为2.6.0版本。这个版本包含了Hadoop生态系统中的多个关键组件,如...
大数据ETL开源软件Kettle连接Hadoop时使用到得Shims 配置Pentaho组件Shims Shims是Pentaho提供的一系列连接各个source的适配器,具体配置位置根据Pentaho的组件来决定,现在的PDI Spoon的配置位置在../data-...
spark-assembly-1.6.0-cdh5.8.4-hadoop2.6.0-cdh5.8.4.jar
大数据ETL开源软件Kettle连接Hadoop时使用到得Shims 配置Pentaho组件Shims Shims是Pentaho提供的一系列连接各个source的适配器,具体配置位置根据Pentaho的组件来决定,现在的PDI Spoon的配置位置在../data-...
spark-assembly-1.3.0-hadoop2.5.0-cdh5.3.0.jar的下载地址和提取码
carbondata-1.4,spark-2.1,hadoop-2.6.0-cdh5.11.1源码编译
Flink-1.11.2与Hadoop3集成JAR包,放到flink安装包的lib目录下,可以避免Caused by: org.apache.flink.core.fs.UnsupportedFileSystemSchemeException: Hadoop is not in the classpath/dependencies.这个报错,实现...
编译好的flink依赖包。放在flink的lib目录下即可。此版本是Flink1.9.0基于cdh5.13.3进行的编译。
kudu-1.4.0+cdh5.12.2+0-1.cdh5.12.2.p0.8.el7.x86_64.rpm kudu-client0-1.4.0+cdh5.12.2+0-1.cdh5.12.2.p0.8.el7.x86_64.rpm kudu-client-devel-1.4.0+cdh5.12.2+0-1.cdh5.12.2.p0.8.el7.x86_64.rpm kudu-debuginfo...
本资源包含redhat7版本的CM6.2.1和CDH6.2.1: cloudera-manager-daemons-6.2.1-1426065.el7.x86_64.rpm oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm jdk-8u151-linux-x64.rpm enterprise-debuginfo-6.2.1-1426065...