http://pig.apache.org/docs/r0.7.0/tutorial.html#Pig+Script+1%3A+Query+Phrase+Popularity
http://www.hadoopor.com/thread-236-1-1.html
Pig安装与配置教程
本帖最后由 spork 于 2009-12-3 15:37 编辑
Pig版块到现在都没人写一篇,甚至转载一篇,为了使版面好看点,抽了点时间写篇技术含量≈0的Pig安装配置教程。
Pig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:Sawzall。
Pig是一个客户端应用程序,就算你要在Hadoop集群上运行Pig,也不需要在集群上装额外的东西。Pig的安装是灰常的简单的:
1、安装JAVA6(在Windows的话要装Cygwin),设置好JAVA_HOME。
% export JAVA_HOME=/home/tom/jdk1.6
2、到http://hadoop.apache.org/pig/releases.html下载一个稳定的发行版(目前是0.5.0,可以在Hadoop-0.20.*上运行),解压到你的工作空间:
% tar xzf pig-x.y.z.tar.gz
3、为了方便,可以把Pig的程序目录放到命令行路径里,比如:
% export PIG_INSTALL=/home/tom/pig-x.y.z
% export PATH=$PATH:$PIG_INSTALL/bin
注销或重启,你就可以用pig -help来查看使用帮助了,安装够简单吧? :)
Pig有两种模式:
一种是Local mode,也就是本地模式,这种模式下Pig运行在一个JVM里,访问的是本地的文件系统,只适合于小规模数据集,一般是用来体验Pig。而且,它并没有用到Hadoop的Local runner,Pig把查询转换为物理的Plan,然后自己去执行。
在终端下输入
% pig -x local
就可以进入Local模式了。
还有一种就是Hadoop模式了,这种模式下,Pig才真正的把查询转换为相应的MapReduce Jobs,并提交到Hadoop集群去运行,集群可以是真实的分布式也可以是伪分布式。要想Pig能认识Hadoop,你要告诉它Hadoop的版本以及一些关键daemon的信息(也就是Namenode和Jobtracker的Address和Port)。比如,下面这个可以允许Pig连接到任何Hadoop0.20.*上:
% export PIG_HADOOP_VERSION=20
接下来,你还要指明集群的Namenode和Jobtracker的所在。有两种方法,一种就是把你Hadoop的Conf地址添加到Pig的Classpath上:
% export PIG_CLASSPATH=$HADOOP_INSTALL/conf/
还有一种就是在Pig目录的Conf文件夹(可能需要自己创建)里创建一个pig.properties文件,然后在里面添加集群的Namenode和Jobtracker的信息:
fs.default.name=hdfs://localhost/
mapred.job.tracker=localhost:8021
搞定后,在终端执行下面的命令:
% pig
你就会看到下面的信息:
2009-03-29 21:22:20,489 [main] INFO org.apache.pig.backend.hadoop.executionengine.
HExecutionEngine – Connecting to hadoop file system at: hdfs://localhost/
2009-03-29 21:22:20,760 [main] INFO org.apache.pig.backend.hadoop.executionengine.
HExecutionEngine – Connecting to map-reduce job tracker at: localhost:8021
grunt>
如你所见,Pig报告已经连上了Hadoop的Namenode和Jobtracker,是不是也灰常的简单?
到此,Pig的安装和配置讲解完毕,是不是很Easy,那还等什么,赶紧去试试,玩玩~
分享到:
相关推荐
本课程聚焦于“Hadoop 08 Pig安装与Pig Latin语言”,旨在深入理解Pig的工作原理及其在实际应用中的价值。 Pig拉丁语(Pig Latin)是Pig的编程语言,它允许用户以一种声明性的方式编写数据处理逻辑,而非传统的低级...
Pig的安装包括下载安装包、设置环境变量、验证安装等步骤,同时,Pig提供了多种工作模式,如本地模式和MapReduce模式,以适应不同的使用场景。 在【Pig的运行和操作】部分,课程介绍了Pig的运行方法,包括通过脚本...
五、测试Pig安装 完成上述步骤后,重新加载环境变量(`source ~/.bashrc`),然后在命令行输入`pig`,如果成功,会启动Pig的交互式Shell。 六、使用Pig Latin进行数据处理 Pig Latin是Pig的编程语言,用户可以通过...
【大数据技术基础实验报告——Pig的安装配置与应用】 Pig是Apache Hadoop项目中的一个数据处理工具,它提供了一种高级的编程语言,称为Pig Latin,用于编写复杂的数据处理作业。在这个实验报告中,我们将深入理解...
3. **验证Pig安装** 使用`pig -v`命令来确认Pig的版本信息。如果一切正常,将显示Pig的版本号。 #### Oozie的安装与配置 1. **准备编译环境** 在编译Oozie之前,需要先准备好编译环境。这包括Java JDK的安装,...
**Pig MapReduce模式的安装与配置** Apache Pig 是一个用于大数据分析的平台,它提供了一种高级语言,称为Pig Latin,使得用户能够编写处理大量数据的复杂脚本,而无需关注底层的MapReduce实现。在Hadoop生态系统中...
29.Pig安装与Pig Latin语言,应用案例1 30.Pig安装与Pig Latin语言,应用案例2 31.Pig安装与Pig Latin语言,应用案例3 32.Pig安装与Pig Latin语言,应用案例4 33.hadoop高级介绍 34.hadoop高级介绍 35.hadoop高级...
文件中提供的Pig安装指南指向了Apache官方网站的设置页面。安装Pig首先需要下载Pig的压缩包,然后解压,并将Pig的安装路径添加到系统的环境变量PATH中。这一操作确保在任何目录下都可以通过命令行直接调用Pig命令。...
5.Pig安装与Pig Latin语言,应用案例 6.Hive体系架构安装与HiveQL应用案例 7.HBase体系架构与安装 8.HBase数据分析与建模,实战案例剖析 9.Map-Reduce数据分析,Hadoop流,应用案例 10.Map-Reduce数据分析之一,API...
【标题】"pig-0.16.0.tar安装包" 涉及的主要知识点是Apache Pig的安装和使用,这是一个基于Hadoop的数据流编程平台,用于处理大规模数据集。Pig Latin是Pig的编程语言,它允许用户编写复杂的数据处理任务,而无需...
10. Pig安装:需要下载和安装Pig版本为pig-0.12.0,并配置相应的环境变量。 11. Hive安装:需要下载和安装Hive版本为hive-0.12.0,并配置相应的环境变量。 12. Ganglia安装:需要下载和安装Ganglia,并配置相应的...
下载并解压"Pig-0.9.2.tar.gz"后,开发者可以在本地或Hadoop集群上安装和运行Pig。这通常包括配置环境变量,设置Hadoop路径,然后通过Pig命令行或者脚本执行Pig Latin脚本。 5. **Pig的应用场景**: - 数据清洗:...
用户在下载后,可以使用 `tar` 命令解压并安装,以在本地环境中使用 Apache Pig 0.15.0。 标签“pig-0.15.0”是该资源的标识符,方便用户搜索和区分不同版本的 Pig。在实际应用中,选择合适的版本至关重要,因为...
PIGO是一个采集引擎,开始的时候是按照采集各大搜索引擎而设计的。随着需求的增加,现在PIGO不单单能采集搜索引擎,而且能聚合结果,甚至,加载不同的核心,PIGO就变成不同的网站。... 安装步骤1、把PIGO文件夹复制粘
《Apache Pig 0.17.0 安装与配置指南》 Apache Pig 是一个用于大数据分析的平台,它提供了一种高级语言 Pig Latin 来处理大规模数据集。Pig-0.17.0 是该平台的一个稳定版本,包含了多项优化和改进,适用于Hadoop...
如果需要,也可以使用`make`和`make install`来编译和安装Pig到系统路径。 4. **设置环境变量**:为了使Pig在命令行中可用,可能需要将它的bin目录添加到PATH环境变量中,例如,添加`export PATH=$PATH:/path/to/...
Pig-Toolbox_v1.0.7.6 谷歌浏览器插件,CRX可解压,用开发者模式安装
对于想要开始使用Pig的读者,书中的内容会从下载Pig包开始讲起,包括从Apache、Cloudera、Maven仓库等不同途径获取Pig的方法,以及安装和运行Pig的基本步骤。这本书还可能涉及如何设置和配置Pig环境、使用Pig Latin...