`

pig

阅读更多


转自:http://www.hadoopor.com/thread-236-1-1.html

Pig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:Sawzall。
Pig是一个客户端应用程序,就算你要在Hadoop集群上运行Pig,也不需要在集群上装额外的东西。Pig的安装是灰常的简单的:
1、安装JAVA6(在Windows的话要装Cygwin),设置好JAVA_HOME。
% export JAVA_HOME=/home/tom/jdk1.6
2、到http://hadoop.apache.org/pig/releases.html下载一个稳定的发行版(目前是0.5.0,可以在Hadoop-0.20.*上运行),解压到你的工作空间:
% tar xzf pig-x.y.z.tar.gz
3、为了方便,可以把Pig的程序目录放到命令行路径里,比如:
% export PIG_INSTALL=/home/tom/pig-x.y.z
% export PATH=$PATH:$PIG_INSTALL/bin
注销或重启,你就可以用pig -help来查看使用帮助了,安装够简单吧? :)
Pig有两种模式:
一种是Local mode,也就是本地模式,这种模式下Pig运行在一个JVM里,访问的是本地的文件系统,只适合于小规模数据集,一般是用来体验Pig。而且,它并没有用到Hadoop的Local runner,Pig把查询转换为物理的Plan,然后自己去执行。
在终端下输入
% pig -x local
就可以进入Local模式了。
还有一种就是Hadoop模式了,这种模式下,Pig才真正的把查询转换为相应的MapReduce Jobs,并提交到Hadoop集群去运行,集群可以是真实的分布式也可以是伪分布式。要想Pig能认识Hadoop,你要告诉它Hadoop的版本以及一些关键daemon的信息(也就是Namenode和Jobtracker的Address和Port)。比如,下面这个可以允许Pig连接到任何Hadoop0.20.*上:
% export PIG_HADOOP_VERSION=20
接下来,你还要指明集群的Namenode和Jobtracker的所在。有两种方法,一种就是把你Hadoop的Conf地址添加到Pig的Classpath上:
% export PIG_CLASSPATH=$HADOOP_INSTALL/conf/
还有一种就是在Pig目录的Conf文件夹(可能需要自己创建)里创建一个pig.properties文件,然后在里面添加集群的Namenode和Jobtracker的信息:
fs.default.name=hdfs://localhost/
mapred.job.tracker=localhost:8021
搞定后,在终端执行下面的命令:
% pig
你就会看到下面的信息:
2009-03-29 21:22:20,489 [main] INFO  org.apache.pig.backend.hadoop.executionengine.
HExecutionEngine – Connecting to hadoop file system at: hdfs://localhost/
2009-03-29 21:22:20,760 [main] INFO  org.apache.pig.backend.hadoop.executionengine.
HExecutionEngine – Connecting to map-reduce job tracker at: localhost:8021
grunt>
0
1
分享到:
评论

相关推荐

    pig的源码包

    《深入理解Pig:从源码剖析大数据处理框架》 Pig是Apache Hadoop生态系统中的一个数据处理框架,它提供了一种高级的编程语言——Pig Latin,用于编写大规模的数据处理作业。源码包是理解Pig工作原理、扩展功能和...

    pig源码0.15版

    《深入理解Pig 0.15源码:大数据处理框架的奥秘》 Pig是Apache Hadoop项目中的一个高级数据流语言和执行框架,主要用于处理大规模数据集。Pig 0.15版是Pig发展过程中的一个重要里程碑,它的源码为我们提供了深入...

    pig-0.7.0.tar.gz

    《Pig工具包在Hadoop云计算中的应用与详解》 Pig是Apache Hadoop生态系统中的一个强大工具,专为大规模数据处理而设计。"pig-0.7.0.tar.gz"是一个包含Pig 0.7.0版本的压缩包,它的出现为我们提供了一个高效的、基于...

    PIG微服务前后端源码

    【标题】"PIG微服务前后端源码"所涉及的知识点主要集中在微服务架构、前端开发和后端开发三个领域。PIG作为国内微服务热度最高的社区之一,其源码解析将帮助开发者深入理解微服务的设计理念和实现方式。 在微服务...

    pig-0.9.2.tar.gz下载

    《Pig语言与Map-Reduce:深入理解pig-0.9.2.tar.gz》 Apache Pig是Hadoop生态系统中的一个高级数据处理工具,它提供了一种面向用户的脚本语言,称为Pig Latin,用于构建Map-Reduce作业。Pig拉丁语简化了大数据处理...

    pig官方基础教程

    在Hadoop平台上,Pig是一种高级脚本语言,用于处理和分析大数据。Pig允许用户执行复杂的转换和数据查询,这些操作原本需要使用Java MapReduce编程,而Pig通过提供一套数据流语言和执行框架,简化了这一过程。 Pig...

    pig编程指南源码

    《Pig编程指南源码详解》 Pig是Apache Hadoop项目的一部分,它提供了一个高级数据流语言(Pig Latin)和一个用于处理大规模数据集的执行引擎。本指南将深入探讨Pig编程的核心概念,结合从GitHub下载的...

    大数据之pig 命令

    ### 大数据之pig命令详解 #### 一、Pig简介及与Hive的比较 Pig是一款基于Hadoop的数据处理工具,它提供了一种高级语言(Pig Latin),使得用户能够更容易地处理大规模数据集。Pig的核心设计思想是为了简化大数据...

    pig格式图片编辑工具

    "pig格式图片编辑工具"是一个专注于处理特定图像格式(如pig, pceg)的软件,它提供了方便的图片转换和尺寸变换功能。 "Pig"格式可能是一个相对少见的图像格式,这种格式可能由特定的硬件或软件所支持,不被大多数...

    [原创]Apache_Pig的一些基础概念及用法总结

    ### Apache Pig的基础概念及用法总结 #### 一、引言 Apache Pig是一种高级的数据流语言,用于在Hadoop平台上处理大规模数据集。它通过提供一种抽象层,简化了复杂的大规模数据处理任务,使用户能够更加专注于数据...

    pig java 编程jar包

    在IT行业中,Pig是Apache Hadoop项目的一部分,它提供了一种高级的、抽象的语言,称为Pig Latin,用于处理大规模数据集。Pig Java编程主要涉及到使用Java API与Pig Latin进行交互,以实现更灵活的数据处理需求。在本...

    pig-0.16.0.tar安装包

    【标题】"pig-0.16.0.tar安装包" 涉及的主要知识点是Apache Pig的安装和使用,这是一个基于Hadoop的数据流编程平台,用于处理大规模数据集。Pig Latin是Pig的编程语言,它允许用户编写复杂的数据处理任务,而无需...

    pig-0.9.2.tar.gz

    标题中的"pig-0.9.2.tar.gz"是一个典型的Linux平台上的软件打包文件,它包含了一个名为"Pig"的工具的版本0.9.2。Pig是Apache Hadoop项目的一部分,主要用于处理大规模数据集的高级数据分析。Pig Latin是它的主要语言...

    Apache Pig的性能优化.pdf

    根据给定的文件信息,我们可以深入探讨Apache Pig的性能优化及其在大数据处理中的角色与优势。首先,让我们从Apache Pig的基本概念入手。 ### Apache Pig概述 Apache Pig是一种高生产力的数据流语言和执行框架,...

    pig-0.9.1.tar

    《Pig-0.9.1在Hadoop环境下的安装与配置详解》 Apache Pig是Hadoop生态系统中的一个高级数据处理工具,它提供了一种基于脚本语言的接口,使得用户可以更方便地进行大规模数据集的分析。Pig-0.9.1是Pig的一个早期...

    pig-0.12.0-cdh5.5.0.tar.gz

    《Apache Pig 0.12.0 在 CDH 5.5.0 上的应用与解析》 Apache Pig 是一个用于大数据分析的高级编程平台,它提供了名为 Pig Latin 的脚本语言,使得用户能够以相对简单的语法处理大规模数据集。Pig-0.12.0 是 Pig 的...

    pig-hive编程指南

    《Pig-Hive编程指南》 在大数据处理领域,Pig和Hive是Apache Hadoop生态系统中的重要组件,主要用于大规模数据处理和分析。这两者都提供了高级的数据抽象和查询语言,使得非Java背景的开发者也能方便地进行...

    HADOOP 系统之hadoop pig hive 整合版

    在IT行业中,Hadoop、Hive和Pig是大数据处理领域的三大重要工具,它们共同构建了一个高效、可扩展的数据处理框架。以下是对这些技术的详细解释: **Hadoop** 是一个开源的分布式计算框架,由Apache软件基金会开发。...

Global site tag (gtag.js) - Google Analytics