`

Pig安装与配置教程

    博客分类:
  • pig
阅读更多

Pig是yahoo捐献给apache的一个项目 ,它是SQL-like语言,是在 MapReduce上构建的一种高级查询语言,把一些运算编译 进MapReduce模型的Map和Reduce 中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:Sawzall

 

Pig有两种模式:

一种是Local mode,也就是本地模式,这种模式下Pig运行在一个JVM里,访问的是本地的文件 系统,只适合于小规模数据 集,一般是用来体验Pig。而且,它并没有用到 Hadoop的Local runner,Pig把查询转换为物理的Plan,然后自己去执行。

在终端下输入

% pig -x local

 

就可以进入Local模式了。

还有一种就是Hadoop模式了,这种模式下,Pig才真正的把查询转换为 相应的MapReduce Jobs,并提交到Hadoop集群去运行,集群可以是真实的分布式 也可以是伪分布式。要想Pig能认识 Hadoop,你要告诉它Hadoop的版本以及一些关键daemon的信息(也就是Namenode和Jobtracker的Address和 Port)。比如,下面这个可以允许Pig连接到任何Hadoop0.20.*上:

 

/************************************/

% export PIG_HADOOP_VERSION=20

接下来,你还要指明 集群的Namenode和Jobtracker的所在。有两种方法,一种就是把你Hadoop的Conf地址添加到Pig的Classpath上:

% export PIG_CLASSPATH=$HADOOP_INSTALL/conf/

 

/*************************************/

 

还有一种就是在Pig目录的Conf文件夹(可能需要自己创建)里创建一个pig.properties文件,然 后在里面添加集群的Namenode和Jobtracker的信息:

fs.default.name=hdfs ://localhost/                      conf/core-site.xml

map red.job .tracker=localhost:8021                  conf/mapred-site.xml

 

搞定后,在终端执行下面的命令:

% pig

你就会看到下面的信息:

2009-03-29 21:22:20,489 [main] INFO  org.apache.pig.backend.hadoop.executionengine.

HExecutionEngine – Connecting to hadoop file system at: hdfs://localhost/

2009-03-29 21:22:20,760 [main] INFO  org.apache.pig.backend.hadoop.executionengine.

HExecutionEngine – Connecting to map-reduce job tracker at: localhost:8021

grunt>

如你所见,Pig 报告已经连上了Hadoop的Namenode和Jobtracker,是不是也非常的简单?

到此,Pig的安装和配置讲解完毕,是不是很Easy,那还等 什么,赶紧去试试,玩玩~

分享到:
评论

相关推荐

    mysql的安装与配置.docx

    ### MySQL的安装与配置 #### 一、MySQL的安装 MySQL是一种广泛使用的开源关系型数据库管理系统,因其稳定性和性能而受到开发者的喜爱。在Linux环境下安装MySQL可以通过多种方式实现,如使用RPM包安装等。 - **...

    God-Of-BigData-hadoop安装与配置

    除了安装和配置Hadoop本身,还可能需要安装其他相关的软件和服务,比如Hadoop生态中的Hive、Pig、HBase等,以及对系统进行监控和管理的工具,如Ambari、Cloudera Manager等。 在安装和配置Hadoop过程中,可能会遇到...

    pig基础操作

    1. **安装与配置**:在使用 Pig 之前,需要在 Hadoop 环境中安装和配置 Pig。这通常涉及下载源码,编译,然后将编译后的 JAR 包添加到 Hadoop 的类路径中。此外,还需要配置 Pig 的配置文件 pig.properties,指定 ...

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 21.Pig模式与函数(共64页).pptx

    【大数据与云计算教程】本课程涵盖了大数据处理的关键技术,包括Hadoop、MapReduce、YARN、HDFS、Hive、HBase、Pig、Zookeeper、Sqoop、Flume、Kafka、Storm、Spark以及数据处理相关的工具和框架。课程详细讲解了各...

    HADOOP集成组件CDH安装部署详细教程

    8. **测试与优化**:安装完成后,通过运行一些基础的MapReduce任务或者Hive查询来验证集群的正确性。根据性能表现进行调优,例如调整HDFS的副本数量、YARN的内存分配等。 在实际操作过程中,可能会用到Shell脚本来...

    Pig编程指南

    在本书中,读者将了解到Pig的基本概念,包括如何安装和配置Pig环境,以及如何使用命令行接口(CLI)执行Pig脚本。书中详细讲解了Pig Latin的各种操作符,例如LOAD用于从HDFS或其他数据源加载数据,FILTER用于筛选...

    Hive安装教程

    在安装Hive之前,首先需要...总之,安装Hive的过程涉及到Java和Hadoop的安装与配置,以及Hive自身的一些环境变量和配置文件的设定。这个过程需要细心操作,确保每个步骤都正确无误,才能让Hive在Linux环境中顺利运行。

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 19.Pig(共33页).pptx

    【大数据与云计算教程课件】系列是一套全面且深度讲解大数据技术与云计算的高质量课程,涵盖了从基础到高级的各种主题。课程中详细介绍了Hadoop生态系统的各个组件,旨在帮助学习者掌握大数据处理的核心技能。 ...

    hadoop单机版安装教程

    Hadoop是一款开源的大数据处理框架,由Apache基金会开发,它主要设计用于处理...以上就是Hadoop单机版的安装教程及相关知识点。通过这个过程,你可以了解Hadoop的基本架构和工作原理,为后续的分布式环境学习打下基础。

    log4j-pig-master.zip

    【标题】"log4j-pig-master.zip" 提示我们这个压缩包可能包含一个与日志管理和名为"pig"的项目相关的源代码仓库。"log4j"是Apache的一个开源项目,它为Java应用程序提供了强大的日志记录服务。在Java世界里,log4j是...

    d2l-zh-1.0.zip_D2L 文件_d2lzh安装_deeplearning_mxnet_pig17v

    "d2l-zh-1.0.zip_D2L 文件_d2lzh安装_deeplearning_mxnet_pig17v" 是该教程的一个版本,它包含了一系列用于学习和实践的代码,主要基于MXNet框架。MXNet是一个高效的深度学习库,支持多种编程语言,如Python,便于...

    hadoop&spark安装、环境配置、使用教程.docx

    ### Hadoop与Spark安装、环境配置及使用教程 #### Hadoop概述 Hadoop是一个由Apache基金会维护的开源分布式计算框架,主要用于处理大规模数据集。它包含以下关键组件: 1. **Hadoop Distributed File System ...

    Hadoop、HBase、Hive、Pig、Zookeeper资料整理

    在Hadoop生态系统中,Zookeeper常用来维护HBase的RegionServer分布状态、Hadoop的JobTracker与TaskTracker的协调,以及Hive元数据的管理等。 这些技术的结合使用,可以构建出一个强大的大数据处理平台。例如,...

    Hadoop完全分布式安装及相关教程附程序包

    本教程将详细阐述Hadoop的完全分布式安装过程,并涵盖相关的配置与优化,旨在帮助用户从零开始构建一个稳定、高效的Hadoop集群。 一、Hadoop概述 Hadoop由Apache基金会开发,其核心组件包括HDFS(Hadoop ...

    开源项目-esimov-pigo.zip

    Pigo的纯Go实现意味着开发者无需安装和配置OpenCV,这简化了开发流程,降低了依赖性,使得在Go生态系统中部署和维护变得更加便捷。 项目结构可能如下: 1. `pigo-master` 目录:这是项目的主要源代码目录,通常...

    hadoop安装配置共51页.pdf.zip

    【标题】:“Hadoop安装配置共51页.pdf”是一个关于Hadoop分布式文件系统安装与配置的详细教程,涵盖了从环境准备到集群搭建的全过程。Hadoop是Apache软件基金会的一个开源项目,它为大规模数据处理提供了可靠、可...

    TutorialsPoint Kafka Pig Storm Arduino FLex Impala OAuth2 Tableau Vim 教程

    9. **Vim**:Vim是一款高度可配置的文本编辑器,适用于程序员和高级用户。它支持宏、插件和多种编程语言,以其高效性和灵活性而受到推崇。 这些教程将帮助学习者深入理解各个技术的核心概念,掌握实际操作技巧,并...

    phoenix安装教程

    phoenix安装教程 Phoenix是一种基于HBase的SQL引擎,它可以将HBase作为其存储引擎,使得用户可以使用标准SQL语句来访问和操作HBase中的数据。本文将详细介绍Phoenix的安装过程,包括环境准备、Phoenix安装、环境...

    Hadoop系列-配置/安装/教程.zip

    10. **Hadoop生态**:Hadoop生态系统包括众多工具和框架,如Hive(数据仓库工具)、Pig(数据分析工具)、Spark(高速计算框架)、HBase(NoSQL数据库)等,它们与Hadoop紧密配合,构建起完整的数据处理解决方案。...

Global site tag (gtag.js) - Google Analytics