Pig是yahoo捐献给apache的一个项目
,它是SQL-like语言,是在
MapReduce上构建的一种高级查询语言,把一些运算编译
进MapReduce模型的Map和Reduce
中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:Sawzall
。
Pig有两种模式:
一种是Local
mode,也就是本地模式,这种模式下Pig运行在一个JVM里,访问的是本地的文件
系统,只适合于小规模数据
集,一般是用来体验Pig。而且,它并没有用到
Hadoop的Local runner,Pig把查询转换为物理的Plan,然后自己去执行。
在终端下输入
% pig -x
local
就可以进入Local模式了。
还有一种就是Hadoop模式了,这种模式下,Pig才真正的把查询转换为
相应的MapReduce Jobs,并提交到Hadoop集群去运行,集群可以是真实的分布式
也可以是伪分布式。要想Pig能认识
Hadoop,你要告诉它Hadoop的版本以及一些关键daemon的信息(也就是Namenode和Jobtracker的Address和
Port)。比如,下面这个可以允许Pig连接到任何Hadoop0.20.*上:
/************************************/
% export PIG_HADOOP_VERSION=20
接下来,你还要指明
集群的Namenode和Jobtracker的所在。有两种方法,一种就是把你Hadoop的Conf地址添加到Pig的Classpath上:
% export
PIG_CLASSPATH=$HADOOP_INSTALL/conf/
/*************************************/
还有一种就是在Pig目录的Conf文件夹(可能需要自己创建)里创建一个pig.properties文件,然
后在里面添加集群的Namenode和Jobtracker的信息:
fs.default.name=hdfs
://localhost/ conf/core-site.xml
map
red.job
.tracker=localhost:8021 conf/mapred-site.xml
搞定后,在终端执行下面的命令:
% pig
你就会看到下面的信息:
2009-03-29
21:22:20,489 [main]
INFO org.apache.pig.backend.hadoop.executionengine.
HExecutionEngine
– Connecting to hadoop file
system at:
hdfs://localhost/
2009-03-29 21:22:20,760 [main]
INFO org.apache.pig.backend.hadoop.executionengine.
HExecutionEngine
– Connecting to map-reduce job tracker at: localhost:8021
grunt>
如你所见,Pig
报告已经连上了Hadoop的Namenode和Jobtracker,是不是也非常的简单?
到此,Pig的安装和配置讲解完毕,是不是很Easy,那还等
什么,赶紧去试试,玩玩~
分享到:
相关推荐
### MySQL的安装与配置 #### 一、MySQL的安装 MySQL是一种广泛使用的开源关系型数据库管理系统,因其稳定性和性能而受到开发者的喜爱。在Linux环境下安装MySQL可以通过多种方式实现,如使用RPM包安装等。 - **...
除了安装和配置Hadoop本身,还可能需要安装其他相关的软件和服务,比如Hadoop生态中的Hive、Pig、HBase等,以及对系统进行监控和管理的工具,如Ambari、Cloudera Manager等。 在安装和配置Hadoop过程中,可能会遇到...
1. **安装与配置**:在使用 Pig 之前,需要在 Hadoop 环境中安装和配置 Pig。这通常涉及下载源码,编译,然后将编译后的 JAR 包添加到 Hadoop 的类路径中。此外,还需要配置 Pig 的配置文件 pig.properties,指定 ...
【大数据与云计算教程】本课程涵盖了大数据处理的关键技术,包括Hadoop、MapReduce、YARN、HDFS、Hive、HBase、Pig、Zookeeper、Sqoop、Flume、Kafka、Storm、Spark以及数据处理相关的工具和框架。课程详细讲解了各...
8. **测试与优化**:安装完成后,通过运行一些基础的MapReduce任务或者Hive查询来验证集群的正确性。根据性能表现进行调优,例如调整HDFS的副本数量、YARN的内存分配等。 在实际操作过程中,可能会用到Shell脚本来...
在本书中,读者将了解到Pig的基本概念,包括如何安装和配置Pig环境,以及如何使用命令行接口(CLI)执行Pig脚本。书中详细讲解了Pig Latin的各种操作符,例如LOAD用于从HDFS或其他数据源加载数据,FILTER用于筛选...
在安装Hive之前,首先需要...总之,安装Hive的过程涉及到Java和Hadoop的安装与配置,以及Hive自身的一些环境变量和配置文件的设定。这个过程需要细心操作,确保每个步骤都正确无误,才能让Hive在Linux环境中顺利运行。
【大数据与云计算教程课件】系列是一套全面且深度讲解大数据技术与云计算的高质量课程,涵盖了从基础到高级的各种主题。课程中详细介绍了Hadoop生态系统的各个组件,旨在帮助学习者掌握大数据处理的核心技能。 ...
Hadoop是一款开源的大数据处理框架,由Apache基金会开发,它主要设计用于处理...以上就是Hadoop单机版的安装教程及相关知识点。通过这个过程,你可以了解Hadoop的基本架构和工作原理,为后续的分布式环境学习打下基础。
【标题】"log4j-pig-master.zip" 提示我们这个压缩包可能包含一个与日志管理和名为"pig"的项目相关的源代码仓库。"log4j"是Apache的一个开源项目,它为Java应用程序提供了强大的日志记录服务。在Java世界里,log4j是...
"d2l-zh-1.0.zip_D2L 文件_d2lzh安装_deeplearning_mxnet_pig17v" 是该教程的一个版本,它包含了一系列用于学习和实践的代码,主要基于MXNet框架。MXNet是一个高效的深度学习库,支持多种编程语言,如Python,便于...
### Hadoop与Spark安装、环境配置及使用教程 #### Hadoop概述 Hadoop是一个由Apache基金会维护的开源分布式计算框架,主要用于处理大规模数据集。它包含以下关键组件: 1. **Hadoop Distributed File System ...
在Hadoop生态系统中,Zookeeper常用来维护HBase的RegionServer分布状态、Hadoop的JobTracker与TaskTracker的协调,以及Hive元数据的管理等。 这些技术的结合使用,可以构建出一个强大的大数据处理平台。例如,...
本教程将详细阐述Hadoop的完全分布式安装过程,并涵盖相关的配置与优化,旨在帮助用户从零开始构建一个稳定、高效的Hadoop集群。 一、Hadoop概述 Hadoop由Apache基金会开发,其核心组件包括HDFS(Hadoop ...
Pigo的纯Go实现意味着开发者无需安装和配置OpenCV,这简化了开发流程,降低了依赖性,使得在Go生态系统中部署和维护变得更加便捷。 项目结构可能如下: 1. `pigo-master` 目录:这是项目的主要源代码目录,通常...
【标题】:“Hadoop安装配置共51页.pdf”是一个关于Hadoop分布式文件系统安装与配置的详细教程,涵盖了从环境准备到集群搭建的全过程。Hadoop是Apache软件基金会的一个开源项目,它为大规模数据处理提供了可靠、可...
9. **Vim**:Vim是一款高度可配置的文本编辑器,适用于程序员和高级用户。它支持宏、插件和多种编程语言,以其高效性和灵活性而受到推崇。 这些教程将帮助学习者深入理解各个技术的核心概念,掌握实际操作技巧,并...
phoenix安装教程 Phoenix是一种基于HBase的SQL引擎,它可以将HBase作为其存储引擎,使得用户可以使用标准SQL语句来访问和操作HBase中的数据。本文将详细介绍Phoenix的安装过程,包括环境准备、Phoenix安装、环境...
10. **Hadoop生态**:Hadoop生态系统包括众多工具和框架,如Hive(数据仓库工具)、Pig(数据分析工具)、Spark(高速计算框架)、HBase(NoSQL数据库)等,它们与Hadoop紧密配合,构建起完整的数据处理解决方案。...