Pig – 大数据分析平台 - soledede

wbj0110

浏览: 1646240 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Pig – 大数据分析平台

博客分类：

Hadoop
Pig

Pig – 大数据分析平台 Pig Hadoop

tar -xzvf pig-0.11.1.tar.gz

sudo vi /etc/profile

增加：

export PIG_HOME=/home/ysc/pig-0.11.1

exportPATH=$PATH:$PIG_HOME/bin

source /etc/profile

cp conf/log4j.properties.template conf/log4j.properties

pig --help

LocalMode：

1、pig -x local

2、java -cp /home/ysc/pig-0.11.1/pig-0.11.1.jar org.apache.pig.Main -x local

MapreduceMode（Default）：

1、pig

2、pig -x mapreduce

3、java -cp /home/ysc/pig-0.11.1/pig-0.11.1.jar:/home/ysc/hadoop-1.2.1/conf org.apache.pig.Main

4、java -cp /home/ysc/pig-0.11.1/pig-0.11.1.jar:/home/ysc/hadoop-1.2.1/conf org.apache.pig.Main -x mapreduce

准备数据：

hadoop fs -put /etc/passwd passwd

Interactive Mode:

进入Pig shell（Local或Mapreduce Mode）：

pig（pig -x local）

grunt> A = load 'passwd' using PigStorage(':');

grunt> B = foreach A generate $0 as id;

grunt> dump B;

Batch Mode:

编写脚本：

vi id.pig

输入：

/* id.pig */

-- load the passwd file

A = load 'passwd' using PigStorage(':');

-- extract the user IDs

B = foreach A generate $0 as id;

-- write the results to a file name id.out

store B into 'id.out';

运行脚本（Local或Mapreduce Mode）：

pig（pig -x local） id.pig

查看结果：

hadoopfs -cat id.out/part-m-00000

Pig使用HCatalog管理数据：

启动Metastore

hcat_server.sh start & (或：hive --service metastore &)

sudo vi /etc/profile

增加：

export PIG_CLASSPATH=$HCAT_HOME/share/hcatalog/hcatalog-*.jar:\

$HIVE_HOME/lib/hive-metastore-*.jar:$HIVE_HOME/lib/libthrift-*.jar:\

$HIVE_HOME/lib/hive-exec-*.jar:$HIVE_HOME/lib/libfb303-*.jar:\

$HIVE_HOME/lib/jdo2-api-*-ec.jar:$HIVE_HOME/lib/slf4j-api-*.jar

export PIG_OPTS=-Dhive.metastore.uris=thrift://host001:9083

source /etc/profile

创建表：

hcat -e "CREATETABLE students (name STRING, age INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY'\n' STORED AS TEXTFILE; "

准备数据：

vi students.txt

输入：

刘德华51

张学友52

刘亦菲41

杨尚川27

成龙 55

洪金宝52

林志玲40

hadoop fs -put students.txt /user/ysc/students.txt

启动pig：

pig -Dpig.additional.jars=$PIG_CLASSPATH

存储数据:

students = LOAD '/user/ysc/students.txt' AS (name:chararray, age:int);

dump students;

STORE students INTO 'students' USING org.apache.hcatalog.pig.HCatStorer();

加载数据：

A= LOAD 'students' USING org.apache.hcatalog.pig.HCatLoader();
dump A;

Programming.Pig.pdf (6.4 MB)
下载次数: 26

分享到：

Craigslist 的数据库架构（转） | 远程仓库的使用

2014-03-15 20:26
浏览 932
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Pig – 大数据分析平台

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Pig – 大数据分析平台

评论

发表评论

相关推荐

Hadoop DistributedCache使用及原理

HBase高性能复杂条件查询引擎

HADOOP基本操作命令

在线分析查询系统mdrill

Hadoop Tool,ToolRunner原理分析

Hadoop实现AbstractJob简化Job设置

让你彻底明白hive数据存储各种模式

YARN 各种RPC通信协议及它们的作用介绍

YARN工作流程

HADOOP工作流调度系统OOZIE

Hadoop 中利用 mapreduce 读写 mysql 数据

hadoop编程：解决eclipse能运行，打包放到集群上ClassNotFoundException:经验总结

分别使用Hadoop MapReduce、hive统计手机流量

eclipse中开发Hadoop2.x的Map/Reduce项目汇总

Cloudera Impala: Real-Time Queries in Apache Hadoop, For Real

Eclipse调用hadoop2运行MR程序

Mahout for hadoop 2

hadoop2.2+mahout0.9实战

STS或eclipse安装SVN插件

大数据入门：各种大数据技术介绍

最近访客更多访客>>