`
wbj0110
  • 浏览: 1603467 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

Pig – 大数据分析平台

阅读更多

wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz

tar -xzvf pig-0.11.1.tar.gz

sudo vi /etc/profile

增加:

      export PIG_HOME=/home/ysc/pig-0.11.1

exportPATH=$PATH:$PIG_HOME/bin

source /etc/profile

cp conf/log4j.properties.template conf/log4j.properties

pig --help

LocalMode

1pig -x local

2java -cp /home/ysc/pig-0.11.1/pig-0.11.1.jar org.apache.pig.Main -x local

MapreduceMode(Default):

1pig

2pig -x mapreduce

3java -cp /home/ysc/pig-0.11.1/pig-0.11.1.jar:/home/ysc/hadoop-1.2.1/conf org.apache.pig.Main

4java -cp /home/ysc/pig-0.11.1/pig-0.11.1.jar:/home/ysc/hadoop-1.2.1/conf org.apache.pig.Main -x mapreduce

准备数据:

hadoop fs -put /etc/passwd passwd

Interactive Mode:

进入Pig shell(Local或Mapreduce Mode):

pig(pig -x local)

grunt> A = load 'passwd' using PigStorage(':');

grunt> B = foreach A generate $0 as id;

grunt> dump B;

Batch Mode:

编写脚本:

vi id.pig

输入:

/* id.pig */

-- load the passwd file

A = load 'passwd' using PigStorage(':');

-- extract the user IDs

B = foreach A generate $0 as id;

-- write the results to a file name id.out

store B into 'id.out';

运行脚本(Local或Mapreduce Mode):

pig(pig -x local) id.pig

查看结果:

hadoopfs -cat id.out/part-m-00000

Pig使用HCatalog管理数据:

启动Metastore

hcat_server.sh start & (或:hive --service metastore &)

sudo vi /etc/profile

增加:

export PIG_CLASSPATH=$HCAT_HOME/share/hcatalog/hcatalog-*.jar:\

$HIVE_HOME/lib/hive-metastore-*.jar:$HIVE_HOME/lib/libthrift-*.jar:\

$HIVE_HOME/lib/hive-exec-*.jar:$HIVE_HOME/lib/libfb303-*.jar:\

$HIVE_HOME/lib/jdo2-api-*-ec.jar:$HIVE_HOME/lib/slf4j-api-*.jar

export PIG_OPTS=-Dhive.metastore.uris=thrift://host001:9083

       source /etc/profile

创建表:

              hcat -e "CREATETABLE students (name STRING, age INT)  ROW FORMAT DELIMITED   FIELDS TERMINATED BY '\t'   LINES TERMINATED BY'\n'   STORED AS TEXTFILE; "

准备数据:

       vi students.txt

       输入:

刘德华51

张学友52

刘亦菲41

杨尚川27

成龙   55

洪金宝52

林志玲40

   hadoop fs -put students.txt /user/ysc/students.txt

启动pig:

pig -Dpig.additional.jars=$PIG_CLASSPATH

存储数据:

      students = LOAD '/user/ysc/students.txt' AS (name:chararray, age:int);

      dump students;

STORE students INTO 'students' USING org.apache.hcatalog.pig.HCatStorer();

加载数据:

A= LOAD 'students' USING org.apache.hcatalog.pig.HCatLoader();
       dump A;

分享到:
评论

相关推荐

    Hadoop_HBase_Pig

    ### Hadoop、HBase与Pig的安装与配置详解 #### Hadoop的安装与配置 在部署Hadoop之前,首先需要确保系统中已...以上步骤详尽地介绍了Hadoop、HBase与Pig在Linux环境下的安装与配置流程,是构建大数据处理平台的基础。

    Data-Analysis-on-Stack-Exchange-Data:使用HDFS,MapReduce,Pig和Hive对在Stack Overflow门户中输入的查询和问题进行数据分析

    阿尤什·桑贾尔堆栈交换数据的数据分析来自Stack Exchange的数据的数据分析该项目已使用Dataproc(由Google提供的云服务)执行,该服务提供了用于Google Cloud Platform(GCP)中的批处理,查询,流传输和机器学习的...

    大数据系列9:Mahout – 机器学习

    在实际应用中,Mahout可以与其他大数据工具,如Hive、Pig、Spark等结合,进一步增强数据分析能力。例如,通过Hive可以方便地对数据进行预处理和清洗,然后使用Mahout进行模型训练,最后再将结果存入HBase等NoSQL...

    大数据处理架构Hadoop-Hadoop安装完整版资料.pptx

    一旦安装完成,Hadoop可以处理PB级别的数据,支持复杂的数据分析任务,广泛应用于互联网、金融、电信等多个行业。在实际操作中,还需要关注安全性、性能优化以及与其他大数据工具(如Hive、Pig、Spark等)的集成。

    HCIA-Big Data考试题库.zip

    7. **大数据分析**:包括数据挖掘、机器学习和人工智能算法,如K-means聚类、决策树、随机森林、神经网络等。 8. **大数据应用**:大数据在各行业的应用广泛,如推荐系统、金融风控、医疗健康、智慧城市等领域。 9...

    HCIP-Big Data Developer (H13-723) 培训教材及实验手册V2.0.zip

    2. **数据分析实验**:使用Hive或Pig进行ETL(抽取、转换、加载)过程,对数据进行清洗和分析。 3. **实时流处理**:使用Spark Streaming处理实时数据流,实现快速响应和实时分析。 4. **机器学习实验**:利用...

    Hadoop测试题

    Hadoop 测试题主要涵盖了 Hadoop 的基本概念、架构、组件、应用场景等方面的知识点,本节对测试题的每个问题进行详细的解释和分析。 HDFS 1. HDFS 中,NameNode 负责管理文件系统的命名空间,DataNode 负责存储...

Global site tag (gtag.js) - Google Analytics