`

大数据系列5:Pig – 大数据分析平台

阅读更多

wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz

tar -xzvf pig-0.11.1.tar.gz

sudo vi /etc/profile

增加:

export PIG_HOME=/home/ysc/pig-0.11.1

exportPATH=$PATH:$PIG_HOME/bin

source /etc/profile

cp conf/log4j.properties.template conf/log4j.properties

pig --help

LocalMode

1pig -x local

2java -cp /home/ysc/pig-0.11.1/pig-0.11.1.jar org.apache.pig.Main -x local

MapreduceModeDefault):

1pig

2pig -x mapreduce

3java -cp /home/ysc/pig-0.11.1/pig-0.11.1.jar:/home/ysc/hadoop-1.2.1/conf org.apache.pig.Main

4java -cp /home/ysc/pig-0.11.1/pig-0.11.1.jar:/home/ysc/hadoop-1.2.1/conf org.apache.pig.Main -x mapreduce

准备数据:

hadoop fs -put /etc/passwd passwd

Interactive Mode:

进入Pig shellLocalMapreduce Mode):

pigpig -x local

grunt> A = load 'passwd' using PigStorage(':');

grunt> B = foreach A generate $0 as id;

grunt> dump B;

Batch Mode:

编写脚本:

vi id.pig

输入:

/* id.pig */

-- load the passwd file

A = load 'passwd' using PigStorage(':');

-- extract the user IDs

B = foreach A generate $0 as id;

-- write the results to a file name id.out

store B into 'id.out';

运行脚本(LocalMapreduce Mode):

pigpig -x local id.pig

查看结果:

hadoopfs -cat id.out/part-m-00000

Pig使用HCatalog管理数据:

启动Metastore

hcat_server.sh start & (或:hive --service metastore &)

sudo vi /etc/profile

增加:

export PIG_CLASSPATH=$HCAT_HOME/share/hcatalog/hcatalog-*.jar:\

$HIVE_HOME/lib/hive-metastore-*.jar:$HIVE_HOME/lib/libthrift-*.jar:\

$HIVE_HOME/lib/hive-exec-*.jar:$HIVE_HOME/lib/libfb303-*.jar:\

$HIVE_HOME/lib/jdo2-api-*-ec.jar:$HIVE_HOME/lib/slf4j-api-*.jar

export PIG_OPTS=-Dhive.metastore.uris=thrift://host001:9083

       source /etc/profile

创建表:

              hcat -e "CREATETABLE students (name STRING, age INT)  ROW FORMAT DELIMITED   FIELDS TERMINATED BY '\t'   LINES TERMINATED BY'\n'   STORED AS TEXTFILE; "

准备数据:

       vi students.txt

       输入:

刘德华51

张学友52

刘亦菲41

杨尚川27

成龙   55

洪金宝52

林志玲40

   hadoop fs -put students.txt /user/ysc/students.txt

启动pig

pig -Dpig.additional.jars=$PIG_CLASSPATH

存储数据:

      students = LOAD '/user/ysc/students.txt' AS (name:chararray, age:int);

      dump students;

STORE students INTO 'students' USING org.apache.hcatalog.pig.HCatStorer();

加载数据:

A= LOAD 'students' USING org.apache.hcatalog.pig.HCatLoader();
       
dump A;

 

 


 

APDPlat旗下十大开源项目

 

 

 

 

 

 

 

 

 

3
4
分享到:
评论

相关推荐

    大数据系列9:Mahout – 机器学习

    在实际应用中,Mahout可以与其他大数据工具,如Hive、Pig、Spark等结合,进一步增强数据分析能力。例如,通过Hive可以方便地对数据进行预处理和清洗,然后使用Mahout进行模型训练,最后再将结果存入HBase等NoSQL...

    大数据之路:阿里巴巴大数据实践

    5. 大数据分析方法:涉及机器学习、深度学习等人工智能技术在大数据分析中的应用,如推荐系统、用户行为分析、预测模型构建等。 6. 数据可视化与报表系统:阿里巴巴如何通过Tableau、BI工具等实现数据的可视化展示...

    150页智慧政务大数据可视化平台方案 大数据分析可视化平台分析用户行为.pptx

    1. 数据采集层:使用ETL工具将数据从各种数据源采集到大数据平台。 2. 数据存储层:使用Hadoop分布式文件系统和NoSQL数据库存储大规模数据。 3. 数据处理层:使用Spark、Hive和Pig等工具进行数据处理和分析。 4. ...

    大数据开发实战案例:构建高效数据分析平台.zip

    在大数据领域,构建高效的数据分析平台是至关重要的。这样的平台能够帮助企业从海量数据中提取有价值的信息,推动业务决策,优化运营策略。本文将基于提供的"大数据开发实战案例:构建高效数据分析平台.pdf"进行深入...

    《大数据:互联网大规模数据挖掘与分布式处理》

    《大数据:互联网大规模数据挖掘与分布式处理》这本书深入探讨了当今信息技术领域中备受关注的三大主题:大数据、数据挖掘和分布式处理。随着互联网的快速发展,数据的生成速度和规模已经超出了传统数据处理方法的...

    大数据漫谈系列之:大数据怎么发挥大价值

    大数据是21世纪信息技术发展的重要领域,它涵盖了从海量数据的采集、存储、处理到分析、洞察和决策支持等一系列过程。在"大数据漫谈系列之:大数据怎么发挥大价值"中,我们将深入探讨大数据如何在各行各业中创造巨大...

    大数据之pig 命令

    Pig作为一款强大的大数据处理工具,通过其丰富的命令和灵活的数据处理机制,为用户提供了一个高效的数据处理平台。无论是数据清洗、转换还是复杂的查询需求,Pig都能够轻松应对。通过掌握Pig的基本命令和使用方法,...

    大数据 hive 实战数据

    在大数据处理领域,Hive是一个极其重要的工具,它被广泛应用于大数据分析和数据仓库操作。本实战数据集主要涉及两个核心部分:`video`数据和`user`数据,这些都是构建大数据分析模型的基础元素。让我们深入探讨一下...

    Hadoop数据分析_大数据_hadoop_数据分析_

    2. **Hive**:基于Hadoop的数据仓库工具,允许用户使用SQL-like语法查询和管理存储在HDFS中的大数据集,简化了大数据分析。 3. **Pig**:一种高级数据流语言和执行框架,用于构建大规模数据处理的管道。 4. **...

    大数据导论:认识大数据.pdf

    Hadoop生态还包括一系列相关工具,如Pig用于数据处理,Flume用于数据采集。 【Spark框架】Spark是另一个大数据处理框架,相比Hadoop,它提供了更高效的内存计算,能够在数据处理过程中减少磁盘I/O,从而加快计算...

    基于大数据技术的用户日志数据分析及可视化平台搭建项目代码及数据集

    本项目名为“基于大数据技术的用户日志数据分析及可视化平台搭建”,旨在利用大数据处理和分析能力,对用户日志数据进行深入挖掘,以获取有价值的信息并构建可视化展示平台。 大数据技术主要涵盖了三个关键领域:...

    Hadoop大数据技术-pig操作

    5. **流式处理与并行计算**:Pig会自动将Pig Latin语句转化为一系列MapReduce任务,这些任务在Hadoop集群中并行执行,极大地提高了处理速度。例如,一个JOIN操作会被分解为多个MapReduce作业,每个作业处理一部分...

    大数据日知录(架构与算法).pdf(带完整书签)

    5. **HBase**:HBase是一个基于HDFS的分布式列式数据库,适合实时读写操作,常用于大数据实时分析场景。 6. **Hive**:Hive是构建在Hadoop之上的数据仓库工具,提供了SQL-like查询语言HQL,使得非程序员也能方便地...

    大数据商务智能BI平台技术方案及案例解析.pptx

    2. 大数据平台架构:大数据平台架构图包括HBase列族数据库、HDFS分布式文件系统、Hive数据仓库、Pig分析工具、Storm内存流式计算框架、Hadoop MapReduce计算框架、Spark并行计算框架等多个组件。 3. 数据处理:数据...

    大数据pig实战

    大数据环境下的Pig实战,其实质是利用Pig作为数据流语言来处理和分析大规模数据集。Pig提供了易于理解的脚本语言Pig Latin,降低了对MapReduce编程的要求,使得数据分析人员能够更方便地进行数据处理。同时,Hive...

    大数据云计算利器:HadoopThe.Definitive.Guide,3Ed.pdf

    Map步骤处理输入数据,生成一系列中间结果,Reduce步骤则对这些中间结果进行汇总。尽管现在越来越多的大数据处理框架开始出现,如Apache Spark,但MapReduce仍然是Hadoop生态中的重要组成部分。 《Hadoop: The ...

    大数据云计算利器:Hadoop The Definitive Guide,2Ed.pdf

    此外,Hadoop还与多个相关技术如HBase、Hive、Pig等结合使用,以支持数据分析、数据仓库、数据挖掘等多种数据处理需求。 3. 数据存储与分析 本书讨论了与传统数据存储和分析技术(如关系型数据库管理系统RDBMS)...

    《大数据导论》复习资料.pdf

    《大数据导论》的复习资料涵盖了大数据领域的多个核心知识点,包括大数据的基本概念、特征、数据类型、技术、应用,以及大数据的采集、预处理、存储、计算平台、分析与挖掘、可视化、特定领域的应用,如社交大数据、...

    《大数据:互联网大规模数据挖掘与分布式处理》迷你书

    4. 大数据工具与平台:除了Hadoop和Spark,还有许多其他的大数据工具和平台,如Hive(基于Hadoop的数据仓库工具)、Pig(Hadoop上的数据处理语言)、HBase(NoSQL数据库)等。这些工具通常用于数据存储、查询和分析...

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 19.Pig(共33页).pptx

    【Pig】是该课程中的一个重要部分,它是一种高级的数据处理工具,特别适合对大规模数据集进行分析。Pig通过提供Pig Latin语言,为用户提供了比MapReduce更抽象的编程模型。Pig Latin允许程序员使用更加灵活和丰富的...

Global site tag (gtag.js) - Google Analytics