wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz
tar -xzvf pig-0.11.1.tar.gz
sudo vi /etc/profile
增加:
export PIG_HOME=/home/ysc/pig-0.11.1
exportPATH=$PATH:$PIG_HOME/bin
source /etc/profile
cp conf/log4j.properties.template conf/log4j.properties
pig --help
LocalMode:
1、pig -x local
2、java -cp /home/ysc/pig-0.11.1/pig-0.11.1.jar org.apache.pig.Main -x local
MapreduceMode(Default):
1、pig
2、pig -x mapreduce
3、java -cp /home/ysc/pig-0.11.1/pig-0.11.1.jar:/home/ysc/hadoop-1.2.1/conf org.apache.pig.Main
4、java -cp /home/ysc/pig-0.11.1/pig-0.11.1.jar:/home/ysc/hadoop-1.2.1/conf org.apache.pig.Main -x mapreduce
准备数据:
hadoop fs -put /etc/passwd passwd
Interactive Mode:
进入Pig shell(Local或Mapreduce Mode):
pig(pig -x local)
grunt> A = load 'passwd' using PigStorage(':');
grunt> B = foreach A generate $0 as id;
grunt> dump B;
Batch Mode:
编写脚本:
vi id.pig
输入:
/* id.pig */
-- load the passwd file
A = load 'passwd' using PigStorage(':');
-- extract the user IDs
B = foreach A generate $0 as id;
-- write the results to a file name id.out
store B into 'id.out';
运行脚本(Local或Mapreduce Mode):
pig(pig -x local) id.pig
查看结果:
hadoopfs -cat id.out/part-m-00000
Pig使用HCatalog管理数据:
启动Metastore
hcat_server.sh start & (或:hive --service metastore &)
sudo vi /etc/profile
增加:
export PIG_CLASSPATH=$HCAT_HOME/share/hcatalog/hcatalog-*.jar:\
$HIVE_HOME/lib/hive-metastore-*.jar:$HIVE_HOME/lib/libthrift-*.jar:\
$HIVE_HOME/lib/hive-exec-*.jar:$HIVE_HOME/lib/libfb303-*.jar:\
$HIVE_HOME/lib/jdo2-api-*-ec.jar:$HIVE_HOME/lib/slf4j-api-*.jar
export PIG_OPTS=-Dhive.metastore.uris=thrift://host001:9083
source /etc/profile
创建表:
hcat -e "CREATETABLE students (name STRING, age INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY'\n' STORED AS TEXTFILE; "
准备数据:
vi students.txt
输入:
刘德华51
张学友52
刘亦菲41
杨尚川27
成龙 55
洪金宝52
林志玲40
hadoop fs -put students.txt /user/ysc/students.txt
启动pig:
pig -Dpig.additional.jars=$PIG_CLASSPATH
存储数据:
students = LOAD '/user/ysc/students.txt' AS (name:chararray, age:int);
dump students;
STORE students INTO 'students' USING org.apache.hcatalog.pig.HCatStorer();
加载数据:
A= LOAD 'students' USING org.apache.hcatalog.pig.HCatLoader();
dump A;
相关推荐
在实际应用中,Mahout可以与其他大数据工具,如Hive、Pig、Spark等结合,进一步增强数据分析能力。例如,通过Hive可以方便地对数据进行预处理和清洗,然后使用Mahout进行模型训练,最后再将结果存入HBase等NoSQL...
5. 大数据分析方法:涉及机器学习、深度学习等人工智能技术在大数据分析中的应用,如推荐系统、用户行为分析、预测模型构建等。 6. 数据可视化与报表系统:阿里巴巴如何通过Tableau、BI工具等实现数据的可视化展示...
1. 数据采集层:使用ETL工具将数据从各种数据源采集到大数据平台。 2. 数据存储层:使用Hadoop分布式文件系统和NoSQL数据库存储大规模数据。 3. 数据处理层:使用Spark、Hive和Pig等工具进行数据处理和分析。 4. ...
在大数据领域,构建高效的数据分析平台是至关重要的。这样的平台能够帮助企业从海量数据中提取有价值的信息,推动业务决策,优化运营策略。本文将基于提供的"大数据开发实战案例:构建高效数据分析平台.pdf"进行深入...
《大数据:互联网大规模数据挖掘与分布式处理》这本书深入探讨了当今信息技术领域中备受关注的三大主题:大数据、数据挖掘和分布式处理。随着互联网的快速发展,数据的生成速度和规模已经超出了传统数据处理方法的...
大数据是21世纪信息技术发展的重要领域,它涵盖了从海量数据的采集、存储、处理到分析、洞察和决策支持等一系列过程。在"大数据漫谈系列之:大数据怎么发挥大价值"中,我们将深入探讨大数据如何在各行各业中创造巨大...
Pig作为一款强大的大数据处理工具,通过其丰富的命令和灵活的数据处理机制,为用户提供了一个高效的数据处理平台。无论是数据清洗、转换还是复杂的查询需求,Pig都能够轻松应对。通过掌握Pig的基本命令和使用方法,...
在大数据处理领域,Hive是一个极其重要的工具,它被广泛应用于大数据分析和数据仓库操作。本实战数据集主要涉及两个核心部分:`video`数据和`user`数据,这些都是构建大数据分析模型的基础元素。让我们深入探讨一下...
2. **Hive**:基于Hadoop的数据仓库工具,允许用户使用SQL-like语法查询和管理存储在HDFS中的大数据集,简化了大数据分析。 3. **Pig**:一种高级数据流语言和执行框架,用于构建大规模数据处理的管道。 4. **...
Hadoop生态还包括一系列相关工具,如Pig用于数据处理,Flume用于数据采集。 【Spark框架】Spark是另一个大数据处理框架,相比Hadoop,它提供了更高效的内存计算,能够在数据处理过程中减少磁盘I/O,从而加快计算...
本项目名为“基于大数据技术的用户日志数据分析及可视化平台搭建”,旨在利用大数据处理和分析能力,对用户日志数据进行深入挖掘,以获取有价值的信息并构建可视化展示平台。 大数据技术主要涵盖了三个关键领域:...
5. **流式处理与并行计算**:Pig会自动将Pig Latin语句转化为一系列MapReduce任务,这些任务在Hadoop集群中并行执行,极大地提高了处理速度。例如,一个JOIN操作会被分解为多个MapReduce作业,每个作业处理一部分...
5. **HBase**:HBase是一个基于HDFS的分布式列式数据库,适合实时读写操作,常用于大数据实时分析场景。 6. **Hive**:Hive是构建在Hadoop之上的数据仓库工具,提供了SQL-like查询语言HQL,使得非程序员也能方便地...
2. 大数据平台架构:大数据平台架构图包括HBase列族数据库、HDFS分布式文件系统、Hive数据仓库、Pig分析工具、Storm内存流式计算框架、Hadoop MapReduce计算框架、Spark并行计算框架等多个组件。 3. 数据处理:数据...
大数据环境下的Pig实战,其实质是利用Pig作为数据流语言来处理和分析大规模数据集。Pig提供了易于理解的脚本语言Pig Latin,降低了对MapReduce编程的要求,使得数据分析人员能够更方便地进行数据处理。同时,Hive...
Map步骤处理输入数据,生成一系列中间结果,Reduce步骤则对这些中间结果进行汇总。尽管现在越来越多的大数据处理框架开始出现,如Apache Spark,但MapReduce仍然是Hadoop生态中的重要组成部分。 《Hadoop: The ...
此外,Hadoop还与多个相关技术如HBase、Hive、Pig等结合使用,以支持数据分析、数据仓库、数据挖掘等多种数据处理需求。 3. 数据存储与分析 本书讨论了与传统数据存储和分析技术(如关系型数据库管理系统RDBMS)...
《大数据导论》的复习资料涵盖了大数据领域的多个核心知识点,包括大数据的基本概念、特征、数据类型、技术、应用,以及大数据的采集、预处理、存储、计算平台、分析与挖掘、可视化、特定领域的应用,如社交大数据、...
4. 大数据工具与平台:除了Hadoop和Spark,还有许多其他的大数据工具和平台,如Hive(基于Hadoop的数据仓库工具)、Pig(Hadoop上的数据处理语言)、HBase(NoSQL数据库)等。这些工具通常用于数据存储、查询和分析...
【Pig】是该课程中的一个重要部分,它是一种高级的数据处理工具,特别适合对大规模数据集进行分析。Pig通过提供Pig Latin语言,为用户提供了比MapReduce更抽象的编程模型。Pig Latin允许程序员使用更加灵活和丰富的...