0 概念:
Pig是专门用于处理数据的。
Pig提供了一套流式的数据处理语言,转换为MapReduce,处理HDFS中的数据。
pig加载hdfs文件到自己体系内处理好后在送回去。
pig中的字符串类型是bytearray
下载地址: http://www.apache.org/dyn/closer.cgi/pig
1 如何安装和使用pig?
不用配置,pig启动时读配置文件得到Hadoop的配置信息
直接解压缩,执行bin/pig,就进入到终端grunt命令行,会发现自动连接Hadoop的 hdfs://master:9000,如下:
ne.HExecutionEngine - Connecting to hadoop file system at: hdfs://master:9000 2014-12-24 00:11:44,406 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to map-reduce job tracker at: master:9001 grunt>
2 命令简介:
a) 查看hdfs文件 grunt> fs -ls / Found 8 items drwxr-xr-x - zm supergroup 0 2014-12-18 21:23 /files drwxr-xr-x - root supergroup 0 2014-12-23 20:55 /hbase -rw-r--r-- 3 zm supergroup 2388 2014-12-23 20:48 /hello -rw-r--r-- 3 zm supergroup 19 2014-12-02 04:16 /hello2 drwxr-xr-x - zm supergroup 0 2014-12-18 21:24 /out drwxr-xr-x - root supergroup 0 2014-12-11 23:46 /tmp drwxr-xr-x - root supergroup 0 2014-12-11 19:24 /user drwxr-xr-x - root supergroup 0 2014-12-08 03:04 /usr b)load 加载HDFS输入进入Pig, 主要 load后跟的是hdfs的路径 =左右需要空格 dump命令用于查看 a = load '/user.data';dump a; //默认使用制表符分隔加载的文件 b = load '/user.data2' using PigStorage(';');dump b; //加载文件时,指定分隔符,这样展示的时候会将分割的东西用,间隔后展示 eg: 展示b的结果为: hello,you) (hello,me) (hello,30) c = load '/user.data' using HBaseStorage;//可以加载hbase数据 d = load '/user.data' as (id, name);dump d; // 加载时 指定别名 grunt> describe d; d: {id: bytearray,name: bytearray} e = load '/user.data' as (id:int, name:bytearray);dump e; // 加载时,指定别名和对应加载后的类型 c) 将pig内处理的数据在写入到hdfs中: store...into... 写入到hdfs中 eg: grunt> store c into '/pigtest'; // 需要'' ,写到hdfs下的是目录结构 后用hdfs命令查看: [root@master data]# hadoop fs -text /pigtest/part-m-00000 Warning: $HADOOP_HOME is deprecated. hello you hello me hello 30 d) describe 显示关系的结构 foreach...generate... 迭代每一行记录 // 类比于, select $0 as id, $1 as name from a; $占位符,表示目标文件以分隔符分割下元素位置 f = foreach a generate $0 as id, $1 as name;dump f; g = foreach e generate id,name;dump g; filter...by... 过滤 // 类比于 where h = filter f by id>1;dump h; group...by... 分组 group h by uid; order...by... 排序 i = order h by uid desc;
3 和hive的区别:
pig每一步都是一个小的操作,没有一个像 select from where group by order by 这种复杂操作,
hive: 立定跳远,一下要跳到终点, 适用人群: 更倾向于使用SQL语句
pig: 分小步来跳,每一步都不累,然后到达终点
相关推荐
### 大数据之pig命令详解 #### 一、Pig简介及与Hive的比较 Pig是一款基于Hadoop的数据处理工具,它提供了一种高级语言(Pig Latin),使得用户能够更容易地处理大规模数据集。Pig的核心设计思想是为了简化大数据...
7. **测试安装**:通过运行`pig`命令来检查Pig是否成功安装。可以在Local模式和MapReduce模式下测试,确保Pig能在Hadoop集群上运行。 **二、Pig的基本使用方法** **1. 数据加载与描述** - `LOAD`语句用于加载数据...
4. **修改环境变量**: 需要将Pig的安装路径添加到系统环境变量`PATH`和`CLASSPATH`中。打开`/etc/profile`文件,添加以下内容: ``` export PIG_HOME=/usr/local/pig export PATH=$PATH:$PIG_HOME/bin export ...
Pig是Apache Hadoop项目的一部分,它提供了一个高级数据流语言(Pig Latin)和一个用于处理大规模数据集的执行引擎。本指南将深入探讨Pig编程的核心概念,结合从GitHub下载的"programmingpig-master"源码,为学习者...
【标题】"pig-0.16.0.tar安装包" 涉及的主要知识点是Apache Pig的安装和使用,这是一个基于Hadoop的数据流编程平台,用于处理大规模数据集。Pig Latin是Pig的编程语言,它允许用户编写复杂的数据处理任务,而无需...
如果一切正常,你应该能看到Pig的帮助信息,包括可用的命令和选项。 四、启动Pig 在命令行中输入 `pig` 即可启动Pig交互式shell,即Grunt shell。在这里,你可以输入Pig Latin语句进行数据分析。 五、Pig Latin...
描述中的“pig-0.15.0.tar.gz”提及的是软件的归档文件,通常包含所有必要的源代码、文档、配置文件等,供用户下载、编译和安装。多次提及可能是为了强调其重要性或确认文件完整性。用户在下载后,可以使用 `tar` ...
下载并解压"Pig-0.9.2.tar.gz"后,开发者可以在本地或Hadoop集群上安装和运行Pig。这通常包括配置环境变量,设置Hadoop路径,然后通过Pig命令行或者脚本执行Pig Latin脚本。 5. **Pig的应用场景**: - 数据清洗:...
如果需要,也可以使用`make`和`make install`来编译和安装Pig到系统路径。 4. **设置环境变量**:为了使Pig在命令行中可用,可能需要将它的bin目录添加到PATH环境变量中,例如,添加`export PATH=$PATH:/path/to/...
Pig的安装包括下载安装包、设置环境变量、验证安装等步骤,同时,Pig提供了多种工作模式,如本地模式和MapReduce模式,以适应不同的使用场景。 在【Pig的运行和操作】部分,课程介绍了Pig的运行方法,包括通过脚本...
《Pig编程指南》不仅为初学者讲解ApachePig的基础知识,同时也向有一定使用经验的高级用户介绍更加综合全面的Pig重要特性,如PigLatin脚本语言、控制台shell交互命令以及用于对Pig进行拓展的用户自定义函数(UDF)等。...
《Apache Pig 0.12.0 在 CDH 5.5.0 上的应用...通过学习和掌握 Pig Latin 语言、理解 Pig 在 CDH 上的运行机制以及利用其与 CDH 其他组件的集成,用户可以更高效地对海量数据进行分析和挖掘,从而发掘出有价值的信息。
在实践中,可以使用Pig的`LOAD`命令加载数据,然后应用一系列操作来探索、转换和分析数据,最后通过`DUMP`或`STORE`命令展示结果或将其保存回HDFS。 在《Programming Pig》第二版中,读者可以期待更加详尽的示例、...
- **Grunt Shell** :Pig 的主要交互环境,用户可以在这里执行 **Pig Latin** 命令并查看结果。它提供了即时反馈,对于学习和调试Pig脚本非常有用。 - **Load/Store/Dump** :这三个操作构成了 **Pig Latin** 的基础...
"hadoop.txt"可能详细讨论了Hadoop的安装、集群配置、优化技巧以及与HBase和Pig的集成。 学习和理解这三个组件对于大数据工程师和数据分析师来说至关重要。Hadoop提供了数据存储和计算的基础,HBase实现了高效的...
安装完成后,配置Pig的环境变量,包括HADOOP_HOME和PIG_HOME,并将Pig的bin目录添加到PATH变量中,这样就可以在终端直接运行Pig命令了。 **使用示例:** 以下是一个简单的Pig Latin脚本示例,展示如何统计一个文本...
数据可以存储在各种格式的文件中,如CSV、JSON或XML,通过LOAD命令读入Pig环境中进行处理。 #### 三、Pig的语法高亮配置 配置编辑器的Pig语法高亮对于提高代码可读性和开发效率至关重要。在不同的操作系统和编辑器...