pig基础操作
原始数据
hdj,network,tigle,100 md,database,tigle,99 wqy,pde,yao,94 zx,network,tigle,98 mmd,pde,yao,98 zx,pde,yao,100
一:查询每个学生被几个老师教过
A = load 'score.txt' using PigStorage(',') as (student, corse, teacher, score:int); describe A; B = foreach A generate student, teacher; C = distinct B; D = foreach (group C by student) generate group as student, COUNT(C); dump D; ###运行结果### (md,1) (zx,2) (hdj,1) (mmd,1) (wqy,1)
A = load 'score.txt' using PigStorage(',') as (student, corse, teacher, score:int); describe A; B = foreach A generate student, teacher; E = group B by student; F = foreach E { T = B.teacher; uniq = distinct T; generate group as student, COUNT(uniq) as cnt; } dump F; ###运行结果### (md,1) (zx,2) (hdj,1) (mmd,1) (wqy,1)
二:查询每个科目的前两名学生
A = load 'score.txt' using PigStorage(',') as (student, corse, teacher, score:int); B = foreach A generate student, corse, score; C = group B by corse; describe C; D = foreach C { sorted = order B by score DESC; top = LIMIT sorted 2; generate group as course, top as top; } dump D; E = foreach D generate course, flatten (top); dump E; ####运行结果#### (pde,zx,pde,100) (pde,mmd,pde,98) (network,hdj,network,100) (network,zx,network,98) (database,md,database,99)
操作时报错:
[main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1066: Unable to open iterator for alias passwd. Backend error : javadoop/192.168.0.2 to master.hadoop:10020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more deta Details at logfile: /usr/local/pig/pig_1433189043690.log
原因是:10020端口的服务没有打开,打开命令是:
mr-jobhistory-daemon.sh start historyserver
相关推荐
Pig基础教程涵盖了Pig语言的基本概念、语法、数据类型、操作符和内置函数,这些都是使用Pig进行数据处理和分析的基础。 首先,教程中会介绍Pig Latin的基本语法约定。Pig Latin语法遵循一定的规则,例如,小括号“...
在Pig 0.15中,数据类型和Schema系统是数据处理的基础。源码揭示了如何定义、验证和操作Schema,以及如何在处理过程中动态调整数据结构。 4. **存储和加载函数**: 存储函数负责将数据写入HDFS,而加载函数则用于...
Hadoop的分布式存储系统HDFS和分布式计算框架MapReduce为Pig提供了运行的基础设施。通过Hadoop,Pig可以处理PB级别的数据,实现大数据的高效分析。同时,Pig与Hadoop的集成使得数据处理可以充分利用云计算的弹性资源...
总之,"programmingpig-master"源码提供了丰富的Pig编程实例,涵盖了从基本操作到复杂场景的全面应用,对于理解Pig的工作原理和提升大数据处理技能具有极高的价值。深入研究这些源码,不仅能够提升编程技巧,还能...
### 大数据之pig命令详解 #### 一、Pig简介及与Hive的比较 Pig是一款基于Hadoop的数据处理工具,...通过掌握Pig的基本命令和使用方法,开发者可以更高效地处理大规模数据集,从而更好地支持数据分析和决策制定工作。
【大数据技术基础实验报告——Pig的安装配置与...通过这个实验,我们不仅了解了Pig的基本操作,还掌握了如何在Hadoop环境中配置和运行Pig作业。这为理解和应用其他大数据处理工具,如Hive、Spark SQL等,奠定了基础。
首先,让我们从Apache Pig的基本概念入手。 ### Apache Pig概述 Apache Pig是一种高生产力的数据流语言和执行框架,用于在Hadoop上进行大规模数据集的分析。它提供了一种类似于SQL的语言——Pig Latin,使得数据...
总之,"pig格式图片编辑工具"是一个专注于处理非主流图像格式和提供基本图片编辑功能的实用软件。它解决了用户在处理不常见格式图片时的兼容性问题,并提供了便利的尺寸调整功能,是个人用户和小型企业进行图片管理...
- **Load/Store/Dump** :这三个操作构成了 **Pig Latin** 的基础。`Load` 用于读取数据到Pig中,`Store` 将处理后的数据写回到文件系统,`Dump` 则是在控制台上打印出数据集的内容。 - **Filter/Group/Order** :...
对于想要开始使用Pig的读者,书中的内容会从下载Pig包开始讲起,包括从Apache、Cloudera、Maven仓库等不同途径获取Pig的方法,以及安装和运行Pig的基本步骤。这本书还可能涉及如何设置和配置Pig环境、使用Pig Latin...
2. **Hadoop基础知识**:作为Pig运行的平台,Hadoop的基础知识是必不可少的。读者可能会学到HDFS(Hadoop分布式文件系统)的工作原理,MapReduce编程模型,以及YARN(Yet Another Resource Negotiator)资源管理框架...
标题 "hadoop_hbase_pig" 暗示了这个...Hadoop提供了数据存储和计算的基础,HBase实现了高效的数据存储和检索,而Pig则为数据分析提供了简洁的编程接口。掌握这三者,可以帮助我们构建起强大的大数据处理和分析能力。
Pig Latin是面向数据流的语言,主要由数据流操作符构成,它将数据处理的逻辑表示为一系列转换操作。Pig程序通常在Hadoop环境中运行,与Hadoop的底层实现细节隔离,用户无需直接编写Map和Reduce任务。 Pig的基础概念...
4. **Data Model**:Pig使用bag, tuple, and field的数据模型,其中bag是非结构化的数据集合,tuple是有序的数据元组,field是数据的基本单元。 考虑到这个项目是为“yueyue”定制的,这些Pig代码可能涉及特定的...
Pig 的基础设施层当前主要由编译器组成,该编译器可以将 Pig Latin 编写的程序转换为一系列的 **MapReduce** 程序。由于已有大规模并行实现的 MapReduce 框架(如 **Hadoop**),因此 Pig 能够充分利用这些现有的...
Go语言的特性使得Pigo具备跨平台兼容性,可以在包括Linux、Windows、MacOS以及嵌入式设备在内的多种操作系统上运行。 面部检测是计算机视觉领域的一个关键任务,用于在图像或视频流中定位和识别人脸。Pigo库使用了...