pig:group by之后的其它统计方法一 - jamst - ITeye博客

`

scholltop

浏览: 305098 次
性别:
来自: 武汉

最近访客更多访客>>

地方疙瘩人

kodo521

猫狸粽子

wangyy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：
如何给新人机会
masuweng：
多sql结果集按列合并新结果报表实现方案
Ahe：赞
坚持长跑方能赢
masuweng：好好好
程序员如何更好的了解自己所做的事情
小楠人： laoguan123 写道楼主好，使用过一些excel导入导出 ...
excell导入导出

pig:group by之后的其它统计方法一

博客分类：

大数据

阅读更多

pig:group by之后的其它统计方法一

复制代码

1 --测试Top N后的其它统计
2 A = LOAD '/TraceParser/blackcore/' USING PigStorage() as (lk_id:chararray,host:chararray);
3 --DUMP A;
4
5 B = GROUP A BY lk_id;
6 B = FOREACH B GENERATE group as lk_id,COUNT($1) as amount;
7 --DUMP B;
8
9 --TOP N的数据集
10 C = ORDER B BY amount DESC;
11 C = LIMIT C 5;
12 --DUMP C;
13
14 --除TOP N后的数据集归并为其它
15 D = JOIN B BY lk_id LEFT OUTER,C BY lk_id;
16 --DESCRIBE D;
17 --DUMP D;
18 E = FILTER D BY C::lk_id is null OR C::lk_id == '';
19 --DUMP E;
20 E = FOREACH E GENERATE B::lk_id,B::amount;
21 --DESCRIBE E;
22 --SUM的用法？
23
24 --DUMP E;
25 --DUMP A;
26 H = JOIN E BY B::lk_id,A BY lk_id;
27 DESCRIBE H;
28 --H: {E::B::lk_id: chararray,E::B::amount: long,A::lk_id: chararray,A::host: chararray}
29 --DUMP H;
30 I = GROUP H all;
31 I = FOREACH I GENERATE '其它',COUNT($1) as amount;
32 DUMP I;
复制代码

分享到：

pig处理json格式数据，取top100 | ruby中一种很有意思的类方法调用方式

2014-10-16 15:39
浏览 921
评论(0)
分类:数据库
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop大数据技术-pig操作: 例如，LOAD用于加载数据，STORE用于保存结果，FOREACH用于迭代数据，GROUP用于分组，JOIN用于连接不同表，FILTER用于筛选数据，ORDER BY用于排序，以及各种内置函数如COUNT、SUM、AVG等用于统计计算。 2. **数据...

7.Hadoop入门进阶课程_第7周_Pig介绍、安装与应用案例.pdf: 通过上述内容，我们不仅了解了Pig的基本概念和使用方法，还学会了如何在实际环境中搭建Pig环境以及如何利用Pig进行数据分析。这对于希望深入学习Hadoop生态系统并掌握大数据处理技术的学习者来说是非常有价值的。

基于PigLatin语言的海量数据分析: Pig 提供了一种名为 PigLatin 的数据流语言，使用户能够更加便捷地执行复杂的数据处理任务。本文旨在探讨基于 PigLatin 语言的海量数据分析技术及其应用场景。 #### 二、PigLatin语言简介 PigLatin 是一种面向数据...

HIVE资料.zip: 4. **与其他系统集成**：如与Pig、HBase、Spark等的集成使用。 5. **Hive与Hadoop生态系统**：理解Hive在Hadoop生态中的角色和与其他组件的交互。总之，Hive是大数据分析的重要工具，对于理解和处理大规模数据集...

Hive 编程指南: - **查询数据**：使用HQL进行数据查询，支持JOIN、GROUP BY、HAVING等复杂操作。 - **更新与删除**：Hive不支持直接更新和删除记录，但可以通过INSERT OVERWRITE重写数据。 6. **性能优化**： - **分区裁剪**：...

Hive介绍(百度): Hive设计的主要目标是为结构化的数据文件提供一个简化的数据查询方法，同时为数据分析人员提供一种熟悉且易于使用的接口，而无需了解底层复杂的MapReduce编程模型。 1. **什么是Hive？** Hive是一个建立在Hadoop...

hive学习笔记: 例如，HQL支持INSERT INTO（完整插入）和INSERT OVERWRITE（覆盖写入）操作，以及JOIN、GROUP BY、ORDER BY和窗口函数。 3. **表和分区**：在Hive中，数据被组织成表，可以进一步细分为分区。分区有助于提高查询...

Hive权威指南: 2. **HQL语法**：详细解析Hive Query Language，包括SELECT、FROM、WHERE、GROUP BY、JOIN等基本和高级查询操作。 3. **表和分区**：讨论Hive中的表创建、分区策略以及如何有效管理大量数据。 4. **数据类型和函数...

CA687I_Group_A_CloudApp: 2. **SQL 兼容性**：尽管 HiveQL 不完全符合标准 SQL，但它支持许多 SQL 功能，如 SELECT、FROM、WHERE、GROUP BY 和 JOIN。 3. **分桶与分区**：Hive 提供了分桶和分区的概念，用于优化查询性能。分桶是将数据分布...

数据可视化: - **Cnt出现次数最多的4个值**：使用`GROUP BY`和`ORDER BY`语句找出数据集中出现次数最多的前四个值。 - **Cnt值从大到小排序**：对查询结果按照计数值降序排列。 - **某个字段出现的次数**：通过`COUNT`函数...

apache-hive文档: 例如，HQL支持的聚合函数有COUNT、SUM、AVG、MAX、MIN等，同时还有GROUP BY、JOIN、DISTRIBUTE BY、SORT BY等操作。HQL还提供了窗口函数和自定义函数（UDFs）以增强其功能。在Hive中，数据处理分为两个阶段：编译...

project1：Hive查询Wikimedia数据: 它支持常见的SQL语句，如SELECT、FROM、WHERE、GROUP BY等。 4. **Hive分区**：为了提高查询效率，Hive允许将大表按照特定列（通常是时间戳或地区等）进行分区。这样，只扫描相关分区的数据，而不是整个表。 5. **...

Global site tag (gtag.js) - Google Analytics