pig:group by之后的其它统计方法一
复制代码
1 --测试Top N后的其它统计
2 A = LOAD '/TraceParser/blackcore/' USING PigStorage() as (lk_id:chararray,host:chararray);
3 --DUMP A;
4
5 B = GROUP A BY lk_id;
6 B = FOREACH B GENERATE group as lk_id,COUNT($1) as amount;
7 --DUMP B;
8
9 --TOP N的数据集
10 C = ORDER B BY amount DESC;
11 C = LIMIT C 5;
12 --DUMP C;
13
14 --除TOP N后的数据集归并为其它
15 D = JOIN B BY lk_id LEFT OUTER,C BY lk_id;
16 --DESCRIBE D;
17 --DUMP D;
18 E = FILTER D BY C::lk_id is null OR C::lk_id == '';
19 --DUMP E;
20 E = FOREACH E GENERATE B::lk_id,B::amount;
21 --DESCRIBE E;
22 --SUM的用法?
23
24 --DUMP E;
25 --DUMP A;
26 H = JOIN E BY B::lk_id,A BY lk_id;
27 DESCRIBE H;
28 --H: {E::B::lk_id: chararray,E::B::amount: long,A::lk_id: chararray,A::host: chararray}
29 --DUMP H;
30 I = GROUP H all;
31 I = FOREACH I GENERATE '其它',COUNT($1) as amount;
32 DUMP I;
复制代码
分享到:
相关推荐
例如,LOAD用于加载数据,STORE用于保存结果,FOREACH用于迭代数据,GROUP用于分组,JOIN用于连接不同表,FILTER用于筛选数据,ORDER BY用于排序,以及各种内置函数如COUNT、SUM、AVG等用于统计计算。 2. **数据...
通过上述内容,我们不仅了解了Pig的基本概念和使用方法,还学会了如何在实际环境中搭建Pig环境以及如何利用Pig进行数据分析。这对于希望深入学习Hadoop生态系统并掌握大数据处理技术的学习者来说是非常有价值的。
Pig 提供了一种名为 PigLatin 的数据流语言,使用户能够更加便捷地执行复杂的数据处理任务。本文旨在探讨基于 PigLatin 语言的海量数据分析技术及其应用场景。 #### 二、PigLatin语言简介 PigLatin 是一种面向数据...
4. **与其他系统集成**:如与Pig、HBase、Spark等的集成使用。 5. **Hive与Hadoop生态系统**:理解Hive在Hadoop生态中的角色和与其他组件的交互。 总之,Hive是大数据分析的重要工具,对于理解和处理大规模数据集...
- **查询数据**:使用HQL进行数据查询,支持JOIN、GROUP BY、HAVING等复杂操作。 - **更新与删除**:Hive不支持直接更新和删除记录,但可以通过INSERT OVERWRITE重写数据。 6. **性能优化**: - **分区裁剪**:...
Hive设计的主要目标是为结构化的数据文件提供一个简化的数据查询方法,同时为数据分析人员提供一种熟悉且易于使用的接口,而无需了解底层复杂的MapReduce编程模型。 1. **什么是Hive?** Hive是一个建立在Hadoop...
例如,HQL支持INSERT INTO(完整插入)和INSERT OVERWRITE(覆盖写入)操作,以及JOIN、GROUP BY、ORDER BY和窗口函数。 3. **表和分区**:在Hive中,数据被组织成表,可以进一步细分为分区。分区有助于提高查询...
2. **HQL语法**:详细解析Hive Query Language,包括SELECT、FROM、WHERE、GROUP BY、JOIN等基本和高级查询操作。 3. **表和分区**:讨论Hive中的表创建、分区策略以及如何有效管理大量数据。 4. **数据类型和函数...
2. **SQL 兼容性**:尽管 HiveQL 不完全符合标准 SQL,但它支持许多 SQL 功能,如 SELECT、FROM、WHERE、GROUP BY 和 JOIN。 3. **分桶与分区**:Hive 提供了分桶和分区的概念,用于优化查询性能。分桶是将数据分布...
- **Cnt出现次数最多的4个值**:使用`GROUP BY`和`ORDER BY`语句找出数据集中出现次数最多的前四个值。 - **Cnt值从大到小排序**:对查询结果按照计数值降序排列。 - **某个字段出现的次数**:通过`COUNT`函数...
例如,HQL支持的聚合函数有COUNT、SUM、AVG、MAX、MIN等,同时还有GROUP BY、JOIN、DISTRIBUTE BY、SORT BY等操作。HQL还提供了窗口函数和自定义函数(UDFs)以增强其功能。 在Hive中,数据处理分为两个阶段:编译...
它支持常见的SQL语句,如SELECT、FROM、WHERE、GROUP BY等。 4. **Hive分区**:为了提高查询效率,Hive允许将大表按照特定列(通常是时间戳或地区等)进行分区。这样,只扫描相关分区的数据,而不是整个表。 5. **...