`

pig过滤A表中有B表中无的数据实例

 
阅读更多
--加载数据文件
events_raw_short = load '$EVT_RECENT_FILES' using PigStorage('\u0001') as (
 id:chararray,
 event_id:int,
 valid_flag:int
);
--时间过滤

events_raw_short = filter events_raw_short by e_date >= '$EVTLKBK' ;

--events_raw_short与converted_events做聚合运算

events_cgrpd = cogroup events_raw_short by id, converted_events by eventdata_id;

--过滤出A表中有B表中无的数据

events_ajnd = filter events_cgrpd by IsEmpty(converted_events);

--加载过滤数据

events_fltnd = foreach events_ajnd generate FLATTEN(events_raw_short);

--遍历实例化

events = foreach events_fltnd generate
 id as  id,
 event_id as  event_id,
 valid_flag as  valid_flag

0
0
分享到:
评论

相关推荐

    pig编程指南中的样例脚本、UDF、数据集

    Pig是Hadoop生态系统中的一个高级数据处理工具,其设计目标是简化大规模数据集的分析任务,通过提供一种类似SQL的高级语言——Pig Latin,使得数据科学家和工程师能够更高效地处理海量数据。 样例脚本在学习Pig时起...

    pig编程指南源码

    源码中的示例可能包括不同格式的数据输入输出,如CSV、JSON或自定义格式,这有助于我们理解Pig的灵活性。 四、自定义函数(UDFs) Pig Latin虽然强大,但有时仍需自定义函数来实现特定的业务逻辑。Pig支持两种类型...

    大数据之pig 命令

    - **Load**:用于加载数据到Pig中,例如`A = load 'a.txt' as (id:int, name:chararray);`。 - **Describe**:类似于SQL中的DESCRIBE命令,用于查看关系的元数据。 - **Group**:用于对数据进行分组处理,如`B = ...

    《数据采集与预处理》教学教案—08用Pig进行数据预处理.pdf

    1. 载入和存储:Pig中有两种基本操作:载入和存储。载入是指从文件系统或其他存储介质中载入数据到一个relation中,而存储是指保存relation到文件系统或其他存储介质中。 2. 过滤:Pig提供了FILTER运算符,用于根据...

    pig官方基础教程

    学习Pig的过程中,用户将会学会如何定义数据模式,如何将数据加载到Pig中进行转换,并最终将处理后的数据存储回HDFS或导出到外部系统。 通过Pig基础教程,用户将能够掌握Pig的主要概念和操作,为进一步学习Pig的...

    buliding\horse\pig\rabbit\table\wolf等各种点云数据集pcd文件

    在这个压缩包中,包含了一系列与不同对象相关的点云数据,如建筑物(buliding)、马(horse)、猪(pig)、兔子(rabbit)、桌子(table)以及狼(wolf)。这些点云数据集被存储为PCD(Point Cloud Data)文件格式,...

    Pig Latin: A Not-So-Foreign Language for Data Processing

    ### Pig Latin:一种用于数据处理的“非外语” #### 概述 《Pig Latin: A Not-So-Foreign Language for Data Processing》是一篇由Christopher Olston、Benjamin Reed、Utkarsh Srivastava、Ravi Kumar以及Andrew ...

    pig-0.9.2.tar.gz下载

    在Pig-0.9.2版本中,对Map-Reduce的优化和性能提升有了显著的进步,包括更有效的数据分区、内存管理优化以及错误恢复机制的改进。 3. **Pig-0.9.2版本亮点**: - **性能增强**:此版本着重于性能的优化,通过改进...

    基于Pig__Spark的分布式数据分析处理平台.pdf

    本文是关于如何利用Spark的内存计算特性与Pig的数据处理语言相结合,共同打造一个更为高效的大数据分布式分析处理平台。首先,本文提出传统基于MapReduce的Pig数据分析平台在处理大数据时存在的一些问题,如高延迟和...

    pig源码0.15版

    Pig是Apache Hadoop项目中的一个高级数据流语言和执行框架,主要用于处理大规模数据集。Pig 0.15版是Pig发展过程中的一个重要里程碑,它的源码为我们提供了深入理解大数据处理框架内部机制的机会。对于初学者来说,...

    pig的源码包

    Pig是Apache Hadoop生态系统中的一个数据处理框架,它提供了一种高级的编程语言——Pig Latin,用于编写大规模的数据处理作业。源码包是理解Pig工作原理、扩展功能和优化性能的最佳途径。本文将基于"Pig的源码包"这...

    Apache Hadoop---Pig.docx

    Apache Hadoop 中的 Pig 是一个强大的分布式数据分析引擎,专门设计用于处理大规模数据集。Pig 构建在 Hadoop 平台上,通过提供一个名为 Pig Latin 的高级抽象语言,简化了在 Hadoop 上进行数据分析的过程。Pig ...

    pig学习笔记

    通过这种方式,Pig 提供了比直接编写 **MapReduce** 代码更为直观且易于使用的界面,特别是在进行复杂的数据转换和过滤操作时。 #### Pig Latin:Pig的核心语言 - **Pig Latin** 是一种数据流语言,它允许用户用一...

    pig-0.7.0.tar.gz

    Pig是Apache Hadoop生态系统中的一个强大工具,专为大规模数据处理而设计。"pig-0.7.0.tar.gz"是一个包含Pig 0.7.0版本的压缩包,它的出现为我们提供了一个高效的、基于脚本语言的平台,用于构建大数据分析的应用...

    Programming Pig(pig编程).pdf

    Pig Latin的主要特点包括数据转换和过滤的高级抽象,例如使用LOAD语句读取数据、使用STORE语句输出数据、使用DUMP语句将结果输出到标准输出等。 此外,Pig还支持用户自定义函数(UDF),这使得Pig可以扩展使用Java...

    HADOOP 系统之hadoop pig hive 整合版

    在IT行业中,Hadoop、Hive和Pig是大数据处理领域的三大重要工具,它们共同构建了一个高效、可扩展的数据处理框架。以下是对这些技术的详细解释: **Hadoop** 是一个开源的分布式计算框架,由Apache软件基金会开发。...

    Pig Programming

    通过Pig,我们可以将NoSQL数据库中的数据提取出来,进行深度分析,然后将结果返回到NoSQL数据库,形成一个完整的数据处理流程。 总的来说,Pig编程提供了一个高效、灵活的框架,用于在Hadoop上处理和分析NoSQL...

    Apache Pig的性能优化.pdf

    根据给定的文件信息,我们可以深入探讨Apache Pig的性能优化及其在大数据处理中的角色与优势。首先,让我们从Apache Pig的基本概念入手。 ### Apache Pig概述 Apache Pig是一种高生产力的数据流语言和执行框架,...

    完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 08 Pig安装与Pig Latin语言,应用案例 共2

    这可能包括从大规模日志文件中提取特定信息,分析用户行为,进行市场趋势预测,或者在多表之间进行复杂的数据关联。这些案例将帮助学员理解Pig在大数据分析中的实用性和灵活性。 最后,课程可能还会讨论Pig的性能...

Global site tag (gtag.js) - Google Analytics