`
zhangbaoming815
  • 浏览: 150087 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

pig的UDF函数的使用

阅读更多

<!-- @page { margin: 0.79in } P { margin-bottom: 0.08in } A:link { so-language: zxx } -->

pig 中使用 UDF 函数:

1 ,编写 UDF 函数:

 

import java.io.IOException;

import org.apache.pig.FilterFunc;
import org.apache.pig.data.Tuple;

public class IsGoodQuality extends FilterFunc{

	@Override
	public Boolean exec(Tuple tuple) throws IOException {
		if(tuple == null || tuple.size() == 0) {
			return false;
		}
		
		Object object = tuple.get(0);
		if(object == null) {
			return false;
		}
		int i = (Integer) object;
		return i == 1;
	}
}
 

2. UDF 函数打包成 jar

3. 告诉 pig 这个 jar 包的信息:

register /home/hadoop/Desktop/generate-lib/IsGoodQualityjar.jar

4. 使用这个函数:

filter_records =filter records by com.jdbc.IsGoodQuality(quality);

5. 查看结果:

dump filter_records;

6. 为自己写的 UDF 函数定义别名:

define IsGood com.jdbc.IsGoodQuality();

这里为自己写的 IsGoodQuality() 起别名为 IsGood;

7. 使用重新命令的函数:

filtered_records =filter records by IsGood(quality);

8. 查看效果:

dump filtered_records;

分享到:
评论

相关推荐

    pig udf 函数(urldecode row_number tomap)

    在 CDH4.1.2 版本中使用这些 UDF 时,你需要确保与该版本兼容的 Hadoop 和 Pig 相关库。如果要在其他版本的 CDH 中使用,需要替换工程文件中的两个 jar 包,以匹配目标环境的版本。通常,这些 jar 包包含了 Pig 和 ...

    pdi-pig-udfs:使用 Pentaho 数据集成的 Pig UDF 的集合

    标题 "pdi-pig-udfs" 指的是一个项目,它专注于在 Pentaho Data Integration(也称为 Kettle)中使用 Pig 用户定义函数(UDF)。Pentaho Data Integration 是一个强大的开源ETL(提取、转换、加载)工具,而 Pig 是 ...

    pig编程指南中的样例脚本、UDF、数据集

    在本书中,作者提供了丰富的样例脚本、用户定义函数(UDF)以及数据集,帮助读者理解并掌握Pig语言的精髓。Pig是Hadoop生态系统中的一个高级数据处理工具,其设计目标是简化大规模数据集的分析任务,通过提供一种...

    pig-udf:猪用UDF样本

    4. **调用UDF**:在Pig Latin脚本中,你可以像使用内置函数一样使用UDF,将其嵌入到各种操作中,如`FOREACH`、`FILTER`等。 三、项目“pig-udf-master”分析 虽然没有提供具体的源代码,但“pig-udf-master”项目很...

    pdi-bridge:一个项目,允许您轻松地将 Pentaho Data Integration 集成到您的应用程序中。 适用于 Pig UDF、Spark 函数等

    PDI Bridge项目则提供了一个桥梁,使得PDI的功能能够更方便地被其他应用程序,如Apache Pig的用户定义函数(UDF)和Apache Spark的函数所调用。 Apache Pig是一个用于分析大型数据集的平台,它使用自己的语言Pig ...

    pig源码0.15版

    2. **Pig UDF(用户定义函数)**: Pig支持用户自定义函数,以扩展其功能。源码中,UDF的注册、调用及执行流程清晰可见。这包括了对Java和Python UDF的支持,以及如何将UDF集成到Pig Latin语句中进行数据转换和处理...

    udf.zip_UDF案例_udf_udf模板

    UDF,全称为User Defined Function(用户自定义函数),在编程和数据分析领域中扮演着重要角色,尤其是在数据库管理系统、大数据处理框架如Hadoop的Hive、Pig或Spark SQL等中。UDF允许用户扩展系统功能,以满足特定...

    Pig编程指南

    《Pig编程指南》不仅为初学者讲解ApachePig的基础知识,同时也向有一定使用经验的高级用户介绍更加综合全面的Pig重要特性,如PigLatin脚本语言、控制台shell交互命令以及用于对Pig进行拓展的用户自定义函数(UDF)等。...

    pig官方基础教程

    Pig基础教程涵盖了Pig语言的基本概念、语法、数据类型、操作符和内置函数,这些都是使用Pig进行数据处理和分析的基础。 首先,教程中会介绍Pig Latin的基本语法约定。Pig Latin语法遵循一定的规则,例如,小括号“...

    pig java 编程jar包

    在Pig中,Java编程主要用于开发UDF(用户定义函数),这些函数可以是Java类,用于处理Pig无法直接处理的数据格式或业务逻辑。例如,如果你需要对数据进行特定的字符串处理或者应用复杂的数学计算,你可以编写一个...

    pig-0.7.0.tar.gz

    3. **UDF(用户定义函数)扩展**:0.7.0版本提供了更多的内置UDF,同时也支持用户自定义UDF,这极大地增强了Pig的功能性和灵活性。用户可以通过编写Java代码或使用其他语言(如Python或JavaScript)来扩展Pig的功能...

    pig的源码包

    同时,Pig还支持自定义函数(UDF),源码包中的FuncSpec和GenericUDF接口展示了如何扩展Pig的功能。 5. 执行模型:Pig的执行模型基于Hadoop,它将Pig Latin脚本转化为一系列的MapReduce作业。源码中,Executor和...

    Programming Pig(pig编程).pdf

    此外,Pig还支持用户自定义函数(UDF),这使得Pig可以扩展使用Java、Python、JavaScript等其他语言编写的函数,从而执行更复杂的数据处理任务。这为Pig提供了极大的灵活性和强大的处理能力。 最后,由于Pig与...

    pig-json:用于 Apache Pig 的 Mortar JSON 工具

    猪-json 用于 Apache Pig 的 Mortar JSON 工具。... 使用 pig-json 优于 Pig 的内置 JsonStorage 的好处是 pig-json 读取任意 JSON 数据而无需元数据文件,而 Pig 内置的 JsonStorage 只能读取它使

    Programming Pig Dataflow Scripting with Hadoop 2nd EditionPDF

    7. **Pig UDF开发**:用户定义函数(UDF)允许开发者扩展Pig的功能。书中可能会讲解如何创建Java或Python的UDF,以及如何在Pig脚本中调用它们。 8. **案例研究与实战项目**:为了巩固理论知识,书中可能会包含实际...

    Apache Pig的性能优化.pdf

    虽然用户定义函数(UDF)提供了灵活性,但过度使用会增加额外的开销。应谨慎选择何时何地使用UDF,并考虑其对性能的影响。 #### 7. 分析并优化执行计划 Pig提供了一种名为“DAG”(Directed Acyclic Graph)的图形...

    云计算PIG的使用.doc

    同时,Pig的UDF(用户定义函数)功能允许用户自定义处理逻辑,扩展其功能,以适应特定业务需求。 总的来说,云计算PIG通过Pig Latin简化了Hadoop上的大数据处理,使得非专业程序员也能高效地进行大数据分析。其直观...

    Hadoop大数据技术-pig操作

    例如,通过Hive的Pig UDF,可以在Pig中使用Hive的SQL查询功能。 总之,Hadoop上的Pig操作为大数据分析提供了强大且易用的工具,通过简单的Pig Latin脚本,用户可以高效地处理大规模数据,进行复杂的数据挖掘和分析...

Global site tag (gtag.js) - Google Analytics