在UDF中经常会读取和返回tuple对象,在单元测试中也会使用tuple做数据准备。tuple内部的数据结构是一个ArrayList,它使用方法有两种:
方法一
Tuple tuple = TupleFactory.getInstance().newTuple(); String line = "xxxxx"; tuple.append(line);
append方法实际调用List的add方法。
方法二(推荐)
Tuple tuple = TupleFactory.getInstance().newTuple(1); String line = "xxx"; tuple.set(0, line);
第二种方法是被推荐的。method文档如下:
Tuple org.apache.pig.data.TupleFactory.newTuple(int size)
Create a tuple with size fields. Whenever possible this is preferred over the null constructor, as the constructor can preallocate the size of the container holding the fields. Once this is called, it is legal to call Tuple.set(x, object), where x < size.
Specified by: newTuple(...) in TupleMaker
Parameters:
size Number of fields in the tuple.
Returns:
Tuple with size fields
Create a tuple with size fields. Whenever possible this is preferred over the null constructor, as the constructor can preallocate the size of the container holding the fields. Once this is called, it is legal to call Tuple.set(x, object), where x < size.
Specified by: newTuple(...) in TupleMaker
Parameters:
size Number of fields in the tuple.
Returns:
Tuple with size fields
注意:如果要使用方法二,就不能使用append,必须要使用set方法设置值。
相关推荐
在Hadoop平台上,Pig是一种高级脚本语言,用于处理和分析大数据。Pig允许用户执行复杂的...对于希望在Hadoop上进行高效数据处理的开发者和数据分析师来说,Pig提供了一个比传统的MapReduce编程更为简单和直观的方法。
在 CDH4.1.2 版本中使用这些 UDF 时,你需要确保与该版本兼容的 Hadoop 和 Pig 相关库。如果要在其他版本的 CDH 中使用,需要替换工程文件中的两个 jar 包,以匹配目标环境的版本。通常,这些 jar 包包含了 Pig 和 ...
它的核心语言Pig Latin提供了一种结构化查询语言,简化了在Hadoop生态系统中进行大数据分析的编程工作。Hadoop MapReduce虽然强大,但直接编写Map和Reduce函数需要一定的编程经验。Pig Latin通过抽象出更高层次的...
### 大数据之pig命令详解 #### 一、Pig简介及与Hive的比较 Pig是一款基于Hadoop的数据处理工具,...通过掌握Pig的基本命令和使用方法,开发者可以更高效地处理大规模数据集,从而更好地支持数据分析和决策制定工作。
### Apache Pig的基础概念及用法总结 ...掌握其基础概念和使用方法对于从事大数据分析的人来说至关重要。通过本文的介绍,希望读者能够对Pig的基本原理和操作有更深的理解,为今后的数据分析工作打下坚实的基础。
Pig程序通常在Hadoop环境中运行,与Hadoop的底层实现细节隔离,用户无需直接编写Map和Reduce任务。 Pig的基础概念包括关系(Relation)、包(Bag)、元组(Tuple)、字段(Field)和数据(Data)。 - 关系...
Pig Latin是Apache Hadoop生态系统中的一个数据处理框架,它允许用户通过简单的高级语言(称为Pig Latin)来编写数据处理任务,而不是直接操作MapReduce。Pig Latin提供了抽象,简化了大数据分析过程,使得非Java...
Pig Latin是Hadoop生态系统中的一个数据处理语言,提供了高级数据处理功能。 以下是HDFS、HBase Shell和Pig Latin的常用命令: HDFS常用命令: 1. 将磁盘上的文件放到HDFS上:Hadoop fs -put /local /hdfs 2. 将...
在IT行业中,"ycdh-pig:YCDH 猪" 可能是指一个特定的项目或软件,其中"ycdh"可能是项目或团队的缩写,而"pig"通常与Apache Pig有关,这是一种用于大数据处理的高级脚本语言。Apache Pig是Apache软件基金会的一个开源...
- 如列表(list)、元组(tuple)、字典(dict)等。 - **Python函数** - 函数是一段可重用的代码块。 - 可以接受参数并返回结果。 - **Python类与对象** - 类定义了对象的属性和行为。 - 对象是类的实例。 - *...