PIG 的几种 storage
PIG 现在除了默认的 PigStorage(对应使用制定分隔符分割的文本格式,默认为 tab) 以外还提供了
- BinStorage,默认情况下 map/reduce job 的存储方式,用户也可以使用(可以 load 也可以 store),builtin;
- JsonLoader/JsonStorage,前者需要指定 schema,builtin
- TextLoader 用来读入文本,每行一个 chararray,builtin
- AvroStorage(org.apache.pig.piggybank.storage.avro )用来读取和存储 avro 格式的文件,读取也需要 schema,或者指定或者有个 schema 文件
- CVSLoader(org.apache.pig.piggybank.storage)用来载入 CVS 文件
- DBStorage(org.apache.pig.piggybank.storage)用于写入 DB,需要指定数据库驱动和使用的 SQL 语句
- HadoopJobHistoryLoader(同上)呃,这也行…
- IndexedStorage(同上),支持 per-record seek 的存储
- MultiStorage(同上),产生多个 output directory,根据用户指定的规则进行拆分
- RegExLoader 与 MyRegExLoader(同上),根据 RE 对 log 进行分析
- SequenceFileLoader(同上),用来读取 sequence file
- XMLLoader(同上),用来 load XML 文件的内容,需要提供 schema。
- HBaseStorage(org.apache.pig.backend.hadoop.hbase)用来从 HBase 里面读入和写入数据
- HDataStorage(org.apache.pig.backend.hadoop.datastorage )看不出来干啥的…
- TableLoader/TableStorer(org.apache.hadoop.zebra.pig)用来处理 zebra 格式的数据,好像现在没啥人用了?
如果希望自己提供 storage 需要继承 LoadFunc/StoreFunc(其实都会构造 Reader/Writer 来完成实际的工作)和实现StoreFuncInterface。
转自:http://remonstrate.wordpress.com/2012/07/02/pig-%E7%9A%84%E5%87%A0%E7%A7%8D-storage/
相关推荐
Pig是Apache Hadoop生态系统中的一个数据处理框架,它提供了一种高级的编程语言——Pig Latin,用于编写大规模的数据处理作业。源码包是理解Pig工作原理、扩展功能和优化性能的最佳途径。本文将基于"Pig的源码包"这...
Pig Latin是Pig所使用的声明式数据流语言,它允许用户以一种接近SQL的方式描述数据处理任务。在Pig 0.15源码中,我们可以看到如何将Pig Latin语句转化为可执行的MapReduce任务的过程。这涉及到词法分析、语法分析...
在Hadoop平台上,Pig是一种高级脚本语言,用于处理和分析大数据。Pig允许用户执行复杂的转换和数据查询,这些操作原本需要使用Java MapReduce编程,而Pig通过提供一套数据流语言和执行框架,简化了这一过程。 Pig...
Pig Latin是Pig的核心语言,它是一种声明性语言,允许用户以高级抽象的方式描述数据处理任务,而无需关注底层的MapReduce实现。这种高层面的抽象使得非程序员也能轻松地进行大数据处理,极大地降低了大数据分析的...
Pig Latin是一种声明式语言,允许用户编写复杂的MapReduce作业,而无需关注底层的Java代码。例如,`LOAD`命令用于加载数据,`FILTER`用于过滤记录,`GROUP`用于按字段分组,`JOIN`用于合并数据,`FOREACH`用于迭代...
Apache Pig 是一个用于大数据分析的平台,它提供了一种高级语言 Pig Latin 来处理大规模数据集。Pig-0.17.0 是该平台的一个稳定版本,包含了多项优化和改进,适用于Hadoop生态系统中的数据处理任务。本文将详细介绍...
Apache Pig是Hadoop生态系统中的一个高级数据处理工具,它提供了一种面向用户的脚本语言,称为Pig Latin,用于构建Map-Reduce作业。Pig拉丁语简化了大数据处理的复杂性,使得那些对Java编程不太熟悉的开发者也能高效...
Pig是一款基于Hadoop的数据处理工具,它提供了一种高级语言(Pig Latin),使得用户能够更容易地处理大规模数据集。Pig的核心设计思想是为了简化大数据处理流程,通过其提供的简单易用的命令,用户无需深入了解...
【标题】"PIG微服务前后端源码"所涉及的知识点主要集中在微服务架构、前端开发和后端开发三个领域。PIG作为国内微服务热度最高的社区之一,其源码解析将帮助开发者深入理解微服务的设计理念和实现方式。 在微服务...
在IT行业中,Pig是Apache Hadoop项目的一部分,它提供了一种高级的、抽象的语言,称为Pig Latin,用于处理大规模数据集。Pig Java编程主要涉及到使用Java API与Pig Latin进行交互,以实现更灵活的数据处理需求。在本...
【标题】"pig-0.16.0.tar安装包" 涉及的主要知识点是Apache Pig的...总的来说,Pig提供了一种高级抽象,使得非Java程序员也能方便地处理大数据。通过学习和理解上述概念,你可以高效地使用Pig-0.16.0进行大数据分析。
Apache Pig是Hadoop生态系统中的一个高级数据处理工具,它提供了一种基于脚本语言的接口,使得用户可以更方便地进行大规模数据集的分析。Pig-0.9.1是Pig的一个早期版本,虽然相比当前的版本可能功能上有所限制,但在...
Pig Latin是一种娱乐性语言游戏,它根据特定规则改变英语单词的结构。以下是相关知识点: 1. **Pig Latin的转换规则**: - 对于以辅音开头的单词,将所有起始连续的辅音移到单词末尾,并添加后缀"ay"。例如:...
Pig提供了一种名为Pig Latin的脚本语言,它是一种并行数据流语言,可以用来描述数据的转换和处理过程。Pig Latin语言的设计哲学是以简单易学、扩展性强、且与Hadoop紧密集成著称,它的目的是简化并加速Hadoop上复杂...
Apache Pig 是一个用于大数据分析的平台,它提供了一种高级的编程语言——Pig Latin,使得数据处理变得更加简单和高效。标题“pig-0.15.0”表明我们讨论的是 Apache Pig 的一个重要版本,即0.15.0版。这一版本的发布...
Apache Pig 是一个用于大数据分析的平台,它提供了一种高级语言,称为Pig Latin,使得用户能够编写处理大量数据的复杂脚本,而无需关注底层的MapReduce实现。在Hadoop生态系统中,Pig常常用于数据清洗、转换和分析...
在图片尺寸变换方面,该工具提供了一种实用的方法来调整图片大小,这对于上传到不同平台(如社交媒体网站、电子邮件服务等)或者满足特定打印需求时非常有用。调整尺寸通常涉及到像素分辨率的改变,可能会涉及到比例...
它提供了一种类似于SQL的语言——Pig Latin,使得数据科学家和分析师能够更容易地处理和分析大量数据,而无需深入了解底层的MapReduce编程细节。Pig Latin允许用户通过简单的声明式语法来执行复杂的操作,如过滤、...
**Pig** 是一个在 **Hadoop** 平台上用于数据分析的高级工具,它提供了一种非程序化的数据流语言,称为 **Pig Latin** ,来处理大规模的数据集。Pig 的设计目的是为了简化 **MapReduce** 的复杂性,使得数据科学家和...