Hadoop Pig获取HDFS文件名 - The Big Data Way - ITeye博客

`

heipark

浏览: 2097007 次
性别:
来自: 北京

最近访客更多访客>>

chenlmnet

ninedragon

w11h22j33

lbyzx123

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

伍大都督：解释太到位了，感谢分享
理解Linux系统中的load average（图文版）
rfjian123：非常感谢，用你的方法解决了问题。
Server sent unexpected return value (403 Forbidden) in response to OPTIONS
yuhaifei12：今天遇到同样的问题了。设置的是每分钟执行一次。结果发现每分钟执 ...
解决Linux下crontab同一时间重复执行问题
BigBird2012：想问一下，使用ExecutorService每次都要调用 sh ...
spring quartz使用多线程并发“陷阱”
zhuqx1130：有用，谢谢
解决Sublime Text 3中文显示乱码（tab中文方块）问题

Hadoop Pig获取HDFS文件名

博客分类：

hadoop

阅读更多

A = LOAD 'input' using PigStorage(',','-tagsource');

B = foreach A generate $0;

PigStorage构造函数第一个参数是分隔符，第二个参数如果为“-tagsource”则会在A第一列放置文件名信息。

参考：http://pig.apache.org/docs/r0.11.0/api/org/apache/pig/builtin/PigStorage.html

分享到：

强制Java使用东八时区方法 | 查看文件中不可见字符

2013-11-15 08:37
浏览 3217
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

第03节：hadoop精讲之hdfs详解.rar: - 大规模数据分析：如Apache Hadoop上的MapReduce，或者Spark、Pig、Hive等工具。 - 流式数据处理：例如实时日志分析。 - 存储非结构化数据：如图像、视频、音频等。作为数据架构师，理解和掌握HDFS的原理和...

MR处理HDFS日志样例: 7. **Hadoop生态工具**：除了基本的MapReduce，Hadoop生态系统还包括其他工具，如Hive（用于数据仓库和SQL查询）、Pig（高级数据分析语言）、Spark（更快速的批处理和实时处理框架）等，它们可以与MapReduce结合，...

hadoop-scripts:回购与我的Hadoopsie.com博客相关的脚本。其中可能包含Hive，Pig，HDFS，Bash，Spark，Python以及与Hadoop生态圈相关的任何其他语言: 2. **Pig**：Pig是Hadoop上的一个数据流处理平台，它提供了一种高级的编程语言（Pig Latin）来构建大型数据处理作业。这里的脚本可能涉及数据转换、清洗和分析。 3. **HDFS**：Hadoop分布式文件系统（HDFS）是...

Hadoop源代码分析: 5. **Hadoop生态环境**：除了HDFS和MapReduce，Hadoop生态系统还包括Pig、Hive、HBase、Spark等工具，它们共同构成了大数据处理的完整框架。理解这些工具如何与Hadoop协同工作，有助于提升整体解决方案的效率。 6. ...

hadoop-2.7.7.zip(windows 用): Hadoop的生态系统还包括其他组件，如Hive（数据仓库工具）、Pig（数据分析平台）、Spark（快速大数据处理框架）等，它们共同构建了一个强大的大数据处理平台。总之，这个“hadoop-2.7.7.zip”压缩包为Windows用户...

hadoop毅哥的压缩包.7z: 6. **Hadoop生态系统**：Hadoop并不只是一个单独的工具，它有一个庞大的生态系统，包括HBase（分布式数据库）、Hive（数据仓库工具）、Pig（数据分析平台）等，这些工具通常与Hadoop一起使用，以构建大数据处理解决...

Hadoop大数据处理讲义-C3. Hadoop体系架构: Hadoop生态包括众多工具和框架，如Hive（SQL-like查询）、Pig（数据分析）、Spark（快速计算）、HBase（NoSQL数据库）等，它们共同构建了一个完整的数据处理平台。总结来说，Hadoop通过HDFS、MapReduce和YARN提供...

Hadoop技术-Hadoop架构简介.pptx: Hadoop架构简介主要包括HDFS、MapReduce、Yarn、HBase、Hive、Pig、Mahout、ZooKeeper、Flume和Sqoop等组件。 HDFS（Hadoop Distributed File System）是Hadoop项目的核心组件，对海量数据进行存储与管理，实现将...

Hadoop实战源代码（HadoopinAction_source_code）: 《Hadoop实战源代码》（HadoopinAction_source_code）是针对大数据处理框架Hadoop的一份珍贵资源，其中包含了从知名书籍《Hadoop in Action》官网获取的实际代码示例。这些示例涵盖了Hadoop的核心组件及其应用，为...

2022毕业设计，基于 Hadoop 的游戏数据分析系统源码.zip: Hadoop的核心组件包括HDFS（Hadoop Distributed File System）和MapReduce，它们分别负责数据存储和并行计算。在这个系统中，可能包含对日志数据的处理，比如登录信息、玩家活动、游戏内购买等，以便挖掘出有价值的...

Hadoop Share: 压缩包内的文件名 "Hive_learn.key" 提示我们重点会聚焦在Hive上，Hive是基于Hadoop的数据仓库工具，能够将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。它适合大规模数据集的离线批处理分析。现在，...

Java-org.apache.hadoop: Hadoop生态还包括HBase（一个分布式数据库）、Hive（一个数据仓库工具）、Pig（一个数据分析平台）等。总的来说，Java-org.apache.hadoop涉及到的知识点广泛且深入，包括分布式系统基础、HDFS的架构和操作、...

hadoop官方文档: 同时，Hadoop与Spark、Hive、Pig等工具结合，可构建更高效的数据处理流水线。五、源码分析对于想要深入了解Hadoop的开发者，阅读源码是不可或缺的步骤。Hadoop的源码清晰地展示了其内部机制，包括数据存储、任务...

8天Hadoop大数据: 虽然没有具体的文件名，但可以推测其中可能包括了各个主题的视频讲座、PPT课件、示例代码、阅读材料等，这些内容将按照8天的学习计划进行组织，每天可能涵盖一个或多个关键知识点，例如Hadoop的安装与配置、HDFS的...

Hadoop气象数据: 1. **Hadoop生态系统**：Hadoop不仅包括HDFS（Hadoop分布式文件系统）用于存储数据，还有MapReduce用于并行处理数据，以及YARN作为资源管理系统。在这个项目中，这些组件协同工作，处理大量气象观测数据。 2. **...

Hadoop海量数据处理: 4. **Hadoop生态组件**: Hadoop生态系统包括众多项目如HBase（分布式NoSQL数据库）、Hive（数据仓库工具）、Pig（高级数据流语言）、Spark（快速通用的大数据处理引擎）等，它们共同扩展了Hadoop的功能。 **Hadoop...

hadoop-windows本地库版: 文件名"hadoop-2.8.1"表明这是Hadoop的2.8.1版本。每个Hadoop版本都可能包含性能改进、新功能和错误修复。例如，2.8.1版本可能会改进HDFS的稳定性，优化MapReduce的效率，或者增加对新硬件和软件技术的支持。在...

hadoop-demo: 至于文件名"hadoopSecond"，这可能是一个目录或文件，表示这是第二个Hadoop相关的练习或者项目，可能是在前一个示例的基础上进行了更深入的学习和实践，例如，可能涉及更复杂的数据处理逻辑，或者引入了Hadoop生态...

[Hadoop实战].源代码: 例如，`listing-10-1`可能涉及到高级话题，如Hadoop生态系统的其他组件（如Hive、Pig或Spark）的集成，或者数据流处理优化。在Hadoop实战过程中，理解每个示例的上下文和目标至关重要。这些代码不仅演示了如何解决...

Global site tag (gtag.js) - Google Analytics