`
小网客
  • 浏览: 1244056 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop在Mapper中获取当前操作文件的文件名

 
阅读更多

需求如下:

hadoop的MR执行时,有时候需要获取当前读取的文件名,如对qq聊天记录的分词解析,每个聊天记录的问题命名为qq1-qq2.txt用来表示qq1对qq2说的所有的聊天记录,那么当我们分词完成之后,需要入Hbase,这个时候rowkey为qq1-qq2,内容为语义分析的结果列表。

方案:

针对此操作需要获取当前读取的文件的路径或者直接读到文件名,从而得到文件名,实现如下:

String id = ((FileSplit) context.getInputSplit()).getPath().getName();

 

分享到:
评论

相关推荐

    Hadoop大数据期末考试重点

    《Hadoop大数据期末考试...以上是对Hadoop大数据期末考试重点内容的详细解读,涵盖了Hadoop的分布式文件系统HDFS、MapReduce计算模型以及相关配置和操作细节,考生需要对这些知识点有深入理解和掌握,以应对考试挑战。

    实战hadoop中的源码

    【标签】"实战hadoop"强调了实际操作的重要性,意味着这个主题不仅包含理论知识,还包含了在真实环境中运用Hadoop的实践案例。"源码"则表示我们将深入到Hadoop的底层实现,探究其实现细节。"刘鹏"作为标签,意味着这...

    大数据与云计算培训学习资料 Hadoop的MapReduce中多文件输出 共9页.pdf

    在Hadoop 0.19.x版本中,提供了一个名为`MultipleOutputFormat`的类,它允许MapReduce任务输出多个文件并自定义文件名。但是,从Hadoop 0.20.x开始,`MultipleOutputFormat`及其所在包的类被标记为"已过时",这意味...

    Hadoop实战源代码(HadoopinAction_source_code)

    - `listing-3-1`, `listing-3-2`, 和 `listing-3-3` 可能涵盖HDFS的文件操作,如读取、写入和文件系统管理,体现了Hadoop如何在分布式环境中存储大量数据。 3. **Hadoop配置**: - 文件名`listing-4-1`可能包含...

    windows下搭建hadoop开发环境

    文件名"hadop for windows"可能指的是Hadoop在Windows上的安装包。下载后,解压到一个适当的目录,例如"C:\hadoop",然后设置以下环境变量: - `HADOOP_HOME` 指向Hadoop的安装目录 - `PATH` 添加Hadoop的bin目录,...

    hadoop实验+作业.zip

    根据提供的文件名"分析-201806021513-刘一之--实验.docx"和"分析-201806021513-刘一之--作业.docx",我们可以推测这些文档可能包含了刘一之同学在2018年6月2日进行的Hadoop实验的详细步骤、数据分析结果以及作业解答...

    WordCount2_hadoopwordcount_

    在Hadoop生态系统中,`WordCount`程序是一个经典的示例,用于演示分布式计算的基本原理。在标题中的"WordCount2_hadoopwordcount_"可能指的是Hadoop WordCount的第二个版本,通常是在Hadoop 2.x环境下运行。这个程序...

    运行hadoop jar

    在给定的文件名列表中,`pom.xml`是Maven项目的配置文件,它定义了项目依赖、构建目标等信息。`src`目录通常包含Java源代码。 3. **配置Hadoop**:确保你的Hadoop环境已经正确配置,包括设置`hadoop.conf`目录中的...

    Java-org.apache.hadoop

    在`hadoop-core-0.20.2-320-sources.jar`这个文件中,我们可以找到源代码,这对于开发者来说非常有价值,因为它允许他们深入了解Hadoop的工作原理,调试问题,以及根据需要进行定制和扩展。 HDFS的主要组件包括...

    hadoop.contrib/lucene源码

    在IT领域,Hadoop和Lucene是两个非常重要的开源项目,它们分别在大数据处理和全文检索方面发挥着关键作用。本文将深入探讨标题为“hadoop.contrib/lucene源码”的主题,即如何在Hadoop MapReduce框架下利用Lucene来...

    [Hadoop实战].源代码

    在【压缩包子文件的文件名称列表】中,我们可以看到一系列以"listing-"开头的文件名,这些通常代表了书中不同章节的代码示例。例如: 1. `listing-2-1` 可能对应的是第二章的首个代码示例,可能涉及Hadoop的基本...

    传智黑马赵星老师hadoop七天课程资料笔记-第三天(全)

    5. **hadoop远程调试.txt** - 文件名暗示了如何远程调试Hadoop程序,这对于开发者在分布式环境中解决问题至关重要,可能涵盖了使用IDE(如Eclipse)的远程调试配置和技巧。 6. **MR执行流程笔记.txt** - MapReduce...

    Java实现Hadoop下词配对Wordcount计数代码实现

    在Mapper阶段,我们需要实现`map()`方法,它接收一个键值对(可能是文件名和文件内容),然后对每一行进行处理。处理包括去除标点符号(可以使用正则表达式),将单词转换为小写,并使用空格分隔。每个单词都会被...

    hadoop实现wordcount

    在这个项目中,我们将探讨如何使用Hadoop进行大规模文本数据的情感分析,并统计单词出现的频率。 MapReduce是Hadoop的核心组件之一,它将大型任务分解为小的子任务,这些子任务在分布式集群的不同节点上并行处理,...

    Hadoop大数据处理讲义-C3. Hadoop体系架构

    - **NameNode**:HDFS的主节点,负责管理文件系统的元数据,如文件名、文件位置和文件块的映射信息。 - **DataNodes**:HDFS的从节点,存储实际的数据块,并执行数据读写操作。每个DataNode会向NameNode报告其存储的...

    Hadoop海量数据处理

    本文将深入探讨Hadoop在海量数据处理中的核心概念、架构以及应用。 **Hadoop核心概念** 1. **分布式文件系统(HDFS)**: Hadoop的核心组件之一是Hadoop Distributed File System(HDFS),一个高度容错性的分布式...

    Hadoop-1.2.1 QQ推荐好友例子

    在Hadoop中,源码通常用于理解任务的执行流程,以及如何自定义Mapper和Reducer函数来处理特定问题。而“工具”可能指的是Hadoop生态系统中的辅助工具,如HDFS客户端、Hadoop命令行工具或数据导入导出工具。 压缩包...

    hadoop map-reduce中的文件并发操作

    在Hadoop MapReduce框架中,文件并发操作是一个关键特性,尤其在处理大量数据和文件时。MapReduce的主要功能是处理键值对数据,执行过滤、提取等运算,但它的高并发性使得它能够应对一些传统方法难以处理的问题,如...

    Hadoop实战].源代码.zip

    3. **HDFS操作**:文件名如listing-2-1和listing-2-2可能展示了HDFS的基本操作,如上传文件、下载文件、查看文件系统状态等。这些操作通常通过Hadoop的命令行接口或者Java API完成。 4. **MapReduce编程**:listing...

    hadoop入门教学代码

    以下是你可能会在"shizhan_03_hadoop"中的代码中接触到的HDFS操作: 1. **文件上传与下载**:HDFS提供API接口,使得应用程序可以方便地将本地文件系统上的文件上传到HDFS,或者从HDFS下载文件到本地。 2. **文件...

Global site tag (gtag.js) - Google Analytics