`
小网客
  • 浏览: 1249005 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop在Mapper中获取当前操作文件的文件名

 
阅读更多

需求如下:

hadoop的MR执行时,有时候需要获取当前读取的文件名,如对qq聊天记录的分词解析,每个聊天记录的问题命名为qq1-qq2.txt用来表示qq1对qq2说的所有的聊天记录,那么当我们分词完成之后,需要入Hbase,这个时候rowkey为qq1-qq2,内容为语义分析的结果列表。

方案:

针对此操作需要获取当前读取的文件的路径或者直接读到文件名,从而得到文件名,实现如下:

String id = ((FileSplit) context.getInputSplit()).getPath().getName();

 

分享到:
评论

相关推荐

    Hadoop大数据期末考试重点

    《Hadoop大数据期末考试...以上是对Hadoop大数据期末考试重点内容的详细解读,涵盖了Hadoop的分布式文件系统HDFS、MapReduce计算模型以及相关配置和操作细节,考生需要对这些知识点有深入理解和掌握,以应对考试挑战。

    实战hadoop中的源码

    【标签】"实战hadoop"强调了实际操作的重要性,意味着这个主题不仅包含理论知识,还包含了在真实环境中运用Hadoop的实践案例。"源码"则表示我们将深入到Hadoop的底层实现,探究其实现细节。"刘鹏"作为标签,意味着这...

    大数据与云计算培训学习资料 Hadoop的MapReduce中多文件输出 共9页.pdf

    在Hadoop 0.19.x版本中,提供了一个名为`MultipleOutputFormat`的类,它允许MapReduce任务输出多个文件并自定义文件名。但是,从Hadoop 0.20.x开始,`MultipleOutputFormat`及其所在包的类被标记为"已过时",这意味...

    windows下搭建hadoop开发环境

    文件名"hadop for windows"可能指的是Hadoop在Windows上的安装包。下载后,解压到一个适当的目录,例如"C:\hadoop",然后设置以下环境变量: - `HADOOP_HOME` 指向Hadoop的安装目录 - `PATH` 添加Hadoop的bin目录,...

    hadoop实验+作业.zip

    根据提供的文件名"分析-201806021513-刘一之--实验.docx"和"分析-201806021513-刘一之--作业.docx",我们可以推测这些文档可能包含了刘一之同学在2018年6月2日进行的Hadoop实验的详细步骤、数据分析结果以及作业解答...

    WordCount2_hadoopwordcount_

    在Hadoop生态系统中,`WordCount`程序是一个经典的示例,用于演示分布式计算的基本原理。在标题中的"WordCount2_hadoopwordcount_"可能指的是Hadoop WordCount的第二个版本,通常是在Hadoop 2.x环境下运行。这个程序...

    运行hadoop jar

    在给定的文件名列表中,`pom.xml`是Maven项目的配置文件,它定义了项目依赖、构建目标等信息。`src`目录通常包含Java源代码。 3. **配置Hadoop**:确保你的Hadoop环境已经正确配置,包括设置`hadoop.conf`目录中的...

    Java-org.apache.hadoop

    在`hadoop-core-0.20.2-320-sources.jar`这个文件中,我们可以找到源代码,这对于开发者来说非常有价值,因为它允许他们深入了解Hadoop的工作原理,调试问题,以及根据需要进行定制和扩展。 HDFS的主要组件包括...

    hadoop.contrib/lucene源码

    在IT领域,Hadoop和Lucene是两个非常重要的开源项目,它们分别在大数据处理和全文检索方面发挥着关键作用。本文将深入探讨标题为“hadoop.contrib/lucene源码”的主题,即如何在Hadoop MapReduce框架下利用Lucene来...

    传智黑马赵星老师hadoop七天课程资料笔记-第三天(全)

    5. **hadoop远程调试.txt** - 文件名暗示了如何远程调试Hadoop程序,这对于开发者在分布式环境中解决问题至关重要,可能涵盖了使用IDE(如Eclipse)的远程调试配置和技巧。 6. **MR执行流程笔记.txt** - MapReduce...

    Java实现Hadoop下词配对Wordcount计数代码实现

    在Mapper阶段,我们需要实现`map()`方法,它接收一个键值对(可能是文件名和文件内容),然后对每一行进行处理。处理包括去除标点符号(可以使用正则表达式),将单词转换为小写,并使用空格分隔。每个单词都会被...

    hadoop实现wordcount

    在这个项目中,我们将探讨如何使用Hadoop进行大规模文本数据的情感分析,并统计单词出现的频率。 MapReduce是Hadoop的核心组件之一,它将大型任务分解为小的子任务,这些子任务在分布式集群的不同节点上并行处理,...

    Hadoop权威指南(中文版).pdf

    1. NameNode:Hadoop集群的主节点,负责管理文件系统的元数据,如文件名、文件位置等,确保数据的高效访问。 2. DataNode:集群中的工作节点,存储HDFS的数据块,并负责数据读写和复制。 3. Secondary NameNode:...

    Hadoop大数据处理讲义-C3. Hadoop体系架构

    - **NameNode**:HDFS的主节点,负责管理文件系统的元数据,如文件名、文件位置和文件块的映射信息。 - **DataNodes**:HDFS的从节点,存储实际的数据块,并执行数据读写操作。每个DataNode会向NameNode报告其存储的...

    Hadoop-1.2.1 QQ推荐好友例子

    在Hadoop中,源码通常用于理解任务的执行流程,以及如何自定义Mapper和Reducer函数来处理特定问题。而“工具”可能指的是Hadoop生态系统中的辅助工具,如HDFS客户端、Hadoop命令行工具或数据导入导出工具。 压缩包...

    hadoop map-reduce中的文件并发操作

    在Hadoop MapReduce框架中,文件并发操作是一个关键特性,尤其在处理大量数据和文件时。MapReduce的主要功能是处理键值对数据,执行过滤、提取等运算,但它的高并发性使得它能够应对一些传统方法难以处理的问题,如...

    hadoop入门教学代码

    以下是你可能会在"shizhan_03_hadoop"中的代码中接触到的HDFS操作: 1. **文件上传与下载**:HDFS提供API接口,使得应用程序可以方便地将本地文件系统上的文件上传到HDFS,或者从HDFS下载文件到本地。 2. **文件...

    hadoop开发者 前4期

    - **NameNode**:HDFS中的主节点,负责管理文件系统的元数据,如文件名、文件位置等。 - **DataNode**:HDFS中的工作节点,存储数据块,并负责数据读写操作。 - **ResourceManager**:YARN(Yet Another Resource...

    Hadoop源代码分析

    1. **NameNode**:作为HDFS的主节点,NameNode负责管理文件系统的元数据,如文件名、文件块列表及其在DataNode上的位置。它维护一个FsImage(文件系统元数据的持久化存储)和EditLog(记录所有更改操作的日志)。 2...

    Hadoop_web.rar

    "集群调用" 标签则表明该应用可能涉及到在Hadoop集群中的节点间进行通信和数据传输,这通常涉及到Hadoop的分布式文件系统(HDFS)和YARN(Yet Another Resource Negotiator)资源调度器。 从压缩包内的文件名 ...

Global site tag (gtag.js) - Google Analytics