wangjin161

浏览: 176252 次
性别:
来自: 北京

最近访客更多访客>>

gaojingsong

wolfwood

ldwnt

a755292832

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Hadoop＿Map中获取当前spilt文件名

博客分类：

hadoop

Hadoop＿Map中获取当前spilt文件名

分类： hadoop mapreduce2012-07-18 09:59 3223人阅读评论(0) 收藏举报

hadoopstringmapreducepath测试

有时候需要在Map类中的map函数中获取当前split所读取的文件名。

在旧版mapred下面实现方法如下：

// 获得输入文件的路径名
String path=((FileSplit)reporter.getInputSplit()).getPath().toString();

//使用Reporter reporter对象来获取，在新版mapreduce中，

Reporter reporter被封装在类MapContext中（StatusReporter reporter），

在map函数中就是Context context，实现方法应该类似，有兴趣的朋友可以试试。

-----------分割线----------->

import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

InputSplit inputSplit = context.getInputSplit();
String fileName = ((FileSplit) inputSplit).getPath().toString();

刚刚搜索了下，新版中实现如下（转载，未测试，方法应该正确）

以下转载：

在mapper中获取当前正在处理的HDFS文件名/HDFS目录名

有时候，Hadoop是按行来对数据进行处理的，由于对每一行数据，map()函数会被调用一次，我们有时可以根据文件名/目录名来获取一些信息，从而把它们输出，例如，目录名中包含了日期，则我们可以取出来并输出到Reducer。在map()函数中，我们可以这样取文件名：

InputSplit inputSplit = context.getInputSplit();
String fileName = ((FileSplit) inputSplit).getName();

假设当前正在处理的HDFS文件路径为：/user/hadoop/abc/myFile.txt，则上面的 fileName 取到的是“myFile.txt”这样的字符串。但如果要获取其目录名“abc”，则可以这样做：

InputSplit inputSplit = context.getInputSplit();
String dirName = ((FileSplit) inputSplit).getPath().getParent().getName();
 

分享到：

MapReduce，组合式，迭代式，链式（转载） | shell 日期

2014-06-11 11:57
浏览 953
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop＿Map中获取当前spilt文件名

Hadoop＿Map中获取当前spilt文件名

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop＿Map中获取当前spilt文件名

Hadoop＿Map中获取当前spilt文件名

评论

发表评论

相关推荐

Hadoop如何计算map数和reduce数

hadoop之MapReduce自定义二次排序流程实例详解

hadoop fs -count的结果含义

Hadoop源代码分析（MapTask辅助类 I）

MapReduce源码分析之MapTask分析

MapReduce源码分析之MapTask分析(二)

MapReduce源码分析之MapTask分析

MapReduce源码分析之架构分析1

mapreduce二次排序原理讲解

hadoop shell 命令详

MapReduce任务参数调优

hadoop distributecache新api与旧api用法

hadoop作业调优参数整理及原理

Mapreduce多目录/多文件输出

探索Hadoop OutputFormat

MapReduce设置参数防止超时

开发MapReduce常见问题

Yarn的JVM重用功能——uber

MapReduce执行过程

总结hadoop mapreduce job添加第三方依赖的方法

最近访客更多访客>>