spark实现hadoop中获取文件名的功能 -

字母哥

浏览: 70632 次
性别:
来自: 北京

最近访客更多访客>>

shansheng

iteakey

chiqiansunny

yanzuo2046

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

spark实现hadoop中获取文件名的功能

博客分类：

spark
hadoop

spark hadoop

hadoop1版本中提供了获取文件名的功能，就是在map阶段可以获取每一行记录属于哪个文件，可以得到这个文件名，代码如下：

//获取文件名
InputSplit inputSplit=(InputSplit)context.getInputSplit();
String filename=((FileSplit)inputSplit).getPath().getName();

这是hadoop1版本提供的方法。

对于spark也可以实现这个功能，使用的方式是本地测试的代码，spark在本地执行的，代码如下：

object Mytest3 {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf
    conf.setMaster("local[2]").setAppName("mytest")
    System.setProperty("hadoop.home.dir","E:\\hadoop2\\hadoop-2.6.0")
    val sc=new SparkContext(conf)
        
    val fileRDD=sc.hadoopFile[LongWritable, Text, TextInputFormat]("C:\\sparksplit\\*")
    
    val hadoopRdd = fileRDD.asInstanceOf[HadoopRDD[LongWritable, Text]]
    
    val fileAndLine = hadoopRdd.mapPartitionsWithInputSplit((inputSplit:InputSplit,iterator:Iterator[(LongWritable, Text)]) =>{
      val file = inputSplit.asInstanceOf[FileSplit]
      iterator.map(x=>{file.getPath.toString()+"\t"+x._2})
    } 
    )
    
    fileAndLine.foreach(println)
  }
}

这里要注意的是，引入的jar包不要错，错误的话，方法就会报错。引入的jar包是下面的：

import cn.wjpt.AuditLogManager
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat
import org.apache.hadoop.io.Text
import org.apache.hadoop.io.LongWritable
import org.apache.spark.rdd.HadoopRDD
import org.apache.hadoop.mapred.InputSplit
import org.apache.hadoop.mapred.FileSplit
import org.apache.hadoop.mapred.TextInputFormat

这样就搞定了。

1
顶

2
踩

分享到：

elasticsearch与spark，hbase等jar包冲 ... | linux的ntp服务器时间同步设置

2016-02-19 17:37
浏览 14779
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark实现hadoop中获取文件名的功能

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark实现hadoop中获取文件名的功能

评论

发表评论

相关推荐

spark参数设置

修改并编译spark源码

scala调用api操作elasticsearch时long类型问题解决

spark源码分析之SparkContext初始化一

Akka的生命周期

akka简单入门例子

spark重要的几个算子

elasticsearch与spark，hbase等jar包冲突导致报错问题

linux的ntp服务器时间同步设置

flume+kafka+sparkstreaming搭建整合

flume整合sparkstreaming

flume集群搭建

hadoop求最大值方法

hadoop处理前N个最值问题

hadoop处理手机流量小例子

最近访客更多访客>>