`
小网客
  • 浏览: 1244362 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop以某目录下的所有目录作为input源方式

 
阅读更多

需求:

hadoop执行mr的时候以时间为名称在某固定目录下生成数据文件,比如日志,那么在对此做分析的时候需要把此目录下的所有目录作为input数据源来操作。

实现:

构建Path[]来作为数据源核心代码:

Path inPath = new Path("/hadoop/bizlog/");
FileStatus[] status = hdfs.listStatus(inPath);
List<Path> list = new ArrayList<Path>();
for (FileStatus fileStatus : status) {
	if (hdfs.getFileStatus(fileStatus.getPath()).isDir()) {
		list.add(fileStatus.getPath());
	}
}
Path[] paths = new Path[list.size()];
list.toArray(paths);
TextInputFormat.setInputPaths(job, paths);

 

0
0
分享到:
评论

相关推荐

    hadoop windows安装目录下bin目录资源

    解压后 里面的压缩吧再次解压就是 hadoop windows安装目录下的资源,复制进去就好 ,附带windows用idea调试的博客链接

    hadoop/bin目录文件,含hadoop.dll + winutils.exe

    标题中的“hadoop/bin目录文件,含hadoop.dll + winutils.exe”指的是在Apache Hadoop 2.6.3版本中,位于bin目录下的两个关键文件:hadoop.dll和winutils.exe。这两个文件对于Windows用户来说是至关重要的,因为...

    Hadoop源代码分析(包mapreduce.lib.input)

    包mapreduce.lib.input的Hadoop源代码分析

    windows10环境下编译的hadoop的bin目录

    描述中提到的“直接将你的本地bin目录替换”,意味着你可以将编译好的Hadoop `bin`目录复制到你的Hadoop安装目录下,覆盖原有的`bin`目录。这样,你就可以在Windows 10环境下使用这些定制的Hadoop命令行工具了。 在...

    hadoop2.7.5 在windows下需要的hadoop.dll winutils.exe等文件(bin目录)

    在Hadoop的源代码中,它位于`src/main/native/windows`目录下,编译后会生成可执行文件。但是,Hadoop的默认发行版并不包含这个文件,因此在Windows上运行Hadoop时可能会报错。 为了解决这个问题,你需要从可靠的...

    史上最全--HADOOP权威指南 第3版带目录书签 完整版

    4. **YARN(Yet Another Resource Negotiator)**:作为Hadoop 2.x版本引入的新资源管理框架,YARN如何改进了原来的JobTracker,实现了更高效的任务调度和资源管理。 5. **数据处理与分析**:涵盖数据预处理、数据...

    hadoop 云平台搭建过程目录

    hadoop 云平台搭建过程目录

    hadoop-3.1.1 bin目录文件-含hadoop.dll、winutils

    标题中的“hadoop-3.1.1 bin目录文件”指的是Hadoop安装目录下的bin子目录,这个目录包含了Hadoop运行所需的各种可执行脚本。在Linux或Unix系统中,这些脚本用于启动、停止和管理Hadoop集群的各个组件,如HDFS...

    Hadoop源代码分析

    《Hadoop源代码分析》是一本深入探讨Hadoop核心组件MapReduce的专著。Hadoop是Apache软件基金会的一个开源项目,旨在提供分布式存储和计算框架,以处理和存储大量数据。MapReduce是Hadoop的核心计算模型,它通过将大...

    Hadoop datanode启动失败:Hadoop安装目录权限的问题

    一般情况下,Hadoop服务应该能够读写其安装目录内的文件。 - **定期检查权限设置**:定期检查Hadoop安装目录的权限设置,确保它们符合预期并能够支持服务的正常运行。 #### 五、扩展阅读与参考资料 - **Hadoop官方...

    hadoop 2.7.3 + Windows安装替换bin目录文件

    在本文中,我们将深入探讨如何在Windows环境下安装和配置Hadoop 2.7.3,特别关注替换bin目录中的文件这一关键步骤。Hadoop是一个开源的分布式计算框架,由Apache软件基金会开发,它允许在廉价硬件上处理和存储大量...

    hadoop2.7.3 for win10 64位 bin目录

    在Windows下面使用Hadoop Java API进行开发的时候需要编译Windows版本的Hadoop,然后把下载的Hadoop/bin目录替换掉。这个资源是Windows10 64位系统下编译的hadoop 2.7.3的bin目录。下载后即可替换使用。

    java通过api方式操作Hadoop

    该资源是java通过api的方式来操作hadoop,主要有以下操作: 一.文件操作 1.上传本地文件到hadood ...3.读取某个目录下的所有文件 三.hdfs信息 1.查找某个文件在HDFS集群中位置 2.获取HDFS集群上所有名称节点信息

    Hadoop搭建的源代码.doc

    这里我们将深入探讨基于Hadoop 2.7版本的源代码搭建过程中,涉及到的主要配置文件`core-site.xml`和`hdfs-site.xml`的配置细节。 首先,`core-site.xml`文件主要负责设置Hadoop文件系统的默认行为。在提供的配置中...

    hadoop权威指南源代码

    源代码中包含的例子可能涉及到如何调整参数、优化数据块大小、选择合适的压缩算法等,以提升Hadoop的运行效率。 总的来说,"tomwhite-hadoop-book-src"这个压缩包内的源代码是学习Hadoop理论知识与实践经验的宝贵...

    window上安装hadoop,直接替换bin目录,通用2.8以下所有版本

    5. **替换bin目录**: 这里提到的“直接替换bin目录”是指在某些情况下,你可能需要更新Hadoop的特定版本,但又不想重新配置所有环境。你可以下载新版本的Hadoop,只替换`bin`目录,因为这个目录包含了所有的可执行...

    ubuntu运行hadoop的wordcount

    - 使用Hadoop提供的`bin/hadoop jar`命令运行WordCount任务,将`input`目录作为输入源,`output`目录作为输出目标(注意:如果之前存在同名的输出目录,请先删除): ```bash bin/hadoop jar hadoop-0.20.2-...

    hadoop-2.0.4官方源代码

    【标签】"hadoop 源代码"进一步强调了我们讨论的主题,对于开发者和研究者来说,理解Hadoop的源代码是深入学习Hadoop工作原理、优化性能或进行定制化开发的关键。 在【压缩包子文件的文件名称列表】中,我们看到...

    hadoop实战源代码Java

    这个压缩包可能包含了这些源代码示例,如`shizhan_03_hadoop`,这可能是一个实战项目或教程的目录结构,里面可能包含多个Java类,展示了如何使用Hadoop API与HDFS通信。 1. **文件上传**:使用HDFS的`...

    hadoop winutils hadoop.dll

    这个工具通常位于Hadoop安装目录的bin子目录下,并且需要配置环境变量以便系统能够找到它。 **hadoop.dll** 是一个动态链接库文件,它包含了Hadoop在Windows系统中运行所需的特定功能。这个文件通常与winutils.exe...

Global site tag (gtag.js) - Google Analytics