HDFS中PathFilter类对路径进行过滤

退役的龙弟弟

浏览: 457446 次
性别:
来自: 北京

最近访客更多访客>>

cuker919

hui963966800

xyz86868

一个java程序员

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

1、定义类实现PathFilter接口

package com.ru.hadoop.wordcount;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.PathFilter;

/**
 * 文件路径过滤
 * @author nange
 *
 */
public class MyFilePathFileter implements PathFilter{
	//需要读取文件名必须包含fileName字符串
	private String fileName;
	
	public MyFilePathFileter(String fileName){
		this.fileName = fileName;
	}

	/**
	 * @param path :文件路径 如：hdfs://localhost:9000/hdfs/test/wordcount/in/word.txt
	 */
	@Override
	public boolean accept(Path path) {
		boolean res = false;
		if(path.toString().indexOf(fileName) != -1){
			res = true;
		}
		System.out.println("path = " + path + "过滤结果：" + res);
		return res;
	}

}

2、使用FileSystema提供globStatus（）方法对文件路径进行过滤

/**
	 * 对文件路径进行过滤
	 * FileSystema提供globStatus（）方法对文件路径进行过滤，这里的路径必须是hdfs路径
	 * 
	 * @param in : 使用通配符 如：hdfs://localhost:9000/hdfs/test/wordcount/in/*
	 * @throws IOException 
	 */
	public String filePaths(String in) throws IOException{
		StringBuilder sb = new StringBuilder();
		//globStatus()方法返回与路径想匹配的所有文件的FileStatus对象数组，并按路径排序。
		FileStatus[] fss = fs.globStatus(new Path(in), new MyFilePathFileter("in/word"));
		Path[] paths = FileUtil.stat2Paths(fss);
		if(paths != null){
			for(Path path : paths){
				sb.append(path.toString() + ",");
			}
		}
		int index = sb.toString().lastIndexOf(",");
 		if(index != -1){
 			System.out.println("过滤后的文件路径：" + sb.toString().substring(0, index));
 			return sb.toString().substring(0, index);
		}
		
		return null;
	}

3、作业多路径输入

fileInPaths：字符串使用","分割.如：hdfs://localhost:9000/hdfs/test/wordcount/in/word.txt,hdfs://localhost:9000/hdfs/test/wordcount/in/word2.txt

FileInputFormat.addInputPaths(job, fileInPaths);//多输入路径

分享到：

hadoop小文件处理以及解决方案（压缩技术） | Hadoop DistributedCache详解

2014-04-24 14:58
浏览 5873
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

熟练掌握HDFS的Java API接口访问: - **配置读取**：通过`Configuration`类读取HDFS的相关配置信息。 - **文件系统获取**： - 如果未指定`HDFSUri`，则尝试获取默认的文件系统实例； - 如果指定了`HDFSUri`，则通过URI构造一个特定的文件系统实例。 ...

mozillazg_python-pinyin_1741402107.zip: python学习资源

jfinal-undertow 用于开发、部署由 jfinal 开发的 web 项目: jfinal-undertow 用于开发、部署由 jfinal 开发的 web 项目

基于Andorid的音乐播放器项目设计（国外开源）.zip: 基于Andorid的音乐播放器项目设计（国外开源）实现源码，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者，也可作为课程设计、期末大作业。

编程语言_Python_魔法方法_实用指南_1741403704.zip: python学习资源

egrcc_zhihu-python_1741402151.zip: python学习资源

Python开发_机器学习_自动化处理_项目演示_1741398786.zip: python学习一些项目和资源

【毕业设计】java-springboot+vue家具销售平台实现源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计】java-springboot+vue家具销售平台实现源码（完整前后端+mysql+说明文档+LunW）.zip

淘立方销售网站（HTML开发）: HTML+CSS+JavaScarip开发的前端网页源代码

NET集成Python引擎技术_PythonNet_多语言开_1741400058.zip: python学习资源

【毕业设计】java-springboot-vue健身房信息管理系统源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计】java-springboot-vue健身房信息管理系统源码（完整前后端+mysql+说明文档+LunW）.zip

成绩管理系统C/Go 大学生期末小作业，指针实现，C语言版本(ANSI C)和Go语言版本: 成绩管理系统C/Go。大学生期末小作业，指针实现，C语言版本(ANSI C)和Go语言版本

1_基于大数据的智能菜品个性化推荐与点餐系统的设计与实现.docx: 1_基于大数据的智能菜品个性化推荐与点餐系统的设计与实现.docx

【毕业设计】java-springboot-vue交流互动平台实现源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计】java-springboot-vue交流互动平台实现源码（完整前后端+mysql+说明文档+LunW）.zip

高并发秒杀抢购系统选型与库存管理机制分析: 内容概要：本文主要探讨了在高并发情况下如何设计并优化火车票秒杀系统，确保系统的高性能与稳定性。通过对比分析三种库存管理模式（下单减库存、支付减库存、预扣库存），强调了预扣库存结合本地缓存及远程Redis统一库存的优势，同时介绍了如何利用Nginx的加权轮询策略、MQ消息队列异步处理等方式降低系统压力，保障交易完整性和数据一致性，防止超卖现象。适用人群：具有一定互联网应用开发经验的研发人员和技术管理人员。使用场景及目标：适用于电商、票务等行业需要处理大量瞬时并发请求的业务场景。其目标在于通过合理的架构规划，实现在高峰期保持平台的稳定运行，保证用户体验的同时最大化销售额。其他说明：文中提及的技术细节如Epoll I/O多路复用模型以及分布式系统中的容错措施等内容，对于深入理解大规模并发系统的构建有着重要指导意义。

基于 OpenCV 和 PyTorch 的深度车牌识别: 基于 OpenCV 和 PyTorch 的深度车牌识别

【毕业设计-java】springboot-vue教学资料管理系统实现源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计-java】springboot-vue教学资料管理系统实现源码（完整前后端+mysql+说明文档+LunW）.zip

出租车行程详细信息的数据集（1048K+记录，5特征）CSV: 此数据集包含有关出租车行程的详细信息，包括乘客人数、行程距离、付款类型、车费金额和行程时长。它可用于各种数据分析和机器学习应用程序，例如票价预测和乘车模式分析。

调用DeepSeek的VBA代码: 把代码放到Word中，通过开发工具——Visual Basic——插入模块，粘贴在里在，把在硅基流动中申请的API放到VBA代码中。在Word中，选择一个问题，运行这个DeepSeekV3的宏就可以实现在线问答

【毕业设计】java-springboot+vue机动车号牌管理系统实现源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计】java-springboot+vue机动车号牌管理系统实现源码（完整前后端+mysql+说明文档+LunW）.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HDFS中PathFilter类对路径进行过滤

评论

发表评论

相关推荐

MapReduce编程接口体系结构

hadoop优化

hadoop小文件处理以及解决方案（压缩技术）

mapreduce单元测试

Hadoop DistributedCache详解

mapreduce的reduce输出文件进行压缩

hadoop1.2.1 MultipleOutputs将结果输出到多个文件或文件夹

hadoop调度器

HDFS block块的副本存放策略

mapreduce驱动默认设置

mapreduce数据类型与java数据类型对应

MapReduce执行流程

hadoop常用指令

hdfs 架构

hadoop查看和离开安全模式

hbase的常用指令

hbase0.96.1.1安装配置

hadoop1.2.1安装配置

hadoop2.2.0伪分布式安装

eclipse远程连接hadoop服务器

最近访客更多访客>>