HadoopFileUtil

zhrglchp

浏览: 115334 次
性别:
来自: 北京

最近访客更多访客>>

linxl2011

gggfff39

7jkl

happyzhaow

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

import java.io.File;
import java.io.IOException;
import java.io.InputStream;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.FileUtil;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.util.GenericOptionsParser;
import org.apache.log4j.Logger;

public class HadoopFileUtil {
static Logger logger = Logger.getLogger(HadoopFileUtil.class);
/**
* @param args
*/
public static void main(String[] args) {
Configuration conf = new Configuration();
    String[] otherArgs = null;
try {
otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
    if (otherArgs.length != 2) {
      System.err.println("Usage: wordcount <in> <out>");
      System.exit(2);
    }
   String src=args[0];
   String dst=args[1];
   String tag=args[2];
   HadoopFileUtil util=new HadoopFileUtil();
   if(tag!=null&&tag.equals("1")){
    System.out.println(util.createFile(src, dst));
   }
   else{
    util.deleteFile(dst);
   }

}

/**
* 拷贝一个本地文件到hadoop里面
* @param localFile 本地文件和路径名
* @param hadoopFile hadoop文件和路径名
* @return
*/
public boolean createFile(String localFile,String hadoopFile){
try {
   Configuration conf=new Configuration();
   FileSystem src=FileSystem.getLocal(conf);
   FileSystem dst= FileSystem.get(conf);
   Path srcpath = new Path(localFile);
   Path dstpath = new Path(hadoopFile);
   FileUtil.copy(src, srcpath, dst, dstpath,false,conf);
} catch (Exception e) {
   e.printStackTrace();
   return false;
}

return true;
}

/**将一个流作为输入，生成一个hadoop里面的文件
* @param inStream 输入流
* @param hadoopFile hadoop路径及文件名字
* @return
*/
public boolean createFileByInputStream(InputStream inStream,String hadoopFile){
try {
   Configuration conf=new Configuration();
   FileSystem dst= FileSystem.get(conf);
   Path dstpath = new Path(hadoopFile);
   FSDataOutputStream oStream=dst.create(dstpath);
   byte[] buffer = new byte[400];
   int length = 0;
   while((length = inStream.read(buffer))>0){
    oStream.write(buffer,0,length);
   }
   oStream.flush();
   oStream.close();
   inStream.close();
} catch (Exception e) {
   e.printStackTrace();
   return false;
}
return true;
}
/**
* 删除hadoop里面的一个文件
* @param hadoopFile
* @return
*/
public boolean deleteFile(String hadoopFile){
try {
   Configuration conf=new Configuration();
   FileSystem dst= FileSystem.get(conf);
   FileUtil.fullyDelete(dst,new Path(hadoopFile));
} catch (Exception e) {
   e.printStackTrace();
   return false;
}

return true;
}
/**
* 从hadoop中读取一个文件流
* @param hadoopFile
* @return
*/
public FSDataInputStream getInputStream(String hadoopFile){
FSDataInputStream iStream=null;
try {
   Configuration conf=new Configuration();
   FileSystem dst= FileSystem.get(conf);
   Path p=new Path(hadoopFile);
   iStream=dst.open(p);
} catch (Exception e) {
   e.printStackTrace();
   logger.error("getInputStream error:", e);
}
return iStream;
}

}

分享到：

hadoop基础知识 | hadoop ExtendedFileUtil

2012-03-01 14:42
浏览 1841
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

外加热强制循环蒸发器装配图（CAD).rar: 外加热强制循环蒸发器装配图（CAD).rar

数控车床纵向进给系统设计.zip: 数控车床纵向进给系统设计.zip

vault_side_off_ominous.png: j

爬虫 bangumi名称和评论数: 爬虫 bangumi名称和评论数

基于SpringBoot的垃圾分类回收系统(源码+数据库+万字文档)526: 基于SpringBoot的垃圾分类回收系统，系统包含两种角色：管理员、用户主要功能如下。【用户功能】首页：浏览垃圾分类回收系统信息。个人中心：管理个人信息，查看历史记录和订单状态。运输管理：查看运输信息，垃圾回收的时间和地点。公告管理：阅读系统发布的相关通知和公告。垃圾回收管理：查看垃圾回收的信息，回收类型和进度。垃圾出库申请管理：提交和查看垃圾出库申请的状态。【管理员功能】首页：查看垃圾分类回收系统。个人中心：管理个人信息。管理员管理：审核和管理注册管理员用户的信息。用户管理：审核和管理注册用户的信息。运输管理：监管和管理系统中的运输信息。公告管理：发布、编辑和删除系统的通知和公告。垃圾回收管理：监管和管理垃圾回收的信息。垃圾出库申请管理：审批和管理用户提交的垃圾出库申请。基础数据管理：管理系统的基础数据，运输类型、公告类型和垃圾回收类型。二、项目技术编程语言：Java 数据库：MySQL 项目管理工具：Maven 前端技术：Vue 后端技术：SpringBoot 三、运行环境操作系统：Windows、macOS都可以 JDK版本：JDK1.8以上都可以开发工具：IDEA、Ecplise、Myecplise都可以数据库: MySQL5.7以上都可以 Maven：任意版本都可以

这篇文章是台湾大学（NTU）计算机科学与信息工程系（CSIE）2021年秋季学期算法设计与分析课程的第一份作业（Homework#1）的具体要求和题目描述以下是主要内容的总结：: 内容概要：本文档是台湾大学计算机科学与信息工程系2021年秋季学期《算法设计与分析》课程的第一次作业（Homework#1）。作业包含四道编程题和三道手写题，旨在考察学生对算法设计和分析的理解与应用能力。编程题涉及汉诺塔、数组计算、矩形点对、糖果分配等问题；手写题涵盖渐近符号证明、递归方程求解、幽灵腿游戏优化、不公平的卢卡斯问题等。文档详细描述了每个问题的具体要求、输入输出格式、测试用例以及评分标准。此外，还提供了编程技巧和注意事项，如避免延迟提交、正确引用资料、处理大输入文件等。适合人群：具备一定编程基础的本科生或研究生，特别是修读过或正在修读算法设计与分析相关课程的学生。使用场景及目标：①帮助学生巩固课堂所学的算法理论知识；②通过实际编程练习提高解决复杂问题的能力；③为后续更深入的学习和研究打下坚实的基础。其他说明：此作业强调团队合作和个人独立思考相结合的重要性，鼓励学生在讨论后用自己的语言表达解决方案，并注明参考资料。对于编程题，特别提醒学生注意输入文件可能较大，建议采取适当的优化措施以确保程序运行效率。

基于SpringBoot的铁路订票管理系统(源码+数据库+万字文档+ppt)528: 基于SpringBoot的铁路订票管理系统，系统包含两种角色：管理员、用户主要功能如下。【用户功能】首页：浏览铁路订票管理系统的主要信息。火车信息：查看火车的相关信息，包括车次、出发地、目的地和票价等。公告资讯：阅读系统发布的相关通知和资讯。后台管理：进行系统首页、个人中心、车票预订管理、车票退票管理等操作。个人中心：管理个人信息，查看订单历史记录等。【管理员功能】首页：查看铁路订票管理系统。个人中心：修改密码、管理个人信息。用户管理：审核和管理注册用户的信息。火车类型管理：管理系统中的火车类型信息。火车信息管理：监管和管理系统中的火车信息，添加、编辑、删除等。车票预订管理：处理用户的车票预订请求。车票退票管理：处理用户的车票退票请求。系统管理：管理系统的基本设置，公告资讯、关于我们、系统简介和轮播图管理。二、项目技术编程语言：Java 数据库：MySQL 项目管理工具：Maven 前端技术：Vue 后端技术：SpringBoot 三、运行环境操作系统：Windows、macOS都可以 JDK版本：JDK1.8以上都可以开发工具：IDEA、Ecplise、Myecplise都可以数据库: MySQL5.7以上都可以 Maven：任意版本都可以

塑料架注射模具设计.rar: 塑料架注射模具设计.rar

基于json文件数据驱动的的接口测试框架.zip: 基于json文件数据驱动的的接口测试框架

铁丝缠绕包装机设计-缠绕盘设计.rar: 铁丝缠绕包装机设计-缠绕盘设计.rar

Linux操作系统及常用命令详解.zip: linux

圆柱体相贯线焊接专机工作台设计.rar: 圆柱体相贯线焊接专机工作台设计.rar

硬币分拣机设计.rar: 硬币分拣机设计.rar

【机器学习与数据挖掘】行业级机器学习软件开发经验与教训：从LIBSVM和LIBLINEAR看算法部署及软件设计挑战: 内容概要：本文探讨了开发行业级机器学习和数据挖掘软件的经验与教训，指出当前研究界与工业界之间的脱节问题。作者分享了开发LIBSVM和LIBLINEAR的经验，强调了用户需求的重要性。大多数用户并非机器学习专家，期望简单易用的工具来获得良好结果。文章还详细介绍了支持向量机（SVM）的实际应用案例，包括数据预处理（如特征缩放）、参数选择等步骤，并提出了为初学者设计的简易流程。此外，作者讨论了在设计机器学习软件时应考虑的功能选择、选项数量、性能优化与数值稳定性等问题，强调了软件开发与实验代码的区别以及鼓励研究人员参与高质量软件开发的重要性。适合人群：对机器学习软件开发感兴趣的科研人员、工程师及从业者，尤其是那些希望了解如何将学术研究成果转化为实际可用工具的人士。使用场景及目标：①帮助非机器学习专家的用户更好地理解和使用机器学习方法；②指导开发者在设计机器学习软件时考虑用户需求、功能选择、性能优化等方面的问题；③促进学术界与工业界之间的合作，推动高质量机器学习软件的发展。其他说明：本文不仅提供了具体的开发经验和技巧，还呼吁建立激励机制，鼓励更多研究人员投入到机器学习软件的开发中，以解决当前存在的研究与应用脱节的问题。

pandas学习代码，jypyter格式: 一天入门pandas代码

joblib-0.12.0-py2.py3-none-any.whl: 该资源为joblib-0.12.0-py2.py3-none-any.whl，欢迎下载使用哦！

深度学习基于PyTorch==2.6.0和Transformers==4.48.0的XTuner环境配置：AI模型开发与优化依赖库列表: 内容概要：本文档《xtuner_requirements.txt》列出了用于支持特定项目（可能是机器学习或深度学习项目）运行所需的所有Python包及其版本。其中不仅包括常见的数据处理和科学计算库如numpy、pandas，还包括了与深度学习密切相关的库如torch、transformers等。值得注意的是，文档中还特别指定了NVIDIA CUDA相关组件的具体版本，确保了GPU加速环境的一致性和兼容性。此外，文档中也包含了从GitHub直接安装的xtuner库，明确了具体的提交哈希值，保证了代码来源的精确性。适合人群：对机器学习、深度学习领域有一定了解并需要搭建相应开发环境的研发人员，尤其是那些希望复现特定实验结果或基于已有模型进行二次开发的研究者和技术爱好者。使用场景及目标：①帮助开发者快速搭建完整的开发环境，确保所有依赖项正确无误；②为研究人员提供一个稳定的实验平台，以便于重复实验和验证结果；③作为项目协作的基础，确保团队成员之间的环境一致性，减少因环境差异带来的问题。阅读建议：由于该文档主要为技术性依赖列表，在阅读时应重点关注所需安装的库及其版本号，特别是CUDA相关组件和自定义库（如xtuner）的安装方式。对于非技术人员而言，可能需要额外查阅相关资料来理解各库的作用。同时，在实际操作过程中，建议按照文档中的顺序逐一安装依赖，避免版本冲突等问题的发生。

vault_side_on_ominous.png: j

液氮带控制点工艺流程图.rar: 液氮带控制点工艺流程图.rar

joblib-0.9.4-py2.py3-none-any.whl: 该资源为joblib-0.9.4-py2.py3-none-any.whl，欢迎下载使用哦！

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HadoopFileUtil

评论

发表评论

相关推荐

mapreduce Bet

hadoop 输出格式

hadoop mapreduce 原理

hadoop搭建问题

hadoop输出文件格式

hadoop 学习

hadoop提高性能建议

hadoop例子

hadoop

Hadoop Hive与Hbase整合

hive hadoop 代码解析

Hadoop MapReduce操作MySQL

hadoop hdfs常用操作类

hdfs 操作类自己的

hadoo 文件常用操作

Mapper,Reducer,Wrapper的Java模板

hadoop基础知识

hadoop 自己封装的接口

hadoop ExtendedFileUtil

hadoop StringUtil

最近访客更多访客>>