Hadoop 2.x的DistributedCache无法工作的问题

longzhun

浏览: 376153 次
性别:
来自: 北京

最近访客更多访客>>

popchild

lp164042318

promiseloney

必逍遥

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

现象：和这个帖子描述的一样，简单说来就是，在Hadoop 2.x上，用新的DistributedCache的API，在mapper中会获取不到这个cache文件。
下面就详细地描述一下新旧API的用法区别以及解决办法。

『1』旧API
将HDFS文件添加到distributed cache中：

Configuration conf = job.getConfiguration();

DistributedCache.addCacheFile(new URI(inputFileOnHDFS), conf);  // add file to distributed cache

其中，inputFileOnHDFS是一个HDFS文件的路径，也就是你要用作distribute cache的文件的路径，例如 /user/codelast/123.txt
在mapper的setup()方法中：

Configuration conf = context.getConfiguration();
Path[] localCacheFiles = DistributedCache.getLocalCacheFiles(conf);

readCacheFile(localCacheFiles[0]);

其中，readCacheFile()是我们自己的读取cache文件的方法，可能是这样做的（仅举个例子）：

private static void readCacheFile(Path cacheFilePath) throws IOException {

  BufferedReader reader = new BufferedReader(new FileReader(cacheFilePath.toUri().getPath()));

  String line;

  while ((line = reader.readLine()) != null) {

    //TODO: your code here

  }

  reader.close();
}

文章来源：http://www.codelast.com/
『2』新API
上面的代码中，addCacheFile() 方法和 getLocalCacheFiles() 都已经被Hadoop 2.x标记为 @Deprecated 了。
因此，有一套新的API来实现同样的功能，这个链接里有示例，我在这里再详细地写一下。
将HDFS文件添加到distributed cache中：

job.addCacheFile(new Path(inputFileOnHDFS).toUri());

在mapper的setup()方法中：

Configuration conf = context.getConfiguration();
URI[] localCacheFiles = context.getCacheFiles();

readCacheFile(localCacheFiles[0]);

其中，readCacheFile()是我们自己的读取cache文件的方法，可能是这样做的（仅举个例子）：

private static void readCacheFile(URI cacheFileURI) throws IOException {

  BufferedReader reader = new BufferedReader(new FileReader(cacheFileURI.getPath()));

  String line;

  while ((line = reader.readLine()) != null) {

    //TODO: your code here

  }

  reader.close();
}

但是就像文章开头的那个链接里所描述的问题一样，你可能会发现 context.getCacheFiles() 总是返回null，也就是你无法读到cache文件。
这个问题有可能是这个bug造成的，你可以对比一下你的Hadoop版本。
文章来源：http://www.codelast.com/
『3』解决办法
（1）打patch
（2）升级Hadoop版本
（3）使用旧的DistributedCache API，经测试OK

如果还是不行的话，请参考以下方式：

job.addCacheFile(new URI("/user/mart_coo/gis/mapreduce/input/addressindex.txt#local"));

@Override
protected void setup(
        Mapper<LongWritable, Text, Text, Text>.Context context)
        throws IOException, InterruptedException {
    if (context.getCacheFiles() != null
&& context.getCacheFiles().length > 0) {
        readCacheFile("./local");
        
}
    super.setup(context);
}

分享到：

MapReduce: 提高MapReduce性能的七点建议 ... | 浅析Mapper类之setup()和cleanup()方法

2015-11-04 09:24
浏览 895
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

my document: 综上所述，无论是 Hadoop 1.x 还是 2.x 版本，Job 的提交流程都包括了从客户端提交作业、资源文件的上传与管理、作业的调度与执行等多个环节。不同版本之间的主要区别在于 2.x 版本引入了 YARN 架构，从而实现了资源...

我的面试题: ### Hadoop Job 提交流程详解 #### Hadoop 1.x 版本的 ...通过以上两个版本的详细对比分析，我们可以看出 Hadoop 2.x 版本通过引入 YARN 架构，实现了更灵活的资源管理和调度功能，从而提高了系统的整体性能和扩展性。

Hadoop Map Reduce教程: - **YARN**：YARN (Yet Another Resource Negotiator) 是 Hadoop 2.x 版本引入的新资源管理系统，它使得 Hadoop 集群能够运行多种类型的计算任务。 - **Hive**：Hive 是一个数据仓库工具，允许用户通过 SQL 查询来...

各种集群框架知识扩展.pdf: YARN的产生解决了Hadoop 1.x版本中JobTracker瓶颈问题。YARN的架构包括ResourceManager、NodeManager和ApplicationMaster。YARN运行application的流程涉及到资源请求、任务调度、应用程序的提交和执行、以及...

外加热强制循环蒸发器装配图（CAD).rar: 外加热强制循环蒸发器装配图（CAD).rar

数控车床纵向进给系统设计.zip: 数控车床纵向进给系统设计.zip

vault_side_off_ominous.png: j

爬虫 bangumi名称和评论数: 爬虫 bangumi名称和评论数

基于SpringBoot的垃圾分类回收系统(源码+数据库+万字文档)526: 基于SpringBoot的垃圾分类回收系统，系统包含两种角色：管理员、用户主要功能如下。【用户功能】首页：浏览垃圾分类回收系统信息。个人中心：管理个人信息，查看历史记录和订单状态。运输管理：查看运输信息，垃圾回收的时间和地点。公告管理：阅读系统发布的相关通知和公告。垃圾回收管理：查看垃圾回收的信息，回收类型和进度。垃圾出库申请管理：提交和查看垃圾出库申请的状态。【管理员功能】首页：查看垃圾分类回收系统。个人中心：管理个人信息。管理员管理：审核和管理注册管理员用户的信息。用户管理：审核和管理注册用户的信息。运输管理：监管和管理系统中的运输信息。公告管理：发布、编辑和删除系统的通知和公告。垃圾回收管理：监管和管理垃圾回收的信息。垃圾出库申请管理：审批和管理用户提交的垃圾出库申请。基础数据管理：管理系统的基础数据，运输类型、公告类型和垃圾回收类型。二、项目技术编程语言：Java 数据库：MySQL 项目管理工具：Maven 前端技术：Vue 后端技术：SpringBoot 三、运行环境操作系统：Windows、macOS都可以 JDK版本：JDK1.8以上都可以开发工具：IDEA、Ecplise、Myecplise都可以数据库: MySQL5.7以上都可以 Maven：任意版本都可以

这篇文章是台湾大学（NTU）计算机科学与信息工程系（CSIE）2021年秋季学期算法设计与分析课程的第一份作业（Homework#1）的具体要求和题目描述以下是主要内容的总结：: 内容概要：本文档是台湾大学计算机科学与信息工程系2021年秋季学期《算法设计与分析》课程的第一次作业（Homework#1）。作业包含四道编程题和三道手写题，旨在考察学生对算法设计和分析的理解与应用能力。编程题涉及汉诺塔、数组计算、矩形点对、糖果分配等问题；手写题涵盖渐近符号证明、递归方程求解、幽灵腿游戏优化、不公平的卢卡斯问题等。文档详细描述了每个问题的具体要求、输入输出格式、测试用例以及评分标准。此外，还提供了编程技巧和注意事项，如避免延迟提交、正确引用资料、处理大输入文件等。适合人群：具备一定编程基础的本科生或研究生，特别是修读过或正在修读算法设计与分析相关课程的学生。使用场景及目标：①帮助学生巩固课堂所学的算法理论知识；②通过实际编程练习提高解决复杂问题的能力；③为后续更深入的学习和研究打下坚实的基础。其他说明：此作业强调团队合作和个人独立思考相结合的重要性，鼓励学生在讨论后用自己的语言表达解决方案，并注明参考资料。对于编程题，特别提醒学生注意输入文件可能较大，建议采取适当的优化措施以确保程序运行效率。

基于SpringBoot的铁路订票管理系统(源码+数据库+万字文档+ppt)528: 基于SpringBoot的铁路订票管理系统，系统包含两种角色：管理员、用户主要功能如下。【用户功能】首页：浏览铁路订票管理系统的主要信息。火车信息：查看火车的相关信息，包括车次、出发地、目的地和票价等。公告资讯：阅读系统发布的相关通知和资讯。后台管理：进行系统首页、个人中心、车票预订管理、车票退票管理等操作。个人中心：管理个人信息，查看订单历史记录等。【管理员功能】首页：查看铁路订票管理系统。个人中心：修改密码、管理个人信息。用户管理：审核和管理注册用户的信息。火车类型管理：管理系统中的火车类型信息。火车信息管理：监管和管理系统中的火车信息，添加、编辑、删除等。车票预订管理：处理用户的车票预订请求。车票退票管理：处理用户的车票退票请求。系统管理：管理系统的基本设置，公告资讯、关于我们、系统简介和轮播图管理。二、项目技术编程语言：Java 数据库：MySQL 项目管理工具：Maven 前端技术：Vue 后端技术：SpringBoot 三、运行环境操作系统：Windows、macOS都可以 JDK版本：JDK1.8以上都可以开发工具：IDEA、Ecplise、Myecplise都可以数据库: MySQL5.7以上都可以 Maven：任意版本都可以

塑料架注射模具设计.rar: 塑料架注射模具设计.rar

基于json文件数据驱动的的接口测试框架.zip: 基于json文件数据驱动的的接口测试框架

铁丝缠绕包装机设计-缠绕盘设计.rar: 铁丝缠绕包装机设计-缠绕盘设计.rar

Linux操作系统及常用命令详解.zip: linux

圆柱体相贯线焊接专机工作台设计.rar: 圆柱体相贯线焊接专机工作台设计.rar

硬币分拣机设计.rar: 硬币分拣机设计.rar

【机器学习与数据挖掘】行业级机器学习软件开发经验与教训：从LIBSVM和LIBLINEAR看算法部署及软件设计挑战: 内容概要：本文探讨了开发行业级机器学习和数据挖掘软件的经验与教训，指出当前研究界与工业界之间的脱节问题。作者分享了开发LIBSVM和LIBLINEAR的经验，强调了用户需求的重要性。大多数用户并非机器学习专家，期望简单易用的工具来获得良好结果。文章还详细介绍了支持向量机（SVM）的实际应用案例，包括数据预处理（如特征缩放）、参数选择等步骤，并提出了为初学者设计的简易流程。此外，作者讨论了在设计机器学习软件时应考虑的功能选择、选项数量、性能优化与数值稳定性等问题，强调了软件开发与实验代码的区别以及鼓励研究人员参与高质量软件开发的重要性。适合人群：对机器学习软件开发感兴趣的科研人员、工程师及从业者，尤其是那些希望了解如何将学术研究成果转化为实际可用工具的人士。使用场景及目标：①帮助非机器学习专家的用户更好地理解和使用机器学习方法；②指导开发者在设计机器学习软件时考虑用户需求、功能选择、性能优化等方面的问题；③促进学术界与工业界之间的合作，推动高质量机器学习软件的发展。其他说明：本文不仅提供了具体的开发经验和技巧，还呼吁建立激励机制，鼓励更多研究人员投入到机器学习软件的开发中，以解决当前存在的研究与应用脱节的问题。

pandas学习代码，jypyter格式: 一天入门pandas代码

joblib-0.12.0-py2.py3-none-any.whl: 该资源为joblib-0.12.0-py2.py3-none-any.whl，欢迎下载使用哦！

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论