Hadoop的MR读取外部资源的方案 - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1250821 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

Hadoop的MR读取外部资源的方案

博客分类：

MapReduce

阅读更多

背景：

Hadoop在执行MR job的时候有时候需要访问一些资源，比如配置，共享数据文件等，那么实现的方案有如下几种：

第一种：基于三方数据源

1.存储在sql或者nosql(包括自身的hdfs)中然后在job的m或者r时根据需要读取相应的资源
2.存储在某网络处，基于tcp方式在需要的时候获取

第二种通过自身机制

1.org.apache.hadoop.conf.Configuration进行传输
1.1 conf.set(name, value) 
1.2 其他conf.set*()
2.DistributedCache，为分布式缓存
DistributedCache.addCacheFile(uri, conf)
DistributedCache.addCacheArchive(uri, conf)

数据量适中的情况下建议采用2，一次读多次用

1
顶

3
踩

分享到：

"Hadoop集群监控与Hive高可用"分享总结 | Java之异常处理

2013-09-16 10:24
浏览 1394
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

运营商大数据基础能力建设方案.docx: 浙江移动自主研发了云爬虫平台，用于获取外部数据，支持API访问的网站内容抓取，满足定制化需求，日采集URL可达1亿，处理请求超过1500万，日爬取数据量超2TB，涵盖工商企信、个人征信和POI等信息。此外，MR精准定位...

2021最新最全大数据面试宝典-有答案: HDFS读写流程：Hadoop分布式文件系统(HDFS)的读写流程包括客户端与NameNode通信获取文件元数据，读取数据时客户端与DataNode直接通信以获取数据块；写入数据时客户端首先在本地缓存数据，然后分块写入DataNode，并...

hmyjsmst.docx: YARN（Yet Another Resource Negotiator）是Hadoop生态系统中的一种资源管理器，它的核心思想是将资源管理和计算框架分离。YARN的设计目标是为了提高资源利用率以及支持多种计算框架。 - **YARN的架构** YARN...

运营商大数据基础能力建设方案.pdf: 浙江移动自研的云爬虫平台，能够高效地获取外部数据并进行自然语言处理，为数据分析提供了丰富的外部信息源。该平台每天可以处理大量URL，采集大量信息，比如工商企信、个人征信和POI（兴趣点）等。此外，MR精准定位...

2022最新大数据面试宝典.pdf: Hadoop 的核心组件包括 HDFS（Hadoop Distributed File System）、MapReduce 和 YARN（Yet Another Resource Negotiator）。 1.HDFS 读写流程： HDFS 的读写流程可以分为以下几个步骤： * 客户端向 Namenode 发送...

2023最新最强大数据面试题汇总: 1. **HDFS（Hadoop Distributed File System）读写流程**：HDFS读取文件时，首先通过NameNode获取文件块的位置信息，然后从最近或负载较低的DataNode节点读取数据。写文件时，数据会被切分为块并复制到多个DataNode...

2017最新大数据架构师精英课程: 本资源为大数据基础到中高级教学资源，适合稍微有点大数据或者java基础的人群学习，资源过大，上传乃是下载链接，不多说，上目录： 1_java基础2 l3 a2 a$ t7 J2 b+ `- p 2_java引入ide-eclipse 3_java基础知识-循环...

【面试宝典】2021年超全超详细的最新大数据开发面试题，附答案解析(一版).pdf: 大数据开发面试题的知识点主要包括Hadoop、Spark、Kafka等多个技术栈。以下是对这些技术栈的知识点详细介绍： Hadoop知识点： 1. HDFS读写流程：HDFS的读写流程涉及客户端和NameNode以及DataNode的交互。读取流程...

Hive用户指南(Hive_user_guide)_中文版.pdf: 查询计划被转化为 MapReduce 任务，在 Hadoop 中执行（有些查询没有 MR 任务，如： select * from table ） Hadoop和 Hive 都是用 UTF-8 编码的 7 1.3Hive 和普通关系数据库的异同 Hive RDBMS 查询语言 HQL ...

Apache Kylin安装部署: 5. **外部访问**：通过RESTful API、JDBC、ODBC等方式进行外部访问。 #### 四、适用场景 1. **秒级多维分析**：适用于Hadoop生态系统下的大数据量秒级多维分析。 2. **高度范化的聚合数据查询**：特别适合处理规模...

OceanBase_0_4_2_旁路导入管理手册.docx: 对于外部用户，需要自行搭建 Hadoop 0.19.1 环境，并确保能够执行 MapReduce 任务。接下来，需要将特定库文件放置到 HDFS 上指定目录： - `liblzo2.so` - `liblzo_1.0.so` - `libmrsstable.so` - `libnone.so` - `...

Hive简易操作入门: - **source**：读取并执行 HQL 文件中的查询语句。 - **set**：打印所有配置变量信息。 - **set <key>=**：设置特定配置变量的值。 - **set -v**：打印 Hadoop 和 Hive 的相关配置变量信息。 - **!**：执行外部 ...

风控平台总体框架.pptx: - **外部数据**：通过网络爬虫获取互联网上的公开信息，如社交媒体、公开论坛等，以辅助风险评估。 - **钱旺系统数据埋点**：在业务系统中设置数据收集点，记录用户行为和交易信息。 - **业务系统从库**：保存...

Global site tag (gtag.js) - Google Analytics