InputFormat解读 - liyunqiangyq - ITeye博客

`

liyunqiangyq

浏览: 30577 次
性别:
来自: 唐山

最近访客更多访客>>

天天学

windfic

13720323874

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xiaguobing：博主，你太有爱了！小弟学习了~
dtree.js树的使用
zhaomengsen：你在说自己呢
大忽悠的故事
zhaomengsen：忽悠王我支持你
没有工作经验pk掉三年工作经验
whg333：这样那得看面试官水平了： 1、面试官水平也一般，那可能被吓住了 ...
没有工作经验pk掉三年工作经验
releasa：这样前用么？
没有工作经验pk掉三年工作经验

InputFormat解读

博客分类：

hadoop学习

阅读更多

<div class="iteye-blog-content-contain" style="font-size: 14px"></div>

mapreduce 第一个步骤读取文件系统，解析成一个个key,value

InputFormat 子类就是处理这件事的。 InputFormat 两个核心抽象方法getSplits,creatRecordReader

1>getSplits方法：split the set of input files for the job. >Each {@link InputSplit} is then assigned to an individual {@link Mapper} for processing意思读取文件对原数据的切分一个个InputSplit

一个InputSplit 对应一个map 进程去处理.通过阅读FileInputSplit 源代码getSplit方法,可以知道

1个文件可以切分1个或者多个InputSplit,

更加抽象的得到：有多个block，就有几个InputSplit(默认配置）,就有个多少map任务.

2> createRecordReader方法:对于InputSplit解析key，value

Map任务是静态，Map进程动态.

为啥Maper k1,v1是LongWritable，Text

因为job默认处理类TextInputFormat<LongWritable，Text>已经定死了。

分享到：

如何读取Lucene索引数据

2015-04-08 20:39
浏览 581
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

自定义MapReduce的InputFormat: 在Hadoop MapReduce框架中，InputFormat是处理输入数据的核心组件。它负责将原始数据分割成逻辑上的键值对（key-value pairs），然后为每个分区分配一个或多个这些键值对给Mapper。默认情况下，Hadoop支持如...

hive inputformat: 输入格式（InputFormat）是Hive处理数据时的一个关键组件，它定义了如何读取数据源中的原始数据并将其转化为Hive可以理解的Record。本文将深入探讨`hive inputformat`的概念、作用以及通过实例代码展示如何按照空格...

自定义inputFormat&&outputFormat1: 自定义inputFormat&&outputFormat1

Hadoop源码解析---MapReduce之InputFormat: 在Hadoop的生态系统中，MapReduce是处理海量数据的一种编程模型，而InputFormat作为MapReduce编程模型的重要组成部分，是负责处理输入数据的关键接口。为了深入理解MapReduce工作原理，必须掌握InputFormat的设计和...

【MapReduce篇03】MapReduce之InputFormat数据输入1: 在MapReduce编程模型中，InputFormat是至关重要的组件，它负责将存储在HDFS(Hadoop Distributed File System)上的数据转化为可以被MapTask处理的键值对。本文将深入讲解MapReduce的InputFormat，特别是默认的...

MapReduce计算模型详讲（结合源码深入解读）: MapReduce计算模型详讲（结合源码深入解读） MapReduce是Hadoop中的一种编程模型，用于处理大规模数据。它主要由两部分组成：Map和Reduce。Map阶段负责将输入数据分割成小块，并对每个小块进行处理；Reduce阶段负责...

CustomInputFormatCollection:Hadoop Mapreduce InputFormat 集合: hadoop-mapreduce-custom-inputformat 1.0-SNAPSHOT 运行命令如下： hadoop jar hadoop-mapreduce-custom-inputformat-1.0-SNAPSHOT.jar org.apache.hadoop.mapreduce.sample.SmallFileWordCount -Dmapreduce....

json-mapreduce:可以分割多行JSON的InputFormat: 使用可拆分的多行 JSON 的 InputFormat 动机目前似乎没有任何可以支持多行 JSON 的 JSON InputFormat 类。执照 Apache 许可。用法要开始，只需：下载并运行ant 在您的环境中包含dist/lib/json-mapreduce-1.0....

SequenceFileKeyValueInputFormat:自定义 Hadoop InputFormat: Apache Hive 的 InputFormat，在查询 SequenceFiles 时将返回 (Text) 键和 (Text) 值。我需要在不拆分内容的情况下完整解析大量文本文件。 HDFS 在处理大型连续文件时提供最佳吞吐量，因此我使用 Apache Mahout 将...

nutch的源码解读和nutch入门: 4. **Indexing（索引）**：`Indexer` 类负责将 segment 中的网页内容建立索引，这个过程涉及到多个 Hadoop 类，如 `InputFormat` 和 `OutputFormat`，它们定义了数据的输入和输出格式。索引仅包含页面内容的文本，不...

couchbase-inputformat:将 Couchbase 集成到 Hadoop 等云项目的工具: ##Couchbase InputFormat 提供什么？在与 Couchbase Sqoop 连接器搏斗时，发现了一些错误，使其无法与 CDH3 版本正常工作。从 Couchbase 中提取键/值的实际 InputFormat 存在于 Sqoop 连接器的基于代码中，但对 ...

XML_MR_Reader:使用 XML InputFormat Map Reduce: 使用 XML InputFormat 映射 Reduce。这是一段代码，用于清理 Wiki XML 数据集并将其转换为带分隔符的文本。从维基百科档案中提取电影数据进行分析。提供了 Sample.xml。如果您的 XML 结构发生变化，请查看 ...

wikipedia-hadoop:维基百科 Inputformat 和其他有用的 Hadoop 相关的东西: 用法首先，您必须将WikiInputFormat设置为您的作业 InputFormat： job . setInputFormatClass( WikiInputFormat . class); 您的 Mappers 传入 Key 和 Value 需要来自LongWritable和WikiRevisionWritable类型。

mapfileinputformat:MapFiles 的 Hadoop InputFormat，它在将任何内容传递给映射器之前过滤不相关的 FileSplits: 映射文件输入格式MapFiles 的 Hadoop InputFormat，它在将任何内容传递给映射器之前过滤不相关的 FileSplits。目的假设您的文件系统中有一些带有排序键的非常大的文件，并且键已排序。在编写 MapReduce 作业时，您...

jodconverter 2.2.2全面支持docx、xlsx: 《jodconverter 2.2.2：全面支持docx、xlsx格式转换的利器》在信息化时代，文档处理和转换成为了日常工作中不可或缺的一部分。jodconverter，作为一个强大的开源工具，为用户提供了便利的文件格式转换功能。...

ExcelRecordReaderMapReduce:可以读取Excel文件的MapReduce InputFormat: ExcelRecordReaderMapReducehadoop mapreduce的MapReduce输入格式以读取Microsoft Excel电子表格执照Apache许可。用法1.下载并运行ant。 2.在您的环境中包括ExcelRecordReaderMapReduce-0.0.1-SNAPSHOT.jar 3....

jodconverter-2.2.1.rar: **JodConverter 2.2.1：OpenOffice 转换工具的增强与文本编码问题解决方案** 在IT行业中，转换文档格式是一项常见的任务，尤其是将Microsoft Office文档转换为PDF或其他格式。`jodconverter-2.2.1.rar`是一个针对...

分布式编程模式MapReduce应用[参考].pdf: 3、定义 InputFormat 和 OutputFormat，可选， InputFormat 将每行输入文件的内容转换为 Java 类供 Mapper 函数使用，不定义时默认为 String。 4、定义 main 函数，在里面定义一个 Job 并运行它。 Hadoop 的架构...

Hive多字节分隔符解决方案.docx: 本文将介绍Hive多字节分隔符问题的解决方案，包括替换分隔符、RegexSerDe正则加载和自定义InputFormat三种方法。应用场景在实际工作中，我们遇到的数据往往不是非常规范化的数据，例如，我们会遇到以下两种情况...

01-02MapReduce深入: 1. InputFormat：读取输入数据，将其分割成小块，称为split。 2. Split：将每个split分配给一个Mapper实例进行处理。 3. Mapper：将输入数据处理成key-value对，输出结果。 4. Shuffle：对Mapper的输出结果进行...

Global site tag (gtag.js) - Google Analytics