hadoop 各类key value分隔符参数 - - ITeye博客

`

wingmzy

浏览: 14094 次
性别:
来自: 广州

最近访客更多访客>>

xingwang.ye

suankuang

wangpeng2313

wintermac

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hadoop 各类key value分隔符参数

hadoop 各类key value分隔符参数

阅读更多

hadoop中的map-reduce是处理<key,value>这样的键值对，故指定<key,value>的分割符等参数可以分成三类：

map输出时分割符

分桶时的分隔符

reduce输出时的分割符

下面分别叙述：

1. map输出时分割符

参数：

stream.map.output.field.separator

作用：

指定map输出时的分割符

stream.num.map.output.key.fields

指定输出按照分隔符切割后，key所占有的列数

举例：

input数据：

2,2,c,c,c,c

参数配置：

-mapper "cat" # map 为分布式的cat命令

-reducer "" #reduce为空 /

-jobconf stream.map.output.field.separator=',' /

-jobconf stream.num.map.output.key.fields=2 /

即按照','逗号分隔后，去前2列作为key

output数据：

2,2     c,c,c,c #其中key为2,2 value为c,c,c,c

2. 分桶时的分隔符

map.output.key.field.separator

指定map输出<key,value>对之后，其中key内部的分割符

num.key.fields.for.partition

指定分桶时，按照分隔符切割后，用于分桶key所占的列数

举例：

map的output数据：

2,2     c,c,c,c

参数配置：
-jobconf map.output.key.field.separator=',' /
-jobconf num.key.fields.for.partition='1'   /
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner /

output数据：

这样用于partition分桶的key就为：2

注意，这里分桶不应该用默认的HashPartitioner

3. reduce输出时的分割符

这个与map类似，分别用于reduce输出时分隔符以及key占有的列数

stream.reduce.output.field.separator

stream.num.reduce.output.key.fields

分享到：

hive加载公用库

2011-11-15 17:35
浏览 6726
评论(0)
分类:数据库
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

mapreduce 自定义分隔符源码: 1. 在构造函数中，接收自定义分隔符作为参数。 2. 覆盖`nextKeyValue()`方法： - 首先，调用父类的`nextKeyValue()`获取一行文本。 - 使用自定义分隔符对行内容进行分割。可以使用Java的`String.split()`方法，...

hadoop课后题带答案: 21. Sqoop参数：使用`--fields-terminated-by`参数可以指定字段分隔符，例如在从数据库导入HDFS时，若字段分隔符为制表符，可以设置`--fields-terminated-by '\t'`。以上内容是对Hadoop及其生态系统相关知识的概述...

Hadoop Streaming 编程: - `-D`：设置作业属性，如 map 和 reduce 任务的数量，以及字段分隔符等。 **Hadoop Streaming 编程** 编程时，开发者需要考虑如何处理输入和输出格式，以及如何在 mapper 和 reducer 中实现业务逻辑。例如，实现...

HadoopStreaming编程.doc: 在编写程序时，需注意数据分隔符的设置，以及如何正确地读写标准输入输出。 **5. 常见问题与高级编程** 在实践中，可能会遇到数据格式问题、性能优化（如Combiner的使用）以及错误处理等挑战。高级编程涉及到更...

第5章：Hive函数重要应用案例1: 【Hive函数重要应用案例1】本章主要探讨在Hive中处理特殊数据格式的技巧，特别是涉及多字节分隔符和字段内包含分隔符的问题。在Hive中，通常使用单字节分隔符（如逗号、制表符）来加载文本数据，但在实际场景中，...

hadoop streaming 进阶: 例如，如果输出格式为 `Key1\tKey2\tKey3\tValue`，并且设置 `stream.num.map.output.key.fields` 为 2，则 `Key1\tKey2` 被视为 key，`Key3\tValue` 视为 value。 - **stream.reduce.input.field.separator** 和 **...

尚硅谷大数据技术之Hadoop（MapReduce）1: 通常，这包括数据预处理，如按指定分隔符切分记录。 - Map任务的输出是中间键值对，这些键值对需要经过分区（Partitioning）、排序（Sorting）和组合（Shuffle）的过程，以便后续的Reduce任务处理。 2. **Reduce...

Hadoop控制输出文件命名.docx: `multipleOutputs.write(key, value, baseOutputPath)`方法的第三个参数`baseOutputPath`用于指定输出文件的目录。如果`baseOutputPath`不包含文件分隔符"/"，那么输出的文件格式为`baseOutputPath-r-nnnnn`；如果...

sqoop常用命令参数-中文1: - `--mysql-delimiters`：使用 MySQL 的默认分隔符设置，字段间用逗号，行间用换行符。 - `--optionally-enclosed-by`：对于包含双引号或单引号的字段，前后添加指定字符。 3. **export 命令参数**： - `--input...

Hadoop mapreduce中使用MultipleOutputFormat的多文件输出: DataOutputStream 对象用于写入数据，而 keyValueSeparator 则是键值分隔符。接下来，我们需要实现 MultipleOutputFormat。MultipleOutputFormat 是一个 OutputFormat 的实现，用于输出多份文件。下面是 ...

Hadoop数据迁移--从Hadoop向HBase: 首先，通过`split`方法将输入的文本数据按逗号分割成数组，然后使用`Bytes.toBytes`方法将字符串转换为字节数组，构建`ImmutableBytesWritable`对象，最后使用`KeyValue`对象封装数据，准备输出给Reduce阶段处理。...

hadoop之map/reduce: 在给定的描述中，提到输入数据是从HDFS导入并通过Sqoop的，通常这些数据是以行格式存储，字段之间用制表符分隔。因此，在编写MapReduce程序时，需要将每一行数据解析成一个对象，以便在Mapper中更方便地访问和处理...

Hadoop技术-MapReduce工作原理.pptx: 2. **数据读取**：RecordReader对象（默认为LineRecordReader）将split内容逐行读取，以换行符为分隔符，生成键值对，其中key是行的起始字符偏移量，value是整行文本内容。 3. **Mapper执行**：用户自定义的Mapper...

大数据与云计算培训学习资料 Hadoop的MapReduce中多文件输出共9页.pdf: `LineRecordWriter`包含了写入数据流、设置键值分隔符等功能，确保输出格式的正确性。接下来，我们需要创建自定义的`MultipleOutputFormat`类，它继承自`org.apache.hadoop.mapreduce.OutputFormat`。在这个类中，...

Hadoop MultipleOutputs输出到多个文件中的实现方法: 需要注意的是，`multipleOutputs.write(key, value, baseOutputPath)`方法的第三个参数表示了该输出所在的目录（相对于用户指定的输出目录）。如果`baseOutputPath`不包含文件分隔符“/”，那么输出的文件格式为`...

MapReduce技术深入理解.pptx: - KeyValueTextInputFormat：每一行由指定的分隔符（默认是制表符）分为key和value，两者都是Text类型。 - NLineInputFormat：允许用户指定每N行作为一个记录。理解MapReduce的这些基本概念对于开发和优化大数据...

实验3MyJoin1: - **内容要求**：实验报告应包含Map和Reduce的设计思路，包括Key和Value类型的选择；MapReduce的伪代码或实际代码（带有注释）；Hive查询结果的截图；以及YARN Resource Manager的WebUI执行报告，以证明作业在集群...

Mapreduce工作流程-3计算实例: 键值对的输出格式通常是通过print函数实现，可以使用“%s\t%s”或者“.format(key, value)”格式化字符串输出键值对，并以制表符作为分隔符。为了进行MapReduce编程，用户需要编写mapper和reducer模块。以Python为...

hive inputformat: 默认情况下，Hive将所有数据视为TextFile格式，这意味着每个行被视为一个记录，每一行由制表符或逗号等分隔符拆分成字段。在我们的例子中，"按照空格对日志文件进行拆分"意味着我们将使用TextFile InputFormat，...

Global site tag (gtag.js) - Google Analytics