rainbow_小春

浏览: 47140 次
性别:
来自: 天津

最近访客更多访客>>

flylynne

zlathere

heghog

chun521521

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

（转）如何去掉mapreduce自动添加的分隔符

博客分类：

hadoop

我们在使用streaming模式的mapreduce开发程序的时候，经常会发现输出结果中被莫名其妙的添加了分割符，比如在一行的中间或者结尾多了一个Tab符号。尤其是输出只有一个字段的时候，末尾一定会被添加一个Tab符，看着十分恶心，而且有可能影响程序的正确性，所以我们一定要除掉它。

首先来看看他是怎么产生的。因为streaming版本的mapreduce，会将程序的输出按照key/velue的形式组织，而且key/value之间需要有一个分隔符，方便程序区分。这个分割符，默认的就是Tab。我们可以通过-jobconf stream.map.output.field.separator=, 和-jobconf mapred.textoutputformat.separator=，来修改。

前面提到了，如果在mapper阶段或者reduce阶段，只有key输出，没有value时（默认是以tab作为key和value的分割。所以如果输出的数据中没有tab，就表示只有key，没有value），mapreduce框架会自动给数据加上一个tab，即使我们修改了分割符，那它也会添加修改后的分割符，依然不能解决这个问题。针对这种情况，hadoop提供了一个参数，增加-jobconf mapred.textoutputformat.ignoreseparator=true 通过这个方法，可以去掉自动补上的tab。

但是有一点需要注意： map阶段和reduce阶段都会出现以上说明的自动补tab的问题，而-jobconf mapred.textoutputformat.ignoreseparator=true参数只能去掉reduce阶段增加的tab，所以如果在 map阶段被自动加上了tab，需要自行手工在reduce程序中删除之。对于只有map的程序，可以通过增加一轮reduce，然后在reduce中使用参数，去除Tab键。

分享到：

UDTF编写 | hadoop日常

2017-10-25 09:59
浏览 1384
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

（转）如何去掉mapreduce自动添加的分隔符

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

（转）如何去掉mapreduce自动添加的分隔符

评论

发表评论

相关推荐

hadoop日常

Hadoop之路，蠢的错误

修改jar包内容

Not a valid JAR我在执行hbase官方说明中的一个例子，是用mapreduce连接hbase进行数据读写的一个程序。报了以下错误： Excepti

（转）Failed with exception Unable to rename

wrong

bash: hadoop: command not found

bash: hadoop: command not found

bash: hadoop: command not found

bash: hadoop: command not found

bash: hadoop: command not found

MapReduce优化

（转）hadoop hdfs常用命令

（转）hadoop 根据SecondaryNameNode恢复Namenode

（转）委任新节点

设置负载均衡器

最近访客更多访客>>