roufenghust

浏览: 27139 次
性别:
来自: 深圳

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式，有很多软件只能靠文件的BOM才能成够识别编码为UTF-8的文件，因此当用此类软件打开文件时，显示的是乱码。为了能够正常显示文件内容，在输出内容到文件内之前，先写入BOM（0xEFBBBF）即可。 Map Reduce运行的结果是一些列文件，通过使用如下函数将输出文件归并到一个文件中： org.apache.hadoop.fs.FileUtil.copyMerge(FileSystem srcFS, Path srcDir, FileSystem dstFS, Path dstFile, boolean del ...

2013-04-13 17:37
浏览 2214
评论(0)
分类:互联网

hadoop解决中文输出乱码

博客分类：

Map Reduce
hadoop

hadoop 中文乱码

hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式，但是对于中文的输出window系统默认的是GBK，有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时，输出的结果为乱码，只能由UE或者记事本打开才能正常显示。因此将hadoop默认输出编码更改为GBK成为非常常见的需求。默认的情况下MR主程序中，设定输出编码的设置语句为：job.setOutputFormatClass(TextOutputFormat.class); TextOutputFormat.class的代码如下： /** * Licensed to ...

2013-04-12 11:28
浏览 4774
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop解决中文输出乱码（二）

hadoop解决中文输出乱码

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop解决中文输出乱码（二）

hadoop解决中文输出乱码

最近访客更多访客>>