hadoop Text编码问题 -

lbxhappy

浏览: 310646 次
性别:
来自: 北京

最近访客更多访客>>

jakehappy888

xiaohuih1985

yanghongchun

源崇1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hadoop Text编码问题

博客分类：

云计算

Hadoop写map/reduce作业开始，就遇到了输入数据是GBK编码的问题，hadoop的writable默认是以utf-8进行编码，如果输入数据时GBK编码的话，则进行转码操作如：
String line=new String(value.getBytes(),0,value.getLength(),"GBK");
String line=value.toString();之所以会把GBK编码的输入变成乱码，很关键的一个因素是Text这个Writable类型造成的。初学时，一直认为和LongWritable对long的封装一样，Text类型是String的Writable封装。但其实Text和String还是有些区别，它是一种UTF-8格式的Writable，而Java中的String是Unicode字符。所以直接使用value.toString()方法，会默认其中的字符都是UTF-8编码过的，因而原本GBK编码的数据使用Text读入后直接使用该方法就会变成乱码。
正确的方法是将输入的Text类型的value转换为字节数组，使用String的构造器String(byte[] bytes, int offset, int length, Charset charset)，通过使用指定的charset解码指定的byte子数组，构造一个新的String。即
1

String line=new String(value.getBytes(),0,value.getLength(),"GBK");

Text的UTF-8特性也可以从TextOutputFormat中看出一二，在TextOutputFormat的源码中，
1

private static final String utf8 = “UTF-8″;//这里被写死成了utf-8

所以如果需要map/reduce输出其它编码格式的数据，需要自己实现OutputFormat，在其中指定编码方式，而不能使用默认的TextOutputFormat。具体的范例可以见淘宝数据平台与产品部官方博客上的博文 http://www.tbdata.org/archives/244 。
博文引用了http://blog.linezing.com/2011/04/hadoop%E7%9A%84mapreduce%E4%BD%9C%E4%B8%9A%E8%BE%93%E5%85%A5%E9%9D%9Eutf-8%E7%BC%96%E7%A0%81%E6%95%B0%E6%8D%AE%E7%9A%84%E5%A4%84%E7%90%86%E5%8E%9F%E7%90%86

分享到：

关于hadoop2.0自定义计数器 | WABACUS框架介绍

2012-06-01 17:33
浏览 1944
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop Text编码问题

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop Text编码问题

评论

发表评论

相关推荐

hive 安装运行权限错误Permission denied: user=hive, access=WRITE,

hadoop 源码编译 导入eclipse

hive null 和空值

mahout中bayes分类分析—2

mahout中bayes分类分析—1

谷歌开源 Supersonic 查询引擎

Cloudera Impala：基于Hadoop的实时查询开源项目

hadoop 运行任务超时

Task process exit with nonzero status of 1.

导出excel2007 poi3.8

hbase 导出 excel报表 jxl

hbase 导入导出

hive函数大全

Hadoop Job Scheduler作业调度器

关于hadoop2.0自定义计数器

最近访客更多访客>>

hadoop 源码编译导入eclipse