浏览 16915 次
锁定老帖子 主题:经典乱码锟斤拷
精华帖 (4) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2009-03-20
最后修改:2009-03-21
http://www.baidu.com/baidu?word=%EF%BF%BD%EF%BF%BD http://www.google.com/search?hl=en&q=%E9%94%9F%E6%96%A4%E6%8B%B7 我考证了一下,这个乱码的原因来源相当经典。 Unicode和老编码体系的转化过程中,肯定有一些字,用Unicode是没法表示的,Unicode官方用了一个占位符来表示这些文字,这就是:U+FFFD REPLACEMENT CHARACTER 那么U+FFFD的UTF-8编码出来,恰好是 '\xef\xbf\xbd'。 如果这个'\xef\xbf\xbd',重复多次,例如 '\xef\xbf\xbd\xef\xbf\xbd',然后放到GBK/CP936/GB2312/GB18030的环境中显示的话 一个汉字2个字节,最终的结果就是:锟斤拷 哈哈。。。 Python代码: >>> u'\uFFFD'.encode('utf-8')*2 '\xef\xbf\xbd\xef\xbf\xbd' >>> >>> print u'\uFFFD'.encode('utf-8')*2 锟斤拷 例如这个招聘就非常经典: 单位性质: 外商独资企业 所属行业: 线缆 单位规模: 100 - 499人 注册资金: 1299 联 系 人: 锟斤拷锟斤拷 联系人职位: 锟斤拷锟斤拷 传 真: 021-69178632 联系电话: 电子信箱: xuan_guo@walsin.com 通信地址: 邮 编: 单位网址: 单位介绍: 台锟斤拷锟斤拷业锟斤拷台锟斤拷锟斤拷锟侥碉拷f锟斤拷锟斤拷锟斤拷锟?锟斤拷锟斤拷/锟斤拷锟斤拷 招聘职位:锟斤拷锟斤拷 人数:20人 发布日期: 2007-07-17 联系人: 锟斤拷锟斤拷 编码问题真是个TMD烦人的问题。例如: 最后我在wikipedia上开了一个 锟斤拷 的页面。瓦咔咔。。瓦咔咔。。。 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2009-04-15
怎么解决呢??
|
|
返回顶楼 | |