`
wolfmaster
  • 浏览: 159106 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

python中文编码问题

阅读更多

为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就来研究一下这个问题。


字符串在Python内部的表示是unicode 编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码。

因此,转码的时候一定要先搞明白,字符串str是什么编码,然后decode成unicode,然后再encode成其他编码


代码中字符串的默认编码与代码文件本身的编码一致

如:s='中文'

如果是在utf8的文件中,该字符串就是utf8编码,如果是在gb2312的文件中,则其编码为gb2312。这种情况下,要进行编码转换,都需 要先用decode方法将其转换成unicode编码,再使用encode方法将其转换成其他编码。通常,在没有指定特定的编码方式时,都是使用的系统默 认编码创建的代码文件。

如果字符串是这样定义:s=u'中文'

则该字符串的编码就被指定为unicode了,即python的内部编码,而与代码文件本身的编码无关。因此,对于这种情况做编码转换,只需要直接使用encode方法将其转换成指定编码即可。


如果一个字符串已经是unicode了,再进行解码则将出错,因此通常要对其编码方式是否为unicode进行判断:

isinstance(s, unicode) #用来判断是否为unicode

用非unicode编码形式的str来encode会报错


如何获得系统的默认编码

#!/usr/bin/env python
#coding=utf-8
import sys
print sys.getdefaultencoding()

该段程序在英文WindowsXP 上输出为:ascii


在某些IDE中,字符串的输出总是出现乱码,甚至错误,其实是由于IDE的结果输出控制台自身不能显示字符串的编码,而不是程序本身的问题。

如在UliPad中运行如下代码:

s=u"中文"
print s

会提示:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。这是因为UliPad在英文WindowsXP 上的控制台信息输出窗口是按照ascii编码输出的(英文系统的默认编码是ascii),而上面代码中的字符串是Unicode编码的,所以输出时产生了错误。

将最后一句改为:print s.encode('gb2312')

则能正确输出“中文”两个字。

若最后一句改为:print s.encode('utf8')

则输出:\xe4\xb8\xad\xe6\x96\x87,这是控制台信息输出窗口按照ascii编码输出utf8编码的字符串的结果。


unicode(str,'gb2312')与str.decode('gb2312')是一样的,都是将gb2312编码的str转为unicode编码

使用str.__class__可以查看str的编码形式


原理说了半天,最后来个包治百病的吧:)

复制代码 代码如下:


#!/usr/bin/env python
#coding=utf-8
s="中文"
if isinstance(s, unicode):
#s=u"中文"
print s.encode('gb2312')
else:
#s="中文"
print s.decode('utf-8').encode('gb2312')

分享到:
评论
1 楼 longjirobin 2013-09-24  
[img] [/img]

    [*]
引用
[u][/u][i][/i][b][/b][url][/url][flash=200,200][/flash]

相关推荐

    python 中文乱码 问题深入分析.docx

    在 Python 中,中文乱码问题一直是一个让人头疼的问题,经常抛出编码转换的异常。那么,Python 中的 str 和 unicode 到底是什么东西呢? 首先,Python 中的 unicode 指的是 unicode 对象。例如,u'/u54c8/u54c8' ...

    python 中文乱码问题深化分析.docx

    Python 中文乱码问题深化分析 在 Python 中,中文编码一直是一个极为头大的问题,经常抛出编码...Python 中的中文编码问题需要我们正确地理解 str 和 unicode 的概念,并正确地使用编码格式和解码方式来避免乱码问题。

    python解决中文乱码问题

    解决python中文乱码问题、首先发送请求,然后将请求返回的值传到coding(req)函数。

    Python中文乱码

    综上所述,Python中文乱码问题主要源于字符编码的不匹配,通过正确识别和指定编码,可以避免大部分乱码情况的发生。在处理中文字符时,养成良好的编码习惯,统一使用UTF-8编码,可以显著减少乱码问题,提升开发效率...

    python学习教程,如何解决Python中文编码乱码问….docx

    ### Python中文编码问题详解 #### 一、问题背景与概述 在进行Python编程时,我们经常会遇到中文编码的问题。特别是当我们在程序中尝试输出或处理中文字符串时,如果没有正确地设置编码方式,就会出现乱码或者是...

    python查询笔画数(含汉字编码表)

    这个主题涉及到几个关键知识点,包括Python的字符串操作、汉字编码以及如何利用数据资源来获取汉字笔画信息。 首先,我们需要理解汉字的编码。在给定的文件“汉字编码表 gbk unicode.txt”中,很可能包含的是GBK和...

    Python中文乱码详解.rar

    总的来说,Python中文乱码问题主要涉及编码和解码的选择以及统一性。了解编码原理,合理使用Python提供的工具和方法,就能有效地避免和解决乱码问题。在教育和学习过程中,掌握这些知识点对提高编程能力非常有帮助。

    20180530_Python编码及中文乱码1

    Python 编码与解码详解 编码是将可读的字符转换为计算机内部表示的过程,而解码则是相反的过程,即将计算机内部的表示转换回可读的字符。...正确处理编码问题可以避免字符乱码,提高程序的兼容性和稳定性。

    Python中文乱码详解.pdf

    总结来说,Python中文乱码问题涉及字符编码的基础知识,包括ASCII、GBK、UTF-8、MBCS、Unicode和CodePage等概念。理解和掌握这些知识点,以及Python中相应的处理方式,对于解决实际开发中的乱码问题至关重要。

    python OpenCV imshow()中文乱码问题解决方法之一

    python OpenCV imshow()中文乱码问题解决方法之一

    解决Python3用PIL的ImageFont输出中文乱码的问题

    今天在用python3+ImageFont输出中文时,结果显示乱码 # coding:utf-8 from PIL import Image, ImageDraw, ImageFont image= Image.new('RGB', (559, 320),(255,255,255)) draw = ImageDraw.Draw(image) # draw.text...

    解决c++调用python中文乱码问题

    总结来说,要解决C++调用Python时的中文乱码问题,关键在于理解两种语言之间的编码差异,并确保在数据传递过程中进行适当的编码转换。在本例中,我们通过编写GBK到UTF-8的转换函数,成功地使C++能够正确地向Python...

    Python中文乱码详解参考.pdf

    描述:本文目的为Python程序员简练地介绍字符编码相关支持,彻底解疑Python中文乱码、Python 2与Python 3字符编码差异等相关问题。 标签:无 部分内容: Python中文乱码详解 1. 字符编码的概念 字符是抽象符号...

    python避免中文乱码的代码.docx

    Python是一种广泛使用的编程语言,但在处理中文字符时可能会遇到乱码问题。这主要是因为Python的默认内部编码是ASCII,不支持中文字符。为了解决这个问题,我们需要采取一些措施确保中文字符能够正确显示。 1. **...

    chardet-1.0.1.tar.gz 自动检测python汉字编码辅助

    完成这些步骤后,`chardet` 就可以在Python项目中使用了,为处理汉字编码问题提供了强大的支持。总的来说,`chardet` 是Python处理编码问题的一个重要工具,尤其在与HTML解析相关的场景中,它极大地提高了代码的健壮...

    linux下python中文乱码解决方案详解

    总结来说,解决Linux下Python中文乱码问题的关键在于正确配置字体、清理缓存以及可能需要更新依赖工具的编码设置。通过以上步骤,大多数情况下都能成功显示中文字符,避免乱码问题。理解并掌握这些方法,对于在Linux...

Global site tag (gtag.js) - Google Analytics