`
woxiaoe
  • 浏览: 283530 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

[转载]Python中文问题研究

阅读更多

关键字: 中文问题
    Python中文问题研究 

    关键字:   Python,中文问题    

      我曾经在深入浅出java中文问题系列中研究过java的中文问题,现在中文问题已经很少羁绊我在java世界中漫游的脚步了。最近,对Python产生了浓厚的兴趣,谁知道跟中文问题这个老朋友又一次不期而遇。看来,在代码世界中,中文问题会在很长一段时间里跟我们形影不离。这也难怪,谁让当初发明计算机的不是我们中国人呢,否则,现在全世界的计算机都支持而且必须支持GBK,这样,写这样文章的人就不会是我了,而是大洋彼岸的一个金发碧眼的程序员,而且标题也相应改为 “studying the english problem in ‘大蟒’ ”。。哈哈 
        YY而已,还是面对现实问题吧。相对java而言,中文问题在Python中的表现更为激烈。“激烈”的意思不是说更为严重或者说难于解决,只是Python对于decode&encode错误的默认处理方式为strict,也就是直接报错,而java使用replace的方式来处理了,因此java出现中文问题后会打印出很多”??”。此外,Python的默认的encoding是ASCII,而java的默认encoding跟操作系统的encoding是一致的。在这一点上,我觉得java更为合理,这样对程序员更为友好,也减少了newbies 开始时的挫折感,是有利于语言的推广的。但是,Python也有它的道理,毕竟ASCII是唯一的全世界所有平台都支持的字符集,而且问题始终是问题,始终会出现的,逃避它还不如早点面对它。 
       好了,说了这么多,该说说Python中中文问题的症状了。在这之前,我们先要了解Python中有两种字符串,分别是一般的字符串(每个字符用8 bits表示)和Unicode字符串(每个字符用一个或者多个字节表示),它们可以相互转换。关于Unicode,Joel Spolsky 在 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) 中有生动的说明,Jason Orendorff 在 Unicode for programmers 有着更为全面的描述,在此我就不再多说什么了。来看下面的代码: 

    python 代码 

       1. x = u”中文你好”   
       2. print s  

        运行上述代码,Python会给出下面的错误提示 

       1. SyntaxError: Non-ASCII character ’\xd6′ in file G:\workspace\chinese_problem\src\test.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details  

       说是遇到非ASCII字符了,并让我们参考pep-0263。PEP-0263(Python Enhancement Proposal)上面说得很清楚了,Python也意识到了国际化问题,并提出了解决方案。根据提案上面的要求,我们有如下代码 

    python 代码 


       1. # -*- coding:gb2312 -*- #必须在第一行或者第二行 
       2. print ”————-code 1—————-”   
       3. a = ”中文a我爱你”   
       4. print a   
       5. print a.find(”我”)   
       6. b = a.replace(”爱”, ”喜欢”)   
       7. print b   
       8. print ”————–code 2—————-”   
       9. x = ”中文a我爱你”   
      10. y = unicode(x, ”gb2312″)   
      11. print y.encode(”gb2312″)   
      12. print y.find(u”我”)   
      13. z = y.replace(u”爱”, u”喜欢”)   
      14. print z.encode(”gb2312″)   
      15. print ”—————code 3—————-”   
      16. print y  

        程序运行的结果如下: 

       1. ————-code 1—————-   
       2. 中文a我爱你   
       3. 5   
       4. 中文a我喜欢你   
       5. ————–code 2—————-   
       6. 中文a我爱你   
       7. 3   
       8. 中文a我喜欢你   
       9. —————code 3—————-   
      10. Traceback (most recent call last):   
      11.   File ”G:\Downloads\eclipse\workspace\p\src\hello.py”, line 16, in <module> 
      12.     print y   
      13. UnicodeEncodeError: ’ascii’ codec can’t encode characters in position 0-1: ordinal not in range(128)  

         我们可以看到,通过引入编码声明,我们可以正常地在使用中文了,而且在code 1和2中,控制台也能正确的把中文打印出来。但是,很明显,上面的代码也反映出了不少的问题: 
        1、code 1 和 2在使用print时采用了不同的方式,1是直接print,而2在print之前先进行编码 
        2、code 1 和 2中在同样的字符串查找同一个字符“我”,得出的结果不一样(分别是5和3) 
        3、code 3 中直接打印unicode字符串 y时出现错误(这也是为什么code 2中要先进行编码的原因) 

        为什么?为什么?我们可以先在脑海中模拟一下我们使用Python的流程:首先,我们先用编辑器编写好源代码,保存成文件。如果源代码中有编码声明而且用的编辑器支持该语法,那么该文件就以相应的编码方式保存在磁盘中。注意:编码声明和源文件的编码不一定是一致的,你完全可以在编码声明中声明编码为UTF-8,但是用GB2312来保存源文件。当然,我们不可能自寻烦恼,故意写错,而且好的IDE也能强制保证两者的一致性,但是,如果我们用记事本或者EditPlus等编辑器来编写代码的话,一不小心就会出现这种问题的。
        得到一个.py文件后,我们就可以运行它了,这是,我们就把代码交给Python解析器来完成解析工作。解析器读入文件时,先解析文件中的编码声明,我们假设文件的编码为gb2312,那么先将文件中的内容由gb2312转换成 Unicode,然后再把这些Unicode转换为UTF-8格式的字节串。完成这一步骤后,解析器把这些UTF-8字节串分段,解析。如果遇到使用 Unicode字符串,那么就使用相应的UTF-8字节串创建Unicode字符串,如果程序中使用的是一般的字符串,那么解析器先将UTF-8字节串通过Unicode转换成相应编码(这里就是gb2312编码)的字节串,并用其创建一般的字符串对象。也就是说,Unicode字符串跟一般字符串在内存中的存放格式是不一样的,前者使用UTF-8的格式,后者使用GB2312格式。 
        好了,内存中的字符串存放格式我们知道了,下面我们要了解print的工作方式。print其实只是负责把内存中相应的字节串交给操作系统,让操作系统相应的程序(譬如cmd窗口)进行显示。这里有两种情况: 
       1、若字符串是一般的字符串,那么print只需把内存中相应的字节串推送给操作系统。如例子中的code 1。 
        2、如果字符串是Unicode字符串,那么print在推送之前先进行相应的encode:我们可以显示使用Unicode的encode方法使用合适的编码方式来编码(例子中code 2),否则Python使用默认的编码方式进行编码,也就是ASCII(例子中的code 3)。当然ASCII是不可能正确编码中文的,因此Python报错。 
        至此,上面的三个问题我们已经可以解析第一和第三个了。至于第二个问题,因为Python中有两种字符串,一般字符串和Unicode字符串,两者都有各自的字符处理方法。对于前者,方法是以字节的方式进行的,而且在GB2312中,每个汉字占用两个字节,因此得到的结果是5;对于后者,也就是Unicode字符串,所有字符都是统一看待的,因此得到3。 
         虽然上面只提到了控制台程序的中文问题,但是文件读写以及网络传输中出现的中文问题在原理上都是类似的。Unicode的出现可以很大程度上解决软件的国际化问题,同时Python为Unicode提供了极为良好的支持,因此,我建议大家在编写Python的程序时,都统一使用Unicode方式。保存文件时使用UTF-8的编码方式。How to Use UTF-8 with Python有详细的描述,大家可以参考一下。 
        Python中能导致出现中文问题的地方还很多,譬如文件的读写,网络数据的传输等,希望大家能多多交流,共同解决这些问题。

分享到:
评论

相关推荐

    python入门奶牛问题

    python入门奶牛问题python入门奶牛问题python入门奶牛问题python入门奶牛问题python入门奶牛问题python入门奶牛问题python入门奶牛问题python入门奶牛问题python入门奶牛问题python入门奶牛问题python入门奶牛问题...

    python读写汉字转成中文

    总结来说,通过结合`xlrd`库读取Excel文件,`pypinyin`库处理中文转英文,以及Python的文件操作功能,我们可以实现从Excel文件中读取汉字数据,将其转换为英文并按照指定格式写入txt文件。这在数据处理和自动化任务...

    Learning Python中文版(Python语言入门)

    《Learning Python中文版》是一本旨在帮助读者入门Python编程语言的书籍。这本书详细介绍了Python的基础知识,适合初学者和希望提高编程技能的读者。Python是一种自由的开放源码的解释性语言,它设计的初衰就是追求...

    大学Python数据建模研究生入学率预测

    博客 二十七、Kaggle| 研究生入学率预测 代码和数据 可以用于大学的作业: 自选一个分类或者回归任务的外部数据集,利用数据完成如下操作:1、说明数据的来源、介绍数据集的特征及标签2、数据的预处理(缺失值、...

    Python学习笔记,Python3.5中文无法显示

    在Python编程过程中,遇到中文无法显示或报错“Non-UTF-8 code”通常是由于源代码文件的编码格式与Python解释器默认的UTF-8编码不一致所导致的问题。这个问题在Python 3.x版本中尤为常见,因为Python 3默认采用UTF-8...

    Python研究 从新手到高手 Dive Into Python 中文版

    Python 从新手到高手 Dive Into Python 是为有经验的程序员编写的一本 Python 书。 1.在多个平台安装Python 2.第一个Python程序 3.内置数据类型 4.自省的威力 5.对象和面向对象 6.异常和文件处理 7.正则表达式 8....

    python中文手册.pdf

    python中文手册,适用于python入门学习,描述python基本使用。

    22 OpenCV-Python中文教程.pdf

    "OpenCV-Python中文教程" OpenCV-Python中文教程是基于OpenCV官方教程的中文翻译版,旨在帮助读者快速掌握OpenCV-Python的使用。该教程涵盖了OpenCV-Python的基础知识、图像处理、视频处理、绘图函数等方面的内容。...

    python中文api文档+学习笔记

    `Python中文手册v2.4.chm` 可能是针对Python 2.4版本的中文翻译版,尽管这个版本较旧,但它仍然有价值,因为它可以帮助用户理解Python语言的历史发展和早期版本的特点。学习早期版本有助于理解Python语言的演进,也...

    Python知识自动问答系统的研究与实现

    Python知识自动问答系统的研究与实现 Python知识自动问答系统的研究与实现 Python知识自动问答系统的研究与实现 Python知识自动问答系统的研究与实现 Python知识自动问答系统的研究与实现 Python知识自动问答系统的...

    python3.10中文使用手册

    Python 3.10 中文使用手册 Python 语言是由 Guido van Rossum 设计的一种高级编程语言,旨在提高代码的可读性和易用性。Python 3.10 是 Python 语言的最新版本,提供了许多新的特性和改进。 概述 Python 3.10 ...

    python 中文版手册 chm

    这份“Python中文版手册CHM”是为Python开发者量身定制的参考资料,它以中文的形式详细介绍了Python的各种概念、语法和库,使得中文使用者能够更方便地学习和查阅Python的相关知识。 CHM(Compiled Help Manual)是...

    think python (中文版).pdf

    作为一本Python入门书籍,《Think Python(中文版)》的目标是帮助读者像计算机科学家一样思考问题,它鼓励读者不仅仅要学习Python的语法,而是要学习如何利用编程解决实际问题,培养编程思维和解决问题的能力。...

    python面试常见问题

    python面试常见问题1、“==”与is的区别2、list与tuple的区别3、python中list与dict4、局部变量和全局变量5、迭代器和生成器6、yield7、import过程8、python装饰器9、python特点(封装、继承、多态)10、垃圾回收...

    Python3.8.2中文API文档

    Python 3.8.2 是一个重要的 Python 语言版本,其中文 API 文档为开发者提供了丰富的参考资料,帮助理解和使用这个版本的各种特性和功能。以下是对这些文档内容的详细概述: 1. **PythonC API 参考手册**:这是针对...

    Python3.8官方中文API参考手册

    Python3.8官方中文API参考手册是一套全面的文档集合,涵盖了Python编程语言的各个方面,为开发者提供了详尽的指导和参考资料。这个压缩包包含了26个PDF文档,旨在帮助用户深入理解和应用Python3.8的特性。以下是这些...

    OpenCV-Python 中文教程

    综上所述,《OpenCV-Python 中文教程》是一本面向Python开发者的实用指南,旨在帮助读者迅速掌握OpenCV,利用其强大的图像处理能力解决实际问题。由于内容基于OpenCV的最新版本,确保了教程的时效性,使得读者能够...

    dive into python3 (中文版)

    《深入Python3(中文版)》是一本系统介绍Python 3的书籍,旨在帮助读者深入学习Python 3的基本知识与应用。本文将根据给定文件的信息,展开介绍Python 3的基础知识点。 首先,安装Python是学习Python语言的第一步...

    基于Python语言的中文文本处理研究.pdf

    4. **中文文本处理的研究内容与方法**:本文主要基于HSK动态作文语料库和自建的中国大学生汉语作文语料库进行研究,对汉语语料库加工问题进行探讨。研究中用到的关键环节包括分词赋码、高频词提取、句法分析等。通过...

Global site tag (gtag.js) - Google Analytics