[转载]Python中文问题研究

woxiaoe

浏览: 287250 次
性别:
来自: 长沙

最近访客更多访客>>

kaizi1992

lvite3mc

844700118

jaty613

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Python

Python Eclipse IDE 工作

关键字: 中文问题

    Python中文问题研究

    关键字:   Python,中文问题

      我曾经在深入浅出java中文问题系列中研究过java的中文问题，现在中文问题已经很少羁绊我在java世界中漫游的脚步了。最近，对Python产生了浓厚的兴趣，谁知道跟中文问题这个老朋友又一次不期而遇。看来，在代码世界中，中文问题会在很长一段时间里跟我们形影不离。这也难怪，谁让当初发明计算机的不是我们中国人呢，否则，现在全世界的计算机都支持而且必须支持GBK，这样，写这样文章的人就不会是我了，而是大洋彼岸的一个金发碧眼的程序员，而且标题也相应改为 “studying the english problem in ‘大蟒’ ”。。哈哈
        YY而已，还是面对现实问题吧。相对java而言，中文问题在Python中的表现更为激烈。“激烈”的意思不是说更为严重或者说难于解决，只是Python对于decode＆encode错误的默认处理方式为strict，也就是直接报错，而java使用replace的方式来处理了，因此java出现中文问题后会打印出很多”??”。此外，Python的默认的encoding是ASCII，而java的默认encoding跟操作系统的encoding是一致的。在这一点上，我觉得java更为合理，这样对程序员更为友好，也减少了newbies 开始时的挫折感，是有利于语言的推广的。但是，Python也有它的道理，毕竟ASCII是唯一的全世界所有平台都支持的字符集，而且问题始终是问题，始终会出现的，逃避它还不如早点面对它。
       好了，说了这么多，该说说Python中中文问题的症状了。在这之前，我们先要了解Python中有两种字符串，分别是一般的字符串（每个字符用8 bits表示）和Unicode字符串（每个字符用一个或者多个字节表示），它们可以相互转换。关于Unicode，Joel Spolsky 在 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) 中有生动的说明，Jason Orendorff 在 Unicode for programmers 有着更为全面的描述，在此我就不再多说什么了。来看下面的代码：

    python 代码

       1. x = u”中文你好”
       2. print s

        运行上述代码，Python会给出下面的错误提示

       1. SyntaxError: Non-ASCII character ’\xd6′ in file G:\workspace\chinese_problem\src\test.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

       说是遇到非ASCII字符了，并让我们参考pep-0263。PEP-0263（Python Enhancement Proposal）上面说得很清楚了，Python也意识到了国际化问题，并提出了解决方案。根据提案上面的要求，我们有如下代码

    python 代码

       1. # -*- coding:gb2312 -*- ＃必须在第一行或者第二行
       2. print ”————-code 1—————-”
       3. a = ”中文a我爱你”
       4. print a
       5. print a.find(”我”)
       6. b = a.replace(”爱”, ”喜欢”)
       7. print b
       8. print ”————–code 2—————-”
       9. x = ”中文a我爱你”
      10. y = unicode(x, ”gb2312″)
      11. print y.encode(”gb2312″)
      12. print y.find(u”我”)
      13. z = y.replace(u”爱”, u”喜欢”)
      14. print z.encode(”gb2312″)
      15. print ”—————code 3—————-”
      16. print y

        程序运行的结果如下：

       1. ————-code 1—————-
       2. 中文a我爱你
       3. 5
       4. 中文a我喜欢你
       5. ————–code 2—————-
       6. 中文a我爱你
       7. 3
       8. 中文a我喜欢你
       9. —————code 3—————-
      10. Traceback (most recent call last):
      11.   File ”G:\Downloads\eclipse\workspace\p\src\hello.py”, line 16, in <module>
      12.     print y
      13. UnicodeEncodeError: ’ascii’ codec can’t encode characters in position 0-1: ordinal not in range(128)

         我们可以看到，通过引入编码声明，我们可以正常地在使用中文了，而且在code 1和2中，控制台也能正确的把中文打印出来。但是，很明显，上面的代码也反映出了不少的问题：
        1、code 1 和 2在使用print时采用了不同的方式，1是直接print，而2在print之前先进行编码
        2、code 1 和 2中在同样的字符串查找同一个字符“我”，得出的结果不一样（分别是5和3）
        3、code 3 中直接打印unicode字符串 y时出现错误（这也是为什么code 2中要先进行编码的原因）

        为什么？为什么？我们可以先在脑海中模拟一下我们使用Python的流程：首先，我们先用编辑器编写好源代码，保存成文件。如果源代码中有编码声明而且用的编辑器支持该语法，那么该文件就以相应的编码方式保存在磁盘中。注意：编码声明和源文件的编码不一定是一致的，你完全可以在编码声明中声明编码为UTF-8，但是用GB2312来保存源文件。当然，我们不可能自寻烦恼，故意写错，而且好的IDE也能强制保证两者的一致性，但是，如果我们用记事本或者EditPlus等编辑器来编写代码的话，一不小心就会出现这种问题的。
        得到一个.py文件后，我们就可以运行它了，这是，我们就把代码交给Python解析器来完成解析工作。解析器读入文件时，先解析文件中的编码声明，我们假设文件的编码为gb2312，那么先将文件中的内容由gb2312转换成 Unicode，然后再把这些Unicode转换为UTF-8格式的字节串。完成这一步骤后，解析器把这些UTF-8字节串分段，解析。如果遇到使用 Unicode字符串，那么就使用相应的UTF-8字节串创建Unicode字符串，如果程序中使用的是一般的字符串，那么解析器先将UTF-8字节串通过Unicode转换成相应编码（这里就是gb2312编码）的字节串，并用其创建一般的字符串对象。也就是说，Unicode字符串跟一般字符串在内存中的存放格式是不一样的，前者使用UTF-8的格式，后者使用GB2312格式。
        好了，内存中的字符串存放格式我们知道了，下面我们要了解print的工作方式。print其实只是负责把内存中相应的字节串交给操作系统，让操作系统相应的程序（譬如cmd窗口）进行显示。这里有两种情况：
       1、若字符串是一般的字符串，那么print只需把内存中相应的字节串推送给操作系统。如例子中的code 1。
        2、如果字符串是Unicode字符串，那么print在推送之前先进行相应的encode：我们可以显示使用Unicode的encode方法使用合适的编码方式来编码（例子中code 2），否则Python使用默认的编码方式进行编码，也就是ASCII（例子中的code 3）。当然ASCII是不可能正确编码中文的，因此Python报错。
        至此，上面的三个问题我们已经可以解析第一和第三个了。至于第二个问题，因为Python中有两种字符串，一般字符串和Unicode字符串，两者都有各自的字符处理方法。对于前者，方法是以字节的方式进行的，而且在GB2312中，每个汉字占用两个字节，因此得到的结果是5；对于后者，也就是Unicode字符串，所有字符都是统一看待的，因此得到3。
         虽然上面只提到了控制台程序的中文问题，但是文件读写以及网络传输中出现的中文问题在原理上都是类似的。Unicode的出现可以很大程度上解决软件的国际化问题，同时Python为Unicode提供了极为良好的支持，因此，我建议大家在编写Python的程序时，都统一使用Unicode方式。保存文件时使用UTF-8的编码方式。How to Use UTF-8 with Python有详细的描述，大家可以参考一下。
        Python中能导致出现中文问题的地方还很多，譬如文件的读写，网络数据的传输等，希望大家能多多交流，共同解决这些问题。

分享到：

【转载】FireBug的控制台管理 | Java四舍五入和数字的格式化

2010-03-31 13:03
浏览 933
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于深度学习的智能中文文本检校方法.pdf: 在知识点中，涉及深度学习、自然语言处理、句法分析、语言模型、语义分析等领域的技术概念，这些都是当前人工智能技术研究的前沿方向，对于理解智能中文文本检校方法的原理和实现具有重要意义。此外，还讨论了校对...

des.rar_shipinluzhi: 同时，由于内容是转载自网络，这意味着它可能是社区共享的知识，旨在帮助开发者解决问题或学习新技能。标签"shipinluzhi"再次确认了主题是关于视频直播技术，这可能包括直播编码、推流、流媒体服务器、播放器开发...

算法_Java转C_红宝书重要程序_学习参考_1741862469.zip: c语言学习

人脸识别_活体检测_眨眼检测_自动捕捉服务名Face_Liv_1741771519.zip: 人脸识别项目源码实战

视觉处理_自动裁剪_显著区检测_OpenCV_图像优化用途_1741779446.zip: 人脸识别项目源码实战

基于pringboot框架的图书进销存管理系统的设计与实现（Java项目编程实战+完整源码+毕设文档+sql文件+学习练手好项目）.zip: 本图书进销存管理系统管理员功能有个人中心，用户管理，图书类型管理，进货订单管理，商品退货管理，批销订单管理，图书信息管理，客户信息管理，供应商管理，库存分析管理，收入金额管理，应收金额管理，我的收藏管理。用户功能有个人中心，图书类型管理，进货订单管理，商品退货管理，批销订单管理，图书信息管理，客户信息管理，供应商管理，库存分析管理，收入金额管理，应收金额管理。因而具有一定的实用性。本站是一个B/S模式系统，采用Spring Boot框架，MYSQL数据库设计开发，充分保证系统的稳定性。系统具有界面清晰、操作简单，功能齐全的特点，使得图书进销存管理系统管理工作系统化、规范化。本系统的使用使管理人员从繁重的工作中解脱出来，实现无纸化办公，能够有效的提高图书进销存管理系统管理效率。关键词：图书进销存管理系统；Spring Boot框架；MYSQL数据库

基于动态规划和模型预测控制的并联混合电动汽车最佳控制简介：利用动态规划，使用模型预测控制，实现对并联混合动力电动汽车的最佳控制，并降低总体成本函数使用动态规划可以实现混合动力电动汽车的优化控制: 基于动态规划和模型预测控制的并联混合电动汽车最佳控制简介：利用动态规划，使用模型预测控制，实现对并联混合动力电动汽车的最佳控制，并降低总体成本函数使用动态规划可以实现混合动力电动汽车的优化控制混合动力电动汽车的模型预测控制是通过使用动态规划在缩短的时域内实现的代码为纯matlab脚本，附带说明电子文档 ,并联混合电动汽车; 动态规划; 模型预测控制; 最佳控制; 总体成本函数; Matlab脚本。,动态规划与模型预测控制在并联混合动力电动汽车的最优控制策略

人脸识别_性别年龄检测_白色方框标识_娱乐社交用途_1741779124.zip: 人脸识别项目实战

2025 DeepSeek技术全景解析-重塑全球AI生态的中国力量.pdf: 2025 DeepSeek技术全景解析-重塑全球AI生态的中国力量.pdf

Python实现的bilibili视频爬取脚本: 能够爬取非会员视频和音频资源，可通过ffmpeg等工具将视频资源和音频资源合并

基于差分进化算法DE的机器人路径规划本产品基于优化的差分进化算法，专为机器人山地路径规划而设计通过模拟差分进化过程中的变异、交叉与选择机制，算法能够智能探索并确定最优行进路线，全面考量路径长度、: 基于差分进化算法DE的机器人路径规划本产品基于优化的差分进化算法，专为机器人山地路径规划而设计通过模拟差分进化过程中的变异、交叉与选择机制，算法能够智能探索并确定最优行进路线，全面考量路径长度、能量消耗及地形适应性优化之处在于融合了动态差分权重与精英保留策略，显著增强了算法的搜索效率和求解质量，有效规避了早熟收敛的风险该算法在山地这一复杂且多变的自然环境中展现出卓越性能，完美适配于机器人探险、山地救援、环境监测等多种应用场景我们矢志为用户提供卓越、稳健的机器人路径规划方案，推动各类山地作业迈向更为精确与高效的路径规划新时代 ,差分进化算法DE; 机器人路径规划; 山地路径规划; 算法优化; 早熟收敛风险规避; 山地探险应用场景; 环境监测场景。,DE算法赋能机器人，优化山地路径规划方案

情侣游戏情侣飞行棋10元真心话大冒险情侣情趣骰子php源码.zip: 情侣游戏情侣飞行棋10元真心话大冒险情侣情趣骰子php源码 ----- 程序特色 ----- 1、完整的分销制度，可自定义多种不同的返佣比例 2、支持情侣飞行棋、情趣骰子，多种等级 3、无感微信自动授权登录，支持微信第三方授权登录 4、完全开源无加密

HeidiSQL的12.2.0.6576安装压缩包: HeidiSQL的12.2.0.6576安装压缩包

监护人，小孩和玩具数据集 4647张原始图片监护人食物孩子玩具精确率可达85.4% yolov5pytorch格式: 监护人，小孩和玩具数据集 4647张原始图片监护人食物孩子玩具精确率可达85.4% yolov5pytorch格式

PHP进阶系列之Swoole入门精讲（课程视频）: 本课程是 PHP 进阶系列之 Swoole 入门精讲，系统讲解 Swoole 在 PHP 高性能开发中的应用，涵盖协程、异步编程、WebSocket、TCP/UDP 通信、任务投递、定时器等核心功能。通过理论解析和实战案例相结合，帮助开发者掌握 Swoole 的基本使用方法及其在高并发场景下的应用。适用人群：适合有一定 PHP 基础的开发者、希望提升后端性能优化能力的工程师，以及对高并发、异步编程感兴趣的学习者。能学到什么：掌握 Swoole 基础——理解 Swoole 的核心概念，如协程、异步编程、事件驱动等。高并发处理——学习如何使用 Swoole 构建高并发的 Web 服务器、TCP/UDP 服务器。实战项目经验——通过案例实践，掌握 Swoole 在 WebSocket、消息队列、微服务等场景的应用。阅读建议：建议先掌握 PHP 基础，了解 HTTP 服务器和并发处理相关概念。学习过程中，结合官方文档和实际项目进行实践，加深理解，逐步提升 Swoole 开发能力。

机器人先进视觉赛-基于深度学习yolov8的3D识别项目源码含gui界面（最新发布）.zip: 机器人先进视觉赛-基于深度学习yolov8的3D识别项目源码含gui界面（最新发布）.zip 实现机器人的3D目标识别和分割功能支持深度图像的处理和分析【资源详情说明】【1】该项目为近期精心打造开发，完整代码。同时，配套资料一应俱全，涵盖详细的设计文档【2】项目上传前源码经过严格测试，在多种环境下均能稳定运行，功能完善且稳定运行，技术研究、教学演示还是项目实践，都能轻松复现，节省时间和精力。【3】本项目面向计算机相关专业领域的各类人群，对于高校学生，可作为毕业设计、课程设计、日常作业的优质参考；对于科研工作者和行业从业者，可作为项目初期立项演示，助力快速搭建原型，验证思路。【4】若具备一定技术基础，可在此代码上进行修改，以实现其他功能，也可直接用于毕设、课设、作业等。【5】小白，在配置环境或运行项目时遇到困难，可提供远程指导和全方位技术支持。欢迎下载学习本项目资源，期待与你共同探讨技术问题，交流项目经验！

Matlab实现TSO-XGBoost多变量回归预测 Matlab实现TSO-XGBoost多变量回归预测，金枪鱼算法优化XGBoost多变量回归预测 1.data为数据集，7个输入特征，1个输出特: Matlab实现TSO-XGBoost多变量回归预测 Matlab实现TSO-XGBoost多变量回归预测，金枪鱼算法优化XGBoost多变量回归预测 1.data为数据集，7个输入特征，1个输出特征 2.MainTSO XGboost.m为主程序文件，其他为函数文件，无需运行 3.命令窗口输出R2、MAE、MAE和RMSEP等评价指标，可在下载区获取数据和程序内容注意程序和数据放在一个文件夹，文件夹不可以XGBoost命名，因为有函数已经用过，运行环境为 Matlab2018及以上，预测效果如下 ,TSO-XGBoost; 多变量回归预测; Matlab实现; 金枪鱼算法优化; 评价指标; 预测效果; 文件夹结构; 运行环境,Matlab中TSO-XGBoost多变量回归预测优化实践

直播实时音视频SRT1.0协议中文完整版: 实时音视频SRT协议中文完整版

学习WiFi，入手资料: 学习WiFi，入手资料

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论