python乱码问题小计 -

安铁辉

浏览: 246327 次
性别:
来自: 杭州

最近访客更多访客>>

723499280

happinesss

zhbliye

it.flydream

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

python乱码问题小计

博客分类：

python

python

python乱码问题小计：
中文输出时遇到乱码，查了下，整理如下
首先区分代码编码格式，和本地编码，前者好理解，后者即程序把输出交给了操作系统，操作系统的编码就是本地编码
一般python代码习惯指定代码编码格式，如下：

#coding=utf-8
import re
print('中文')

那“中文”编码为utf-8，想想如果本地编码是gbk什么的，那“中文”的编码和本地编码一定不一致，交给操作系统解析一定出错
解决办法：

#coding=utf-8
import re
print(u'中文')

在输出前加上u,指定编码为unicode，问题是为什么unicode会正确编码？ python的默认编码就是unicode，我猜测如果是unicode编码的输出python会自动转码为本地编码

如下摘自网络：

为什么Python使用过程中会出现各式各样的乱码问题，明明是中文字符却显示成“\xe4\xb8\xad\xe6\x96\x87”的形式？
为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”？本文就来研究一下这个问题。
字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。
decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。
encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串str2转换成gb2312编码。
因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码
代码中字符串的默认编码与代码文件本身的编码一致。
如：s='中文'
如果是在utf8的文件中，该字符串就是utf8编码，如果是在gb2312的文件中，则其编码为gb2312。这种情况下，要进行编码转换，都需要先用decode方法将其转换成unicode编码，再使用encode方法将其转换成其他编码。通常，在没有指定特定的编码方式时，都是使用的系统默认编码创建的代码文件。
如果字符串是这样定义：s=u'中文'
则该字符串的编码就被指定为unicode了，即python的内部编码，而与代码文件本身的编码无关。因此，对于这种情况做编码转换，只需要直接使用encode方法将其转换成指定编码即可。
如果一个字符串已经是unicode了，再进行解码则将出错，因此通常要对其编码方式是否为unicode进行判断：
isinstance(s, unicode) #用来判断是否为unicode
用非unicode编码形式的str来encode会报错
如何获得系统的默认编码？
#!/usr/bin/env python
#coding=utf-8
import sys
print sys.getdefaultencoding()
该段程序在英文WindowsXP上输出为：ascii
在某些IDE中，字符串的输出总是出现乱码，甚至错误，其实是由于IDE的结果输出控制台自身不能显示字符串的编码，而不是程序本身的问题。
如在UliPad中运行如下代码：
s=u"中文"
print s
会提示：UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。这是因为UliPad在英文WindowsXP上的控制台信息输出窗口是按照ascii编码输出的（英文系统的默认编码是ascii），而上面代码中的字符串是Unicode编码的，所以输出时产生了错误。
将最后一句改为：print s.encode('gb2312')
则能正确输出“中文”两个字。
若最后一句改为：print s.encode('utf8')
则输出：\xe4\xb8\xad\xe6\x96\x87，这是控制台信息输出窗口按照ascii编码输出utf8编码的字符串的结果。
unicode(str,'gb2312')与str.decode('gb2312')是一样的，都是将gb2312编码的str转为unicode编码
使用str.__class__可以查看str的编码形式

分享到：

2012-08-24 11:59
浏览 1274
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

qtz40塔式起重机总体及塔身有限元分析法设计().zip: qtz40塔式起重机总体及塔身有限元分析法设计().zip

elasticsearch-8.17.4-windows-x86-64.zip: Elasticsearch是一个基于Lucene的搜索服务器

《基于YOLOv8的核废料处理机器人导航避障系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

谷歌地图数据采集: 美国纽约 HVAC Contractor (暖通空调承包商) 数据示例: 美国纽约HVAC(暖通空调)数据示例，谷歌地图数据包括：时间戳、名称、类别、地址、描述、开放网站、电话号码、开放时间、更新开放时间、评论计数、评级、主图像、评论、url、纬度、经度、地点id、国家等。在地理位置服务（LBS）中，谷歌地图数据采集尤其受到关注，因为它提供了关于各种商业实体的详尽信息，这对于消费者和企业都有极大的价值。本篇文章将详细介绍美国纽约地区的HVAC（暖通空调）系统相关数据示例，此示例数据是通过谷歌地图抓取得到的，展示了此技术在商业和消费者领域的应用潜力。无需外网，无需任何软件抓取谷歌地图数据：wmhuoke.com

2023-04-06-项目笔记 - 第四百五十五阶段 - 4.4.2.453全局变量的作用域-453 -2025.04-01: 2023-04-06-项目笔记-第四百五十五阶段-课前小分享_小分享1.坚持提交gitee 小分享2.作业中提交代码小分享3.写代码注意代码风格 4.3.1变量的使用 4.4变量的作用域与生命周期 4.4.1局部变量的作用域 4.4.2全局变量的作用域 4.4.2.1全局变量的作用域_1 4.4.2.453局变量的作用域_453- 2025-04-01

1_实验三扰码、卷积编码及交织.ppt: 1_实验三扰码、卷积编码及交织.ppt

北京交通大学901软件工程导论必备知识点.pdf: 北京交通大学901软件工程导论必备知识点.pdf

【MyBatis框架】常见面试题汇总：核心概念、功能特性及应用场景详解要求，具体阐述: 内容概要：本文档总结了 MyBatis 的常见面试题，涵盖了 MyBatis 的基本概念、优缺点、适用场合、SQL 语句编写技巧、分页机制、主键生成、参数传递方式、动态 SQL、缓存机制、关联查询及接口绑定等内容。通过对这些问题的解答，帮助开发者深入理解 MyBatis 的工作原理及其在实际项目中的应用。文档不仅介绍了 MyBatis 的核心功能，还详细解释了其在不同场景下的具体实现方法，如通过 XML 或注解配置 SQL 语句、处理复杂查询、优化性能等。适合人群：具备一定 Java 开发经验，尤其是对 MyBatis 有初步了解的研发人员，以及希望深入了解 MyBatis 框架原理和最佳实践的开发人员。使用场景及目标：①理解 MyBatis 的核心概念和工作原理，如 SQL 映射、参数传递、结果映射等；②掌握 MyBatis 在实际项目中的应用技巧，包括 SQL 编写、分页、主键生成、关联查询等；③学习如何通过 XML 和注解配置 SQL 语句，优化 MyBatis 性能，解决实际开发中的问题。其他说明：文档内容详尽，涵盖面广，适合用于面试准备和技术学习。建议读者在学习过程中结合实际项目进行练习，以更好地掌握 MyBatis 的使用方法和技巧。此外，文档还提供了丰富的示例代码和配置细节，帮助读者加深理解和应用。

《基于YOLOv8的智能电网设备锈蚀评估系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 《基于YOLOv8的智能电网设备锈蚀评估系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计

插头模具 CAD图纸.zip: 插头模具 CAD图纸.zip

《基于YOLOv8的港口集装箱起重机钢丝绳润滑状态监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。