python 种字符编码的问题 -

crocodile

浏览: 206447 次
性别:
来自: 北京

最近访客更多访客>>

这个名字妥了

geniusian

01jiangwei01

zjy_369

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

python 种字符编码的问题

博客分类：

Python&Django

Python GCC F#

Python中 u'吴'和'吴'有什么区别？

2009-04-27 00:20

这是我在水木问的一个问题

【在 wuyeguo (风中飘絮) 的大作中提到: 】
: 被Python的字符编码给搞糊涂了
: 下面是我做的一些测试
: >>> len("吴".decode("utf8").encode("gb18030"))
: 2
: >>> len("吴".decode("utf8").encode("utf8"))
: 3
: >>> len("吴".decode("utf8"))
: 1
: 上面的长度，是什么导致的呢？
: >>> a = u"吴"
: >>> b = "吴".decode("utf8")
: >>> id(a)
: 3085915248L
: >>> id(b)
: 3085916040L
: 这里为什么a和b的id不一样呢？
: >>> a
: u'\u5434'
: >>> b
: u'\u5434'
: >>> a == b
: True
: >>> e="a"
: >>> f="a"
: >>> id(e)
: 3086135712L
: >>> id(f)
: 3086135712L
: >>> g=u"吴"
: >>> id(g)
: 3085916136L
: >>> h=u"吴"
: >>> id(h)
: 3085916208L
: >>> hash(g)
: 1807260213
: >>> hash(h)
: 1807260213
: >>> hash(e)
: -468864544
: >>> hash(f)
: -468864544
: 环境
: Python 2.5.1 (r251:54863, Sep 17 2007, 02:13:54)
: [GCC 4.1.1 20070105 (Red Hat 4.1.1-52)] on linux2
: 谢谢

下面是水木的xxxss同学的精彩回答

>>> print repr(u"吴".encode("gb18030"))
'\xce\xe2'

这说明你看到的是汉字或者乱码，而python看到的是一个上面这两个字节的字符串对象。
对于python2.5而言,字符类型就两种，str和unicode。
而不是100多种，上面这个是什么类型？

>>> type('\xce\xe2')
<type 'str'>
>>> type('\xce')
<type 'str'>

这说明啥？这个字符串显然是str不是unicode.那长度呢
>>> len('\xce')
1
>>> len('\xe2')
1
>>> len('\xce\xe2')
2

这是很显然的，对不对，对python而言，他并不知道你这两个字节的东西是个汉字，
他也不知道你这个东西是个什么编码格式的，它只知道这是两个字符长度的str。
同样的：

>>> print repr(u"吴".encode("utf8"))
'\xe5\x90\xb4'
>>> print type(u"吴".encode("utf8"))
<type 'str'>

这说明utf8编码后的这个字符串是3个字符长度的str，对不对？
python并不会给你100多种编码的字符每个给你一个类型，比如utf8的叫utf8str,
gb18030的叫gb18030str，不会，他们都是一种类型：str，所以，上面两种编码的字符，
对于python而言，只是'\xce\xe2'和'\xe5\x90\xb4'的区别。

>>> print repr(u"吴")
u'\u5434'

看到了吧，这次是这样一个字符
>>> print type(u"吴")
<type 'unicode'>

这说明这是个unicode类型了，并且，这个unicode类型的对象的长度是1

现在明白了吧，对你来讲，字符之间的差别是编码方式，对python来讲，差别是类型。
它只是给你提供了一些转换编码的方法，但不同的只有两种类型。

第二个问题：
>>> help(id)
Return the identity of an object. This is guaranteed to be unique among
simultaneously existing objects. (Hint: it's the object's memory address.)

人家说的很明白了，返回的是object的内存地址，同时存在的对象之间是独立的。
你用u"吴"的时候，和你用"吴".decode("utf8")的时候的"吴"，对于python而言，
理论上时独立的，因为这是两次执行过程，并没有什么相关性，完全可以理解为
这是两个object，只是这两个str的值一样罢了，python并不保证两个值一样的object
就放在同一个内存地址内。
当然了，对于某些类型的对象，比如小int和简单ascii str，python为了优化，
会使用同样的内存地址存同样的值，但这并不保证。所以尽量不要去考虑这个。
你大可以认为，同一个生产线出来的轮子，长的再一样，它也是两个轮子，放在不同的
位置，占用不同的空间。
所以:
>>> id(u"吴")
11577488
>>> id(u"吴")
11577776
>>> id("吴")
13245696
>>> id("吴")
13650880
>>> id("吴")
13304864
>>> id("吴")
13245696

至于"=="的判断，这个并不是根据"=="的统一定义来的，而是根据每个不同的类型对于
__eq__ 这样的method的实现来的。所以并不一定说id一样就True，或者值一样就True
比如str类型，python对"__eq__"的定义是内容（也就是值)相同就返回True
所以才会有:
>>> a = '吴'
>>> b = '吴'
>>> a
'\xce\xe2'
>>> b
'\xce\xe2'
>>> id(a)
13745216
>>> id(b)
13743232
>>> id(a) == id(b)
False
>>> a == b
True

而对于基类object而言，"__eq__"就很简单了，id不同就不同
>>> x = object()
>>> y = object()
>>> x == y
False
>>> x
<object object at 0x00B20468>
>>> y
<object object at 0x00B20470>

分享到：

django 随记 | 在linux 下切换用户导致的命令无效的说明

2011-03-17 18:11
浏览 1076
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

python 种字符编码的问题

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

python 种字符编码的问题

评论

发表评论

相关推荐

django python

python下编译py成pyc和pyo

Django 卸载

使用python抓取网页(以人人网新鲜事和团购网信息为例)

p随笔

WingIDE开发工具下配置django调试环境

python的图表库

python

解题1

安装 mysql-python 一次性解决方案

easy_install

随记：models 中相互引用的问题

django 随记

安装配置Django开发环境（Eclipse + Pydev）

python 调用 webservice 的实现

最近访客更多访客>>