python 字符串中的中文识别

全部 Ruby Python PHP Flash C++ .net Rails Flex C C# Django

浏览 10296 次

锁定老帖子主题：python 字符串中的中文识别精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
yangsq 等级: 初级会员性别: 文章: 5 积分: 80 来自: 北京	发表时间：2007-11-21 相关推荐: Python识别字符串字符串python language显示第一个字符_python 字符串中的中文识别 python字符串编码识别模块chardet简单应用 python字符串删除字符_Python字符串中删除特定字符的方法 python2.x 中文字符串的截取更多相关推荐 Python python的中文问题一直是让人不爽的一件事情，而python的一个强大之处恰恰是string的处理，而且string就难免不包含chinese。所以处理string中的chinese就变得很重要了。实验室的complex network项目，目前是数据处理阶段，考虑到python的高效和强大的string功能，我决定使用python对大量的数据进行处理。下面是一个简单的demo，先贴代码，然后进行说明： python 代码 # -- coding: gb18030 -- import string import re identify = string.maketrans('', '') delEStr = string.punctuation + ' ' + string.digits #ASCII 标点符号，空格和数字 delCStr = '《》（）&%￥#@！{}【】' s = '中华人民共和国（北京）' s = s.translate(identify, delEStr) #去掉ASCII 标点符号和空格 if re.findall('[\x80-\xff].', s): #s为中文 s = s.translate(identify, delCStr) print s else: #s为英文 print s 当然，首先是要import string和re（这里需要正则表达式功能）。 delEStr是一个包含英文标点符号和数字的字符串，就如 '(){}<>1234 ' 这样。delCStr是一个包含中文标点符号的字符串。s是一个测试字符串。 12行的功能就是把s中的英文标点符号都删除。下面一句是关键： python 代码 re.findall('[\x80-\xff].', s) 这行代码将返回一个list，如果s中包含中文，则返回一个包含每个汉字的非空的list，如果s中不包含中文，则返回一个空list（即[ ]）。第14行要删除这个含中文的字符串中的中文标点符号。运行这段程序，打印出来的是“中华人民共和国北”，“京”呢？不见了。这就是python让人头疼的地方。错误出在第14行，可能原因是“京”的unicode编码和某两个相邻标点的组合编码相同了。我现在还没找到好的解决办法这段代码最主要的应用就是translate和findall两个函数，不过在使用translate函数之前要构造一个identify，就像第5行代码那样。出现了问题是好事，它可以促使自己更加深入的去学习，并且现在处于学习阶段，多遇到问题毕竟是好事，继续学习ing.... 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

limodou 等级: 性别: 文章: 9 积分: 142	发表时间：2007-11-21 建议使用真正的unicode来处理，你说的并不是unicode。
返回顶楼	回帖地址 0 0 请登录后投票

guotie 等级: 初级会员性别: 文章: 67 积分: 40 来自: 南京	发表时间：2007-11-30 # -- coding: gb18030 -- # -- coding: utf-8 --
返回顶楼	回帖地址 0 0 请登录后投票

MountLion 等级: 初级会员文章: 9 积分: 38 来自: ...	发表时间：2007-12-02 # -- coding: utf-8 -- s = '中华人民共和国（北京）' print s.encode('gb18030') # or print s 把程序文件保存成utf-8格式的即可。
返回顶楼	回帖地址 0 0 请登录后投票

harry 等级: 性别: 文章: 47 积分: 262 来自: 杭州	发表时间：2008-05-05 s = u'中华人民共和国（北京）'
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 编程语言技术版

跳转论坛: