`
yangsq
  • 浏览: 182323 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

python 字符串中的中文识别

阅读更多

python的中文问题一直是让人不爽的一件事情,而python的一个强大之处恰恰是string的处理,而且string就难免不包含chinese。所以处理string中的chinese就变得很重要了。

实验室的complex network项目,目前是数据处理阶段,考虑到python的高效和强大的string功能,我决定使用python对大量的数据进行处理。

下面是一个简单的demo,先贴代码,然后进行说明:

python 代码
  1. # -*- coding: gb18030 -*-   
  2. import string  
  3. import re  
  4.   
  5. identify = string.maketrans('', '')   
  6.   
  7. delEStr = string.punctuation + ' ' + string.digits  #ASCII 标点符号,空格和数字   
  8. delCStr = '《》()&%¥#@!{}【】'   
  9.   
  10. s = '中华人民共和国(北京)'   
  11.   
  12. s = s.translate(identify, delEStr) #去掉ASCII 标点符号和空格   
  13. if re.findall('[\x80-\xff].', s):    #s为中文   
  14.    s = s.translate(identify, delCStr)   
  15.    print s   
  16. else#s为英文   
  17.     print s  

当然,首先是要import string和re(这里需要正则表达式功能)。

delEStr是一个包含英文标点符号和数字的字符串,就如 '(){}<>1234 ' 这样。delCStr是一个包含中文标点符号的字符串。s是一个测试字符串。

12行的功能就是把s中的英文标点符号都删除。下面一句是关键:

python 代码
  1. re.findall('[\x80-\xff].', s)  

这行代码将返回一个list,如果s中包含中文,则返回一个包含每个汉字的非空的list,如果s中不包含中文,则返回一个空list(即[ ])。

第14行要删除这个含中文的字符串中的中文标点符号。

运行这段程序,打印出来的是“中华人民共和国北”,“京”呢?不见了。这就是python让人头疼的地方。错误出在第14行,可能原因是“京”的unicode编码和某两个相邻标点的组合编码相同了。我现在还没找到好的解决办法

这段代码最主要的应用就是translate和findall两个函数,不过在使用translate函数之前要构造一个identify,就像第5行代码那样。

出现了问题是好事,它可以促使自己更加深入的去学习,并且现在处于学习阶段,多遇到问题毕竟是好事,继续学习ing....

 

分享到:
评论
5 楼 goldmaster 2012-10-22  
if re.findall('[gb18030].', s):    #s为中文
it's ok now
4 楼 harry 2008-05-05  
s = u'中华人民共和国(北京)'
3 楼 MountLion 2007-12-02  
# -*- coding: utf-8 -*-

s = '中华人民共和国(北京)'
print s.encode('gb18030')  # or print s

把程序文件保存成utf-8格式的即可。
2 楼 guotie 2007-11-30  
# -*- coding: gb18030 -*-   
# -*- coding: utf-8 -*-   
1 楼 limodou 2007-11-21  
建议使用真正的unicode来处理,你说的并不是unicode。

相关推荐

    python统计字符串中中英文、空格、数字、标点个数

    在Python编程语言中,统计字符串中的中英文字符、空格、数字和标点符号是一项常见的任务,这在数据处理和文本分析中非常有用。本文将详细介绍如何实现这一功能,并探讨相关知识点。 首先,我们需要理解Python中处理...

    统计字符串中汉字、字母、数字、英文标点、中文标点个数

    在Python中,我们可以使用内置的`str`类的`isalpha()`、`isdigit()`、`isspace()`等方法来判断字符类型,或者使用`ord()`函数获取字符的Unicode编码来识别中文和中文标点。以下是一个简单的实现示例: ```python ...

    Python识别字符串

    Python是一种跨平台的计算机程序设计语言。 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、...

    python字符串处理去掉符号加空格

    在Python编程语言中,字符串处理是一项常见的任务,特别是在数据清洗、文本分析或用户输入处理时。本主题将详细探讨如何去除字符串中的特殊符号、多余空格以及首尾空格,并在中文与英文之间添加空格。 1. 去掉特殊...

    Python-Levenshtein快速计算编辑距离以及字符串的相似度

    在Python编程环境中,Levenshtein库是一个非常实用的工具,用于计算两个字符串之间的编辑距离。编辑距离,也称为Levenshtein距离,是衡量两个字符串差异的一种度量,定义为由一个字符串转换成另一个字符串最少的单...

    python 提取文字段落中的日期字符串

    代码作用请参考我的文章《python 提取文字段落中的日期字符串》:https://blog.csdn.net/qq_23730073/article/details/126975066。 主要是提取阿拉伯数字的日期字符串,例如:需要识别的文字段,从“技术总是要...

    python查找字符串

    在Python编程中,字符串操作是极其基础且重要的部分。它涉及到文本处理、数据解析和许多其他功能。在处理自然语言任务,比如CONLL评测时,查找字符串的能力尤为关键。CONLL(CoNLL,Conference on Natural Language ...

    逗号字符串识别

    标题"逗号字符串识别"涉及到的关键知识点是处理和解析这样的字符串,以便有效地将它们转换为可操作的数据结构,如数据库中的字段。 1. **CSV格式介绍**: CSV格式是一种简单但灵活的数据交换格式,广泛用于导入和...

    Python 实现字符串中指定位置插入一个字符

    在Python编程语言中,字符串操作是一项非常基础且常用的功能。其中,有时我们需要在字符串的某个特定位置插入一个新的字符。这篇文档介绍了如何利用Python内置的数据结构和方法,实现这一需求。 首先,文档提到了一...

    字符串操作识别数字,并输出

    本主题主要关注如何通过编程识别字符串中的连续数字并将其存储到整型数组中。以下是对这一知识点的详细阐述。 首先,我们需要理解字符串的基本概念。在大多数编程语言中,字符串是由一个或多个字符组成的序列,通常...

    字符串与二维码之间的相互转换

    相反,从二维码解码回字符串的过程则涉及到读取二维码的图像,识别其模块分布,并解码为原始数据。这一过程需要图像处理技术,以及对二维码编码规范的理解。解码器会分析二维码的定位图案、版本信息、纠错级别等元素...

    字符串相似度算法 字符串相似度算法 字符串相似度算法

    在本文中,我们将讨论一种常用的字符串相似度算法:Levenshtein Distance。 什么是Levenshtein Distance? Levenshtein Distance(LD)是一种衡量两个字符串之间相似度的方法,衡量的是将源字符串(s)转换为目标...

    在Python中处理字符串之isdigit()方法的使用

    ### 在Python中处理字符串之isdigit()方法的使用 在Python编程语言中,处理字符串是非常常见且重要的任务之一。其中,`isdigit()`方法是用于检查一个字符串是否完全由数字组成的强大工具。这对于数据验证、格式化...

    Company-name-extract:该代码旨在从地址字符串中提取中文公司名称。 通过使用JIEBA和功能词列表,它可以从地址字符串中识别公司的确切名称

    在这个特定的案例中,我们关注的是从中文地址字符串中提取公司名称。这是一个典型的命名实体识别(NER)问题,通常用于信息抽取、搜索引擎优化和数据分析。下面将详细讨论相关知识点。 1. **命名实体识别(NER)**...

    python读写汉字转成中文

    总结来说,通过结合`xlrd`库读取Excel文件,`pypinyin`库处理中文转英文,以及Python的文件操作功能,我们可以实现从Excel文件中读取汉字数据,将其转换为英文并按照指定格式写入txt文件。这在数据处理和自动化任务...

    字符串解压缩

    在编程中,我们通常会使用现成的库函数或API,如Python的`zlib`模块,Java的`java.util.zip`包等,来处理字符串的压缩与解压缩任务。这些库已经实现了多种压缩算法,开发者可以根据需求选择合适的算法,并且使用起来...

    Python车牌检测识别代码(感觉还可以)

    5. 结果展示:将识别出的车牌号码组合成完整的字符串,并展示在原图上或者输出到日志文件。 总结起来,这个压缩包提供的资源可以让我们构建一个基本的车牌识别系统,结合`lpdr.py`中的逻辑,我们可以利用`model`中...

    python实现将字符串中的数字提取出来然后求和

    【Python字符串数字提取与求和】 在Python编程中,经常需要处理包含混合内容的字符串,例如,一个字符串可能由字母、数字和特殊字符组成。在某些情况下,我们需要从这样的字符串中提取出所有的数字并计算它们的总和...

    pb split() 字符串分割函数

    在编程领域,字符串处理是日常开发中的重要环节,而`split()`函数则是一个常见的字符串操作,用于将一个字符串按照特定的分隔符切分成多个子字符串。在这个场景中,我们关注的是一个名为"pb split()"的自定义字符串...

Global site tag (gtag.js) - Google Analytics