- 浏览: 3438799 次
- 性别:
- 来自: 珠海
文章分类
- 全部博客 (1633)
- Java (250)
- Android&HTML5 (111)
- Struts (10)
- Spring (236)
- Hibernate&MyBatis (115)
- SSH (49)
- jQuery插件收集 (55)
- Javascript (145)
- PHP (77)
- REST&WebService (18)
- BIRT (27)
- .NET (7)
- Database (105)
- 设计模式 (16)
- 自动化和测试 (19)
- Maven&Ant (43)
- 工作流 (36)
- 开源应用 (156)
- 其他 (16)
- 前台&美工 (119)
- 工作积累 (0)
- OS&Docker (83)
- Python&爬虫 (28)
- 工具软件 (157)
- 问题收集 (61)
- OFbiz (6)
- noSQL (12)
最新评论
-
HEZR曾嶸:
你好博主,这个不是很理解,能解释一下嘛//左边+1,上边+1, ...
java 两字符串相似度计算算法 -
天使建站:
写得不错,可以看这里,和这里的这篇文章一起看,有 ...
jquery 遍历对象、数组、集合 -
xue88ming:
很有用,谢谢
@PathVariable映射出现错误: Name for argument type -
jnjeC:
厉害,困扰了我很久
MyBatis排序时使用order by 动态参数时需要注意,用$而不是# -
TopLongMan:
非常好,很实用啊。。
PostgreSQL递归查询实现树状结构查询
Python 字符编码判断 http://blog.sina.com.cn/s/blog_44c781ec0100sgsh.html
http://my.oschina.net/eonezhang/blog/125440
http://my.oschina.net/eonezhang/blog/125440
def is_chinese(uchar): """判断一个unicode是否是汉字""" if uchar >= u'\u4e00' and uchar<=u'\u9fa5': return True else: return False def is_number(uchar): """判断一个unicode是否是数字""" if uchar >= u'\u0030' and uchar<=u'\u0039': return True else: return False def is_alphabet(uchar): """判断一个unicode是否是英文字母""" if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'): return True else: return False def is_other(uchar): """判断是否非汉字,数字和英文字符""" if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)): return True else: return False def B2Q(uchar): """半角转全角""" inside_code=ord(uchar) if inside_code<0x0020 or inside_code>0x7e: #不是半角字符就返回原来的字符 return uchar if inside_code==0x0020: #除了空格其他的全角半角的公式为:半角=全角-0xfee0 inside_code=0x3000 else: inside_code+=0xfee0 return unichr(inside_code) def Q2B(uchar): """全角转半角""" inside_code=ord(uchar) if inside_code==0x3000: inside_code=0x0020 else: inside_code-=0xfee0 if inside_code<0x0020 or inside_code>0x7e: #转完之后不是半角字符返回原来的字符 return uchar return unichr(inside_code) def stringQ2B(ustring): """把字符串全角转半角""" return "".join([Q2B(uchar) for uchar in ustring]) def uniform(ustring): """格式化字符串,完成全角转半角,大写转小写的工作""" return stringQ2B(ustring).lower() def string2List(ustring): """将ustring按照中文,字母,数字分开""" retList=[] utmp=[] for uchar in ustring: if is_other(uchar): if len(utmp)==0: continue else: retList.append("".join(utmp)) utmp=[] else: utmp.append(uchar) if len(utmp)!=0: retList.append("".join(utmp)) return retList if __name__=="__main__": #test Q2B and B2Q for i in range(0x0020,0x007F): print Q2B(B2Q(unichr(i))),B2Q(unichr(i)) #test uniform ustring=u'中国 人名a高频A' ustring=uniform(ustring) ret=string2List(ustring) print ret
发表评论
-
Htmlunit使用
2015-04-11 20:12 1110http://my.oschina.net/u/852445/ ... -
垂直爬虫 webmagic
2014-09-05 20:24 3048新版文档地址 http://webmagic.io/docs/ ... -
python Tkinter的一些记录
2013-10-14 11:06 18011. Label里面的文本对齐方式:http://www.hi ... -
Python中执行外部命令并捕获双向输出
2013-10-12 15:08 2440原文:http://my.oschina.net/qihh/b ... -
python: 界面开发Tkinter
2013-10-10 16:38 1685python GUI开发 工具选择 http://blog.c ... -
Python多线程学习
2013-10-08 09:39 1456http://www.cnblogs.com/tqsummer ... -
问题: Max retries exceeded with url
2013-10-07 11:36 29458解决一: http://stackoverflow.com/q ... -
python + request + lxml的几个例子
2013-10-06 22:09 4490例子没有加入失败后重做的功能,这个也可以考虑增加。 第三个例子 ... -
python对文件的创建等处理
2013-10-06 21:24 1182http://www.qttc.net/201209207.h ... -
python: json,base64 的使用
2013-10-06 19:12 2993JSON 1. import json 2. json.dum ... -
python requests 下载图片和数据库读取
2013-10-02 15:56 18584python requests 下载图片 de ... -
python类型转换
2013-10-01 14:12 1073http://jayzotion.iteye.com/blog ... -
Python:数组、列表(list)、字典(dict)、字符串(string)常用基本操作小结
2013-09-30 13:07 13719连接 list 与分割字符串h ... -
Python模块学习 ---- datetime
2013-09-30 09:39 2219[Python Tip]如何计算时间 ... -
python html parser库lxml的介绍和使用
2013-09-30 09:39 7425使用由 Python 编写的 lxml 实现高性能 XML 解 ... -
用Python操作Mysql和中文问题
2013-09-29 13:55 2651http://www.iteye.com/topic/5730 ... -
Python 字符串操作(截取/替换/查找/分割)
2013-09-29 13:01 6238python字符串连接 先介绍下效率比较低的,有些新手朋友就会 ... -
Python中使用中文
2013-09-29 10:25 1161http://blog.csdn.net/kernelspir ... -
Beautiful Soup 中文教程
2013-09-29 09:36 2817http://www.pythonclub.org/modul ... -
python + request + pyquery[安装失败]
2013-09-28 20:51 2194比urllib好用的requests http://www.b ...
相关推荐
本文实例讲述了python判断字符串编码的方法。分享给大家供大家参考,具体如下: 安装chardet模块 chardet文件夹放在/usr/lib/python2.4/site-packages目录下 [root@sha-sso-data01 chardet]# python Python 2.4.3 ...
`encode()`方法用于将字符串编码为字节序列,`decode()`则用于将字节序列解码回字符串。两者都需要指定编码格式,如UTF-8,GBK等,以确保正确处理各种字符。 最后,值得注意的是,**Python字符串是不可变的**,这...
Python 中的字符串编码问题是非常常见的,很多开发者在处理字符串时会遇到乱码问题。这个问题的根源是 Python 字符串的内部表示是 Unicode 编码,而在编码转换时需要以 Unicode 作为中间编码。因此,了解 encode 和...
本文实例讲述了Python字符编码判断方法。分享给大家供大家参考,具体如下: 方法一: isinstance(s, str) 用来判断是否为一般字符串 isinstance(s, unicode) 用来判断是否为unicode 或 if type(str).__name__!=...
在进行多语言网站开发或处理国际化数据时,字符串编码的判断是至关重要的一步。不同的编码方式将直接影响数据的存储、传输以及显示效果。尤其在中文环境下,常见的编码有UTF-8和GB2312两种。其中,UTF-8编码是国际...
Python字符串是编程中不可或缺的基本元素,它在Python中扮演着重要的角色。以下是对标题和描述中涉及的Python字符串知识点的详细说明: 1. **字符串的本质**:字符串是字符的序列,由一系列字符组成,每个字符都有...
本篇文章将详细解释如何使用`chardet`来判断字符串编码,并探讨Python中与编码相关的几个关键概念。 首先,让我们深入了解`chardet`库。在Python中,`chardet`是一个自动识别非ASCII字符编码的库,支持多种编码格式...
在Python编程语言中,统计字符串中的中英文字符、空格、数字和标点符号是一项常见的任务,这在数据...这个过程涉及了Python基础语法、字符串操作、Unicode编码以及文件读写等多个知识点,对于初学者来说是很好的练习。
python判断文件和字符串编码类型可以用chardet工具包,可以识别大多数的编码类型。但是前几天在读取一个Windows记事本保存的txt文件时,GBK却被识别成了KOI8-R,无解。 然后就自己写了个简单的编码识别方法,代码...
在这个过程中,了解Python字符串处理技术的深入应用对于实现功能至关重要。掌握这些技能不仅对于进行字符串的日常处理有帮助,而且在数据处理、网络编程、文件操作等多个领域也都是不可或缺的。 总结起来,Python...
Python作为一门高级编程语言,其内置的字符串处理能力十分强大,本篇将详细介绍Python中字符串的方法与操作。 首先,字符串的基本操作包括判断是否包含特定子串,这可以通过`__contains__()`方法实现,它会返回一个...
自Python 1.6版本以来,这些方法不断得到增强和完善,直至Python 3.7,它们提供了丰富的功能,涵盖了字符串操作的各个方面,包括格式化、搜索、替换、编码与解码等。 首先,`capitalize()`方法用于将字符串的第一个...
以下是对Python字符串常用方法的详细汇总与详解。 首先,进行大小写的转换,Python提供了 `.upper()` 和 `.lower()` 方法。`.upper()` 方法可以将字符串中的所有字符转为大写形式,而 `.lower()` 则将所有字符转为...
判断字符串是否包含emoji表情
### Python字符串编码识别模块Chardet简单应用 在日常编程工作中,我们经常遇到需要处理不同编码格式的文本文件。为了确保程序能正确解读这些文件的内容,我们首先需要确定其编码方式。Python提供了一个非常强大的...
#### 一、字符串中汉字与标点符号的判断方法 在进行文本处理时,经常需要判断一个字符串中包含了多少个汉字和标点符号。本篇文章将详细探讨如何实现这一功能,并深入理解其中涉及的Unicode编码知识。 #### 二、...
Python判断两个相等的中文字符串为false,将两个待比较的字符串都把unicode编码设为‘utf-8’也不能解决问题,具体原因如下: 1.首先查看待比较两个字符串的编码格式 ,使用命令 import chardet ...... string_code...