`
zuroc
  • 浏览: 1309723 次
  • 性别: Icon_minigender_1
  • 来自: 江苏
社区版块
存档分类
最新评论

发一个去除文本干扰字符的函数

阅读更多
#coding:utf-8

def defrag_txt(txt):#for unicode
    result = []
    pre_is_en = False
    stop_word = set(u' ,.。')
    for i in txt:
        num_i = ord(i)
        if i not in stop_word:
            if 0x4e00 <= num_i < 0x9fa6:
                result.append(i)
                continue
            if 97 <= num_i <= 122 or 65 <= num_i <= 90:
                result.append(i)
                pre_is_en = True
                continue
            if 48 <= num_i <= 57:
                result.append(i)
                continue
            num_diff = num_i-0xff10
            if 0 <= num_diff < 10:
                result.append(str(num_diff))
                continue
            pre_is_en = False
        else:
            if pre_is_en:
                result.append(i)
                pre_is_en = False
    return ''.join(result)


print defrag_txt(u"""腾//讯○电●话:1234567890""")

腾讯电话1234567890   
分享到:
评论
1 楼 fxsjy 2009-03-24  
有效果吗?我订阅了豆瓣的RSS,最近一个月总是有类似的广告。

相关推荐

    VB6.0从一串字符中只提取数字

    如果字符串中的数字连续且无其他干扰字符,自定义逻辑可能更为简单;而如果字符串中数字的格式复杂,包含多种可能的情况,那么正则表达式会更强大、灵活。 在提供的压缩包文件中,"从一串字符中取数字函数"可能是...

    网络爬虫-如何去除文本信息中的干扰数据-Python实例源码.zip

    3. **字符串方法**:Python的内置字符串方法,如`strip()`、`replace()`、`split()`等,可以帮助去除文本两侧的空白字符、替换特定字符或按分隔符切割字符串。 4. **列表推导式**:在处理大量文本数据时,列表推导...

    Python代码源码-实操案例-框架案例-如何去除文本信息中的干扰数据.….zip

    12. **文本清洗流水线**:为了提高效率,通常会建立一个文本清洗的流水线,按照一定的顺序执行各种预处理步骤,确保每个阶段都能有效地减少干扰数据。 13. **异常值检测**:某些干扰数据可能表现为异常值,比如过长...

    易语言源码易语言去除验证码干扰线源码.rar

    易语言去除验证码干扰线源码主要涉及以下几个知识点: 1. 图像处理:验证码通常由文本和干扰线组成的图像,因此我们需要用到图像处理技术来解析它。这可能包括灰度化、二值化、边缘检测等步骤,将图像转换为易于...

    opencv 图片处理,分割字符

    在计算机视觉领域,OpenCV(开源计算机视觉库)是一个强大的工具,用于图像处理和分析。...这些技术广泛应用于OCR(光学字符识别)、车牌识别、文档扫描等领域,为自动化处理大量文本信息提供了强有力的支持。

    易语言源码易语言删任意字符源码.rar

    - **核心函数**:实现删除任意字符功能,通常需要一个循环遍历字符串,结合条件判断来决定是否保留当前字符。可能涉及的函数有“字符串长度”(获取字符串长度)、“字符”(获取字符串中特定位置的字符)、“删除...

    python地下水位预测-08-字符串常用操作方法之修改之删除空白字符.ev4.rar

    `split()`可以基于一个分隔符(默认是任何空白字符)将字符串拆分为多个子字符串,形成一个列表。`join()`则将一个列表中的所有元素连接成一个新的字符串,元素之间可以用指定的连接符。 在地下水位预测的场景中,...

    JS去除字符串的空格增强版(可以去除中间的空格)

    函数接收两个参数,第一个参数是需要处理的字符串`str`,第二个参数`is_global`是一个布尔值,用于指示是否需要去除字符串中间的空格。函数内部首先使用带有全局标志的正则表达式去除字符串前后空格,如果`is_global...

    利用OD去除烦人的网页弹窗

    7. **保存修改**:完成上述步骤后,可以使用OD的“文件”菜单中的“保存映像”功能将修改后的程序保存为一个新的可执行文件。 8. **测试与验证**:运行新生成的可执行文件,确认弹窗已经被成功移除。同时,也要确保...

    javascript执行eval函数时利用正则表达式去掉回车符换行符和注释

    JavaScript中的`eval()`函数是一个非常强大的工具,它能够将字符串作为JavaScript代码来执行。然而,直接使用`eval()`可能存在安全风险,比如代码注入攻击。在某些特定场景下,我们需要对输入的字符串进行预处理,...

    python去除删除数据中\u0000\u0001等unicode字符串的代码

    在进行文本处理时,经常会遇到一些特殊字符或者控制字符,这些字符可能会干扰数据处理流程,导致解析错误或显示异常等问题。在Python中,\u0000 和 \u0001 分别代表 Unicode 字符集中的 NULL (NUL) 和 START OF ...

    易语言取有干扰码的网页数据

    同时,这也是一个很好的实践机会,能提升你在易语言环境下的网络编程能力。 总之,处理含有干扰码的网页数据是网络编程中的重要技能,而易语言提供了相应的工具和方法来应对这一挑战。通过深入研究和实践,你可以...

    js中过滤特殊字符的正则表达式

    正则表达式是一种强大的文本匹配工具,它能够定义一个搜索模式,用来匹配字符串中的字符组合。在处理用户输入的场景中,常常需要过滤掉输入内容中的特殊字符,以保证数据的安全性和有效性。 ### 正则表达式的构建和...

    PHP实现将科学计数法转换为原始数字字符串的方法

    如果输入字符串包含'e',函数将使用`preg_replace`函数和一个正则表达式`/[=\'"]/`来去除所有单引号、等号和双引号,这是为了清理输入的科学计数法字符串,避免干扰正则表达式的匹配。接下来,函数通过一个循环将...

    去掉内容里的html标签

    这里,`Jsoup.parse(html)`将HTML字符串解析为一个`Document`对象,然后`doc.text()`方法会返回没有HTML标签的纯文本内容。 在实际应用中,选择哪种方法取决于具体需求。如果只是简单处理,正则表达式可能已经足够...

    车牌识别(字符切割)大作业.docx

    对于小于阈值的区域,认为是干扰并去除。接着对处理后的图像进行归一化处理,准备进行字符识别。 【系统不足】: 尽管这个系统能够识别蓝色车牌的字符,但存在一定的局限性和不完整性,比如可能无法处理光照变化、...

    基于MATLAB的字符识别研究.doc

    MATLAB不仅是一个高效的数学计算工具,而且其图像处理工具箱提供了广泛的支持,涵盖各种图像格式,并包括了图像显示、文件I/O、算术运算、几何变换等众多功能。MATLAB的图像处理函数丰富多样,可以进行图像分析、...

    神器验证正则表达式去除复制代码前的序号

    "神器验证正则表达式去除复制代码前的序号"这一主题,主要涉及如何利用正则表达式来解决在编程或文本编辑时遇到的一个常见问题:代码块中的序号。 当我们在网页、文档或者代码仓库中复制代码段时,有时这些代码段会...

    js 正则匹配(去掉html标签)

    上述代码定义了一个`removeHtmlTags`函数,它接受一个包含HTML标签的字符串作为参数,并返回去除标签后的纯文本。 #### 四、注意事项 1. **正则表达式的局限性**:虽然正则表达式在处理简单的HTML文档方面表现...

Global site tag (gtag.js) - Google Analytics