`

pyhanlp 繁简转换之拼音转换与字符正则化

 
阅读更多

 

繁简转换

HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。

 

·说明

· HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“huang hou”中的两个“后”字,HanLP可以。

·算法详解

· 《汉字转拼音与简繁转换的Java实现》





 

 

汉字转拼音

 

HanLP中的汉字转拼音功能也十分的强大。

 

·说明

· HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。

· HanLP能够识别多音字,也能给繁体中文注拼音。

· 最重要的是,HanLP采用的模式匹配升级到AhoCorasickDoubleArrayTrie,性能大幅提升,能够提供毫秒级的响应速度!

·算法详解

· 《汉字转拼音与简繁转换的Java实现》



 

 



 

 

 

 



 

  

字符正则化

 

演示正规化字符配置项的效果(繁体->简体,全角->半角,大写->小写)。

该配置项位于hanlp.properties中,通过Normalization=true来开启(现在直接通过HanLP.Config.Normalization开启即可)。

 

切换配置后必须删除CustomDictionary.txt.bin缓存,否则只影响动态插入的新词。

在我动笔前一个星期,已经有同学添加了,添加自定义词典之后,自动删除缓存的功能。地址请点击https://github.com/hankcs/HanLP/pull/954,现在只需要开启正则化即可

 



 

1| HanLP.Config.Normalization = False

2|

3| [爱听4g]

4| [爱听4G]

5| [, G]

6| []

7| []

8| [喜欢]

9| [hankcs, 灣寫]

10|

11| HanLP.Config.Normalization = True

12|

13| [爱听4g]

14| [爱听4g]

15| [爱听4g]

16| [爱听4g]

17| [爱听4g]

18| [喜欢, 4, g]

19 |[hankcs, , taiwan代码]

20| 現在的HanLP已經新增了新增自定義詞典之後,自動刪除快取的功能,現在只需要開啟正則化即可

21| [现在, hanlp, 已经新增新增自定义词典之后, ,, 自动删除功能, ,, 现在需要开启即可]

 

---------------------

  

 

  • 大小: 46.6 KB
  • 大小: 23.5 KB
  • 大小: 56.8 KB
  • 大小: 23.3 KB
  • 大小: 57.1 KB
  • 大小: 56.4 KB
分享到:
评论

相关推荐

    正则表达式转换工具

    - 自动化转换:工具能自动识别输入内容并生成相应的正则表达式。 - 模式测试:提供测试区域,用户可以输入文本,检查转换后的正则表达式是否有效。 - 反向匹配:从目标字符串出发,生成能够匹配该字符串的正则...

    正则表达式 特殊字符

    在深入探讨正则表达式的特殊字符之前,我们首先需要理解正则表达式的基本概念及其在文本处理中的重要作用。正则表达式(Regular Expression)是一种强大的文本模式匹配工具,广泛应用于字符串搜索、替换以及数据提取...

    繁简转换工具 用来查看繁体乱码好用

    标题中的“繁简转换工具”指的是能够将繁体中文字符转换为简体中文字符,或者相反操作的软件或在线服务。这种工具在处理不同编码格式的文本时特别有用,尤其对于那些需要处理繁体和简体中文混合内容的用户。在IT领域...

    【全站】简繁体转换JS插件

    实现这样的功能,开发者可能采用了DOM遍历技术,结合正则表达式来匹配和转换中文字符。同时,为了避免浏览器缓存导致的转换失效问题,用户在启用或更改转换设置后,提示清除浏览器缓存是必要的,这样可以确保用户...

    正则表达式不包涵特殊字符(除了 指定字符 以外)

    在探讨如何利用正则表达式来判断一个字符串除指定字符外不包含其他特殊字符之前,我们首先需要了解正则表达式的基本概念以及本场景中的具体需求。 ### 正则表达式简介 正则表达式是一种强大的文本处理工具,能够...

    VFP简繁体转换

    在VFP中,我们可以利用特定的动态链接库(DLL)和对象链接与嵌入控件(OCX)来实现简繁体转换。在提供的文件列表中,“简繁体转换-gb2big.dll”和“简繁体转换-big2gb.ocx”就是这样的组件。它们分别用于将简体字...

    UTF8编码内的繁简转换的PHP类

    在当今的网络世界中,随着全球化和多语言环境的形成,处理不同语言版本的...随着全球化的发展,中文繁简转换的需求只会越来越多,因此,掌握这一技术,对于开发国际化互联网应用的开发者来说,是一个不可忽视的技能点。

    java 字符串 正则表达式 详细实例代码

    - `Pattern.compile(regex)`编译正则表达式为模式对象,`Matcher`对象通过`Pattern`对象的`matcher(String input)`方法与输入字符串关联。 - 常用的正则表达式方法有`matches()`、`find()`、`replaceAll(String ...

    字符串与正则表达式使用与实例

    在实际开发中,掌握字符串和正则表达式的使用技巧,能够帮助你编写出更高效、更精确的代码,处理各种文本数据的清洗、验证和转换。在需要处理大量文本或进行复杂模式匹配时,这两者更是不可或缺的工具。

    labview格式化字符串与正则表达式

    在LabVIEW中,格式化字符串和正则表达式是两个重要的字符串处理技术,用于数据表示和文本匹配。 **一、格式化字符串** 1. **字符串格式化**:在LabVIEW中,可以使用`Format String`函数来创建和格式化字符串。这个...

    PHP 通用正则验证 汉字转拼音

    PHP的正则表达式库提供了一种强大的方式来处理字符串,可以用来验证输入数据、提取信息、格式化输出等。正则表达式是由特殊字符和普通字符组成的模式,用于匹配字符串。在PHP中,我们可以使用`preg_match()`、`preg...

    C# 汉字转换成拼音码和五笔码

    在IT领域,尤其是在编程实践中,有时我们需要处理汉字与拼音、五笔码之间的转换。这个名为"C# 汉字转换成拼音码和五笔码"的程序,正是为了解决这样的需求而设计的。它主要涉及到以下几个核心知识点: 1. **C#编程...

    PHP 笔记001 - 字符串、正则表达式

    字符串处理包括对字符串的各种操作,如转义、编码转换、替换等。正则表达式则是一种强大的文本匹配工具,它允许我们在字符串中搜索、匹配和提取特定的文本模式。 ### 字符串处理 PHP提供了丰富的字符串处理函数,...

    Android常用字符串匹配正则

    isMobileSimple : 验证手机号(简单) isMobileExact : 验证手机号(精确) isTel : 验证电话号码 isIDCard15 : 验证身份证号码15位 isIDCard18 : 验证身份证号码18位 ...getReplaceAll : 替换所有正则匹配的部分

    匹配中文字符的正则表达式

    ### 匹配中文字符的正则表达式 在日常开发工作中,经常需要处理各种各样的字符串,其中就包括中文字符的处理。对于中文字符的匹配,正则表达式是一种非常有效的工具。 #### 正则表达式的概念 正则表达式(Regular...

    字符串、字符和正则表达式

    例如,`Regex.IsMatch`方法用于测试一个字符串是否与正则表达式匹配,`Regex.Replace`则可以替换所有匹配的子串。正则表达式的语法复杂且功能强大,包括通配符、字符类、量词和分组等概念,学习和掌握正则表达式能够...

    批量字符编码转换工具 20070709

    2 强大正则表达式支持字符编码转换软件 是唯一同时支持用正则表达式匹配和排除要转换文件夹的批量编码转换工具。 批量字符编码转换工具是文件编码转换的最佳工具。是您必备的unicode编码转换器,它帮助您快速完成编码...

    python字符串与正则表达式.pdf

    python字符串与正则表达式

    易语言正则实现进制转换

    本文将深入探讨如何利用易语言和正则表达式来实现不同进制之间的转换。 进制转换通常包括从十进制到二进制、二进制到十进制、以及二进制和十六进制之间的转换。在易语言中,我们可以创建函数或子程序来完成这些转换...

    正则表达式转换为NFA

    正则表达式是一种强大的文本处理工具,用于匹配和操作字符串模式。它们在编程语言中广泛使用...通过阅读和理解这段代码,可以深入学习正则表达式与NFA之间的转换原理,这对于理解和优化正则表达式匹配算法非常有帮助。

Global site tag (gtag.js) - Google Analytics