`

hanlp中文智能分词自动识别文字提取实例

阅读更多

 

需求:客户给销售员自己的个人信息,销售帮助客户下单,此过程需要销售人员手动复制粘贴收获地址,电话,姓名等等,一个智能的分词系统可以让销售人员一键识别以上各种信息

经过调研,找到了一下开源项目

1word 分词器

2ansj 分词器

3mmseg4j 分词器

4ik-analyzer 分词器

5jcseg 分词器

6fudannlp 分词器

7smartcn 分词器

8jieba 分词器

9stanford 分词器

10hanlp 分词器

 

最后选择了hanlp,步骤官网都有,下面演示智能匹配地址

1   List<Term> list = HanLP.newSegment().seg("汤姆江西省南昌市红谷滩新区111号电话12023232323");

2    System.out.println(list);

 

输出

 

1   [汤姆/nrf, 江西省/ns, 南昌市/ns, 红谷滩/nz, 新区/n, 111/m, /q, 电话/n, 12023232323/m]

 

大公告成,不过前提必须下载那个600Mdata包并导入,才可以识别地址,否则只是做了初步的识别

附上完整代码

 

   1     String str = "汤姆   江西省南昌市红谷滩新区111号     12023232323";

   2     String address = "";

   3     String phone = "";

   4     String name = "";

   5     List<Term> terms = NLPTokenizer.segment(str);

   6     System.out.println(terms);

   7     for (Term term : terms) {

   8         if (term.nature.startsWith("nr")){

   9             //nr代表人名

   10             name = term.word;

   11             System.out.println("name: " + term.word);

   12         }else if (term.nature.startsWith("m") && term.word.length() == 11){

   13             //m代表数字

    14            phone = term.word;

    15            System.out.println("电话: " + term.word);

    16        }

    17    }

 

    18    //由于地址包含了数字,解析的时候数字成为单独的个体,与实际不符,所以通过差集求出地址

    19    address = str.replace(phone, "").replace(name, "").trim();

    20    System.out.println("address: " + address);

 

运行结果

 

1    name: 汤姆

2    电话: 12023232323

3    address: 江西省南昌市红谷滩新区111

---------------------

作者:qq37755661

原文:https://blog.csdn.net/qq_37755661/article/details/80040847

 

分享到:
评论

相关推荐

    Hanlp分词实现从网络片段中提取省份和城市

    在这个场景中,我们关注的是如何利用Java语言和HanLP分词库来实现从网络片段中抽取省份和城市这一特定需求。HanLP是由科大讯飞开发的一款高性能的自然语言处理工具包,它提供了丰富的中文分词、词性标注、命名实体...

    HanLP实现文本分词、提取关键词、聚类(工具资源+实例)

    HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构...提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。

    Java中通过HanLP实现文本分词、提取关键词、聚类(工具资源+实例)

    HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构...提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。

    中文分词java实现

    因此,我们需要通过分词算法来识别文本中的词边界,将连续的汉字序列切分成具有独立意义的词语。例如,句子“我爱你,中国”会被分词为“我”、“爱”、“你”、“,”、“中国”。 在Java中,常见的中文分词工具有...

    hanlp 1.7.7.zip

    在Java开发领域,自然语言处理(NLP)是一项重要的技术,而HanLP(由哈工大讯飞联合创始人韩松开发)作为一款优秀的开源Java NLP库,为开发者提供了丰富的中文处理功能,如分词、词性标注、命名实体识别等。...

    基于HanLP分词和Bayes分类器实现的问答机器人.zip

    总之,《基于HanLP分词和Bayes分类器实现的问答机器人》是一个综合运用NLP和机器学习技术的实例,对于学习和掌握这些技术有很好的参考价值。通过实际操作,学生可以更好地理解自然语言处理的基本步骤,以及如何运用...

    Code_中文分词_

    10. **应用实例**:中文分词技术常应用于新闻摘要生成、情感分析、聊天机器人、自动问答系统等领域。例如,在情感分析中,分词是第一步,它帮助识别出文本中的情感关键词。 了解这些知识点后,你可以在Python环境中...

    HanLP-doc-zh.zip

    HanLP,全称为“High-performance Natural Language Processing”,是由中国科大讯飞开源的一款高效、易用的Java语言实现的中文分词、词性标注、命名实体识别、依存句法分析等任务的工具库。本文将针对"hanlp"这一...

    hanlp的模型输出(中文)的详细内容分析

    HanLP的分词模型主要任务是将连续的汉字序列分割成有意义的词语。输入是原始的中文文本,输出是一系列的词语。例如,对于输入文本“我喜欢学习自然语言处理”,模型会输出分词结果:“我”、“喜欢”、“学习”、...

    下载hanlp.jar包和data数据

    汉语言处理库(HanLP)是由北京大学计算机科学技术研究所开发的一款开源的自然语言处理工具包,主要应用于中文分词、词性标注、命名实体识别、依存句法分析等多个任务。在本主题中,我们将深入探讨如何下载并使用...

    InfoExtra人名识别

    特别是对于中文人名的识别,HanLP的分词和命名实体识别技术具有较高的准确率。 Corgi_Demo.py和CorgiHMM.py则是针对特定场景或算法的实现。Corgi可能是一个项目或者工具的名字,"Demo"通常代表演示或示例,表明这个...

    IKAnalyzer2012.jar.zip

    - 分词是自然语言处理中的基础步骤,对于中文来说尤为重要,因为中文句子没有明显的空格分隔,需要通过分词来识别词汇。 2. **IKAnalyzer2012** - 这个版本的IKAnalyzer是针对2012年的语言环境进行优化的,它提供...

    微博评论分析工具 weibo

    综上所述,Weibo-Analyst工具涵盖了网络爬虫、自然语言处理、数据可视化、机器学习等多个IT领域的技术,是整合这些技术实现社交媒体数据智能分析的实例。对于学习和了解这些技术的用户,深入研究这个工具将大有裨益...

    信息检索中文本聚类的实现

    1. 分词:使用分词工具(如结巴分词、HanLP等)将句子拆分成词汇单位。 2. 去除停用词:去除诸如“的”、“是”等常见但对聚类意义不大的词汇。 3. 词干提取/词形还原:将词汇转换为其基本形式,如“跑”和“跑步”...

Global site tag (gtag.js) - Google Analytics