阅读更多
Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现,具有使用简单、开箱即用等特点。

Ansj分词速度达到每秒钟大约100万字左右(Mac Air下测试),准确率能达到96%以上。

关于Ansj的更多信息:开源 Java 中文分词器 Ansj 作者孙健专访

Ansj 1.41版本的新增功能

  • 增加了调用文档说明
  • 调整了关键词抽取
  • 增加了摘要计算
  • 关键词标红
  • 大幅度提高了命名实体识别
  • 对于词性标注提供了基于概率的快速标注方式.依旧保留给予隐马模型的词性标注.
  • 修复了目前已知的所有bug
  • 大量修正了之前默认用户自定义词典中词性错误
  • 提供了给予crf++ wapiti等条件随即场工具的调用接口.用户可以及自定义训练model
  • 增加了目前对最新版的Lucene、Solr、Elasticsearch开源第三方搜索框架的分词插件
效果测试——新词发现

引用
1. 未登陆词识别

example:NER:我要碎觉吊丝要小心!城西嘉南公寓

result:命名/v 实体/n ner/en : 我/r 要/v 碎觉/nw 吊丝/n 要/v 小心/v !/w 城西嘉南公寓/nw

2. 中文人名识别

example:NER: 邓颖超生前和刘晓辉同学合影, 李民工作了一天

result:邓颖超/nr 生前/t 和/c 刘晓辉/nr 同学/n 合影/v , 李民/nr 工作/vn 了/ul 一天/m

3. 外国人名识别

example:NER:本赛季德甲球队霍芬海姆的两名年轻球员菲尔米诺和福兰德表现出色,但球队主帅吉斯多尔态度强硬。

result:本赛季/n 德甲/n 球队/n 霍芬海姆/nrf 的/uj 两名/m 年轻/a 球员/n 菲尔米诺/nrf 和/c 福兰德/nr 表现出色/n ,/w 但/c 球队/n 主帅/n 吉斯多尔/nrf 态度强硬/n 。/w


5
0
评论 共 11 条 请登录后发表评论
11 楼 她的酒窝 2015-11-05 18:40
输入文本:证明2014年02月05日12时23分在周浦镇里仁村6组横桥路上,被分成了:证明 2014年 02月 05日 12 时 23分 在 周浦镇里仁村 6组 横桥 路上;先不说地址识别,正确的时间实体识别应该是:2014年02月05日12时23分,而原始时间却被分成了6个term
10 楼 她的酒窝 2015-11-05 18:32
证明2014年02月05日12时23分在周浦镇里仁村6组横桥路上,被分成了
    证明
    2014年
    02月
    05日
    12
    时
    23分
    在
    周浦镇里仁村
    6组
    横桥
    路上
,先不说地址识别,时间应该是:2014年02月05日12时23分,感觉实体识别还是不靠谱

9 楼 wzjin 2014-05-27 15:20
很好,作者加油。
8 楼 sys_ks_cnm 2014-05-26 14:53
我毕业做的是根据概率来分词的
7 楼 wxm104 2014-05-24 00:34
   
6 楼 otto_yan 2014-05-23 21:54
很好很强大,一直在找这东东
5 楼 yinlei201 2014-05-15 11:40
跟ikanalyzer比较怎么样呢
4 楼 ansjsun 2014-05-15 11:39
dyyaries 写道
孙红雷暴打记者中国娱乐界如此蛮横
NLP 分词方式: 孙红雷暴/nw 打/v 记者/n 中国/ns 娱乐界/n 如此/r 蛮横/a
MIN_NLP 分词方式:[孙红/nr, 雷暴/n]/nw 打/v 记者/n 中国/ns 娱乐界/n 如此/r 蛮横/a

 


it is  a  bad case : i fix it  in my source
[孙红雷/nr, 暴/nw, 打/v, 记者/n, 中国/ns, 娱乐界/n, 如此/r, 蛮横/a]

3 楼 dyyaries 2014-05-15 09:40
孙红雷暴打记者中国娱乐界如此蛮横
NLP 分词方式: 孙红雷暴/nw 打/v 记者/n 中国/ns 娱乐界/n 如此/r 蛮横/a
MIN_NLP 分词方式:[孙红/nr, 雷暴/n]/nw 打/v 记者/n 中国/ns 娱乐界/n 如此/r 蛮横/a

 
2 楼 smll8402 2014-05-14 09:11
这个真是个好东东。。。真心不错
1 楼 icyxing 2014-05-13 15:28
中文姓名识别太牛叉了

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Ansj中文分词

    Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现,具有使用简单、开箱即用等特点。 Ansj分词速度达到每秒钟大约100万字左右(Mac Air下测试),准确率能达到96%以上。 ...

  • ansj中文分词工具

    最新2015年的java工程的ansj中文分词工具 myeclipse工程

  • Ansj中文分词(强大)

    Ansj中文分词是一款纯Java、主要用于自然语言处理、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”。 内容简介:http://www.iteye.com/magazines/102#234 此分词具有自己学习的功能,所以拜托大家...

  • ansj中文分词器详解

    ansj中文分词器详解   最近在做一个人工智能的项目,其中用到了分词功能。从网上找了一些java用于分词的工具,最终选择了ansj中文分词器。个人认为效果和功能是比较优秀的。本文将对ansj的所有功能进行详解并提供...

  • ansj中文分词器源码

    分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能

  • java Ansj中文分词器

    java Ansj中文分词器

  • ANSJ中文分词器

    aAnsj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟

  • ansj 5.1分词方式测试,存在分词命名实体识别过度的问题

    十二月 14, 2016 6:09:16 下午 org.ansj.app.crf.model.CRFModel loadModel INFO: load crf model ok ! use time :1281 刘翔洁面仪/nw,配合/v,洁面/nw,深层/b,清洁/a,毛孔/n, ,清洁/a,鼻孔/n,面膜/nw,碎觉/nw,...

  • Ansj中文分词使用教程

    ansj分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 Ansj目前实现了.中文分词.词性识别. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能 可以应用到自然语言...

  • TestFenci.zip_ansj_分词

    java分词测试程序,调用开源分词工具ansj测试代码,效果可以

  • ansj分词ansj_seg-5.1.5.jar

    ansj分词配置jar包,结合nlp-lang的配置jar使用。

  • ansj_segx:Ansj中文分词的另一选择

    Ansj中文分词的另一选择 项目说明: 本项目对Ansj中文分词2.0.8源码进行了以下调整和功能扩充: 1、删除NLP分词;(NLP分词占用内存大,分词效率稍低,一般项目不会使用该功能) 2、删除与分词无关的功能; 3、将nlp...

  • springMVC+ansj中文分词

    springMVC+mybatis+自动摘要+ansj中文分词+关键词匹配规则等等

  • ansj中文分词分词过程浅析

    nsj词典加载及简要分词过程 粗略看了点ansj源代码,记录备忘。 词典等配置文件加载类 (以调用 NlpAnalysis 分词类为例): 1, MyStaticValue 初始化 NlpAnalysis 中 static 的静态变量 spli ansj词典加载...

  • Ansj中文分词说明

    Ansj分词 这是一个基于n-Gram+条件随机场模型的中文分词的java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 目前实现了.中文分词. 中文姓名识别 . 用户自定义词典 可以应用...

  • ansj_seg:ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

    Ansj中文分词 使用帮助 开发文档:, 摘要 这是一个基于n-Gram+CRF+HMM的中文分词的java实现。 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。 目前实现了中文分词、中文姓名识别、...

  • ansj分词史上最详细教程

    最近的项目需要使用到分词技术。本着不重复造轮子的原则,使用了ansj_seg来进行分词。本文结合博主使用经过,教大家用最快的速度上手使用ansj分词。1.给ansj来个硬广

  • 基于SpringBoot仿天猫购物系统.zip(毕设&课设&实训&大作业&竞赛&项目)

    项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。

Global site tag (gtag.js) - Google Analytics