`
phyeas
  • 浏览: 164206 次
  • 性别: Icon_minigender_1
  • 来自: 珠海
社区版块
存档分类
最新评论

分词器源码……M1

阅读更多

 

事实上要自己写的代码很少。我写了四个类。都在org,phyeas包内,其他代码没有改过。目前测试的结果是:

速度:104k/s

f-score:0.938

----------------------

测试平台:

系统:Ubuntu9.10

CPU:P43.06

内存:1G+512M

Eclipse:3.4

 

在Windows下可能会有错误原因可能是字符集不一样,我Ubuntu下默认字符集是UTF-8,所以我在读取文件时有些是指定了字符集,在windows下应该不用,发现有这个问题的朋友可以与我联系。

 

用法:先构建预处理语料,使用我的ConvertToMEDict2类,文件路径写在源码里。需要输入一个语料文件(pku_training.txt),会生成一个预处理语料(pku_training.dat(100多M))文件。再对这个预处理语料生成模型。执行CreateModel操作,需要在参数中指定文件路径(如java CreateModel pku_training.dat)。大约需要15-30分钟。然后生成一个模型文件(pku_trainingModel.txt),然后运行org.phyeas.Analyzer,改变main函数中的文件路径。Analyzer的构造函数需要一个模型文件路径,然后就是测试文件和输出文件路径了。

 

maxent.zip:源码

pku.zip:北京大学语料,未包含标准切分结果,如有需要的同学可以跟我说

  • pku.zip (2.6 MB)
  • 下载次数: 61
分享到:
评论
3 楼 marcolu.1987 2010-04-21  
那个,能不能传一份标准切分结果给我,我在学习中文分词,希望得到更为详尽的学习内容,谢谢了,我的邮箱是marcolu.1987@gmail.com
2 楼 phyeas 2010-04-15  
 
1 楼 elementstorm 2010-04-15  
乖乖,屁眼V5啊

相关推荐

    多个版本ik分词器源码

    《多个版本ik分词器源码》 在中文信息处理领域,分词是至关重要的一步,它直接影响到后续的文本分析、搜索引擎优化、情感分析等任务的精度。IK Analyzer(以下简称IK)是一款针对中文的开源分词器,以其高效、灵活...

    IK分词器源码

    总之,IK分词器源码的学习不仅能帮助我们理解中文分词的工作原理,还可以为我们提供一个强大的工具,以满足不同业务场景下的分词需求。对于Java开发者来说,熟悉并掌握IK分词器的使用和定制,无疑会提升我们在文本...

    solr5的ik中文分词器源码

    本文将深入探讨"solr5的ik中文分词器源码"的相关知识点。 1. **IK分词器概述**: IK分词器是针对Java开发的,它具有较高的分词精度和良好的可扩展性。IK分词器最初由王吉伟开发,现在由社区维护。它支持自定义词典...

    ansj中文分词器源码

    **ansj中文分词器源码详解** **一、ansj分词器概述** ansj中文分词器是由ansj工作室开发的一款高效、精准的中文处理工具,它以其快速的分词速度和较高的准确率在业界获得了广泛的认可。在Mac Air这样的轻薄型设备...

    盘古分词(源码+demo).net源码

    本文将详细介绍盘古分词的源码、Demo及其在.NET环境中的应用。 首先,我们来了解盘古分词的基本原理。中文分词是中文文本处理的关键步骤,因为中文没有明显的单词边界,所以需要通过分词算法将连续的汉字序列切分成...

    IK智能分词器下载8.12.2版本

    IK智能分词器下载8.12.2版本IK智能分词器下载8.12.2版本IK智能分词器下载8.12.2版本IK智能分词器下载8.12.2版本IK智能分词器下载8.12.2版本IK智能分词器下载8.12.2版本IK智能分词器下载8.12.2版本IK智能分词器下载...

    ElasticSearch 重写IK分词器源码设置mysql热词更新词库1

    总结来说,通过改造IK分词器源码并集成MySQL数据库,我们可以实现动态更新热词库,从而提高Elasticsearch的分词效果,满足实时性需求。这种方式不仅解决了内置词库和静态词库的不足,还提供了更大的灵活性,能够适应...

    Ik分词器源码jar包

    Ik分词器的源码,jar包,导入即可使用,常用到与持久层对句子进行分词处理

    IK Analyzer 2012FF 分词器源码

    IK 分词器源码 此版本IK Analyzer 2012FF版,支持4Lucene.0以上 , 适合大家学习,开发自己的分词器,或参与该项目开发

    基于mmseg算法的轻量级Java中文分词器源码

    该项目是一款基于mmseg算法的轻量级Java中文分词器源码,包含190个文件,其中Java源文件135个、Lex文件28个、XML文件7个、Markdown文件5个、属性文件3个、PNG文件3个、Git忽略文件1个、策略文件1个。该分词器具备...

    ElasticSearch7.17.5版本自定义ik分词器源码

    支持停止词,扩展词热更新,将分析器自定义为ik_smart_custom和ik_max_word_custom了,使用idea导入项目,mvn clear complile package 打包完成,使用release中的zip文件部署,记得修改db.properties中的数据库连接...

    易语言源码易语言应用中文分词源码.rar

    易语言源码易语言应用中文分词源码.rar 易语言源码易语言应用中文分词源码.rar 易语言源码易语言应用中文分词源码.rar 易语言源码易语言应用中文分词源码.rar 易语言源码易语言应用中文分词源码.rar 易语言源码...

    ik分词器elastcisearch6.4.2插件源码

    ik分词器,支持elastcisearch6.4.2的源码,如果要使用其他6.X版本的,可以在源码内修改pom.xml中的es版本号。 该源码格式也可为想自己写一个analyzer插件的朋友也可当demo参考

    海天智能分词系统源码

    海天智能分词系统源码是一款专为中文文本处理设计的高效工具,它允许用户根据实际需求调整分词的粒度,以实现更精准的文本分析。在学习和研究智能分词的过程中,这款源码提供了宝贵的参考和实践机会。下面我们将深入...

    运用在lucene中的中文分词算法源码

    例如,在jieba分词器的源码中,可以看到如何加载词典、构建Trie树,以及如何实现TokenStream的next()方法来逐个产出词元。而在HanLP中,源码会涉及更复杂的语言模型和统计方法。 总结,理解和掌握Lucene中的中文...

    IKAnalyzer分词器源码+可直接使用jar包

    源码通常由多个模块组成,如分词器(Tokenizer)、字典管理(Dictionary)、分词算法等。源码分析可以帮助我们了解分词器如何进行词语切分、如何处理未登录词(unknown words)以及如何优化性能。 - 分词器:这是IK...

Global site tag (gtag.js) - Google Analytics