`
phyeas
  • 浏览: 164645 次
  • 性别: Icon_minigender_1
  • 来自: 珠海
社区版块
存档分类
最新评论

分词器在北京大学的语料上f-score达到93.9%了

阅读更多

连续几天的努力终于把f-score从0.856一直提升到0.939。特征也从原来的5中增加到了8种,分类从原来的4种加到了6种,170多W的事件,训练出50多M的模型文件。想起原本只有区区0.856的f-score也觉得真不容易,呵呵。越到后面越觉得再提升就很困难了,基本上特征都提取完了……目前没有想到新的特征。

 

在这里也简要说下我的特征系列(当前字用C表示,C-1既是前一个字):C pC-1 nC+1 pcC-1C cnCC+1 pnC-1C+1 ppC-2C-1 nnC+1C+2 (num | pnum | nnum) (symbol | nSymbol)

 

再加上读取11个字位内的最佳概率链(多了需要太多的运算空间和时间,没增加1则在原来的基础上*2,11个字位圆满算下来是2的11次方次运算。)

 

我会不断改进这个分词器的,过一段时间可能放出代码来给有兴趣的朋友下载,有什么写得不对的地方大家尽量指教。先谢谢了。最大熵的核心算法是从网上下的开源项目。

分享到:
评论

相关推荐

    北京大学28288句分词语料

    ### 北京大学28288句分词语料知识点解析 #### 一、概述 “北京大学28288句分词语料”是一份由北京大学提供的权威中文文本分词数据集,它包含了大量经过精心处理和标注的中文句子。这份语料库非常适合用于中文自然...

    微软亚洲研究院中文分词语料_icwb2-data

    研究人员和开发者可以利用“icwb2-data”来训练新的分词模型,通过比较模型在开发集和测试集上的表现,不断优化模型参数。此外,该语料库也适用于评估新算法的效果,推动中文分词技术的创新。 总的来说,“中文分词...

    BOTSALLY® 赛莉®中文语料自动标注-细切-词性标注语料样例

    在提供的样例文件"希望SegTag.xml"中,我们可以预期看到每条语料记录都包含了经过赛莉®处理的分词结果和对应的词性标注。XML文件是一种常用的数据存储格式,它以结构化的方式组织数据,便于程序读取和解析。在这个...

    icwb2-data等分词语料

    "icwb2-data"语料库源自国际中文词汇边界识别评测(ICWS'05)的第二轮比赛,由北京航空航天大学和微软亚洲研究院联合发布。这个数据集包含了大量的标注过的中文句子,旨在帮助开发和评估中文词语分隔(wordseg)算法...

    北京大学语料库(1 833 177 字)包含训练和测试集

    北京大学语料库是一个重要的资源,尤其对于自然语言处理(NLP)的研究者和开发者来说,它是进行各种语言分析任务的基础。这个数据集包含了1,833,177个字符,提供了大量的文本数据,足以支持大规模的训练和验证工作。...

    微软亚洲研究院中文分词语料库

    微软亚洲研究院中文分词语料库是为中文自然语言处理领域提供的重要资源,它在中文分词研究中扮演了核心角色。中文分词是中文文本处理的基石,因为中文没有像英文那样的空格来自然地划分单词,所以需要通过分词算法将...

    中文分词十年又回顾- 2007-2017 CWS-10Year-Review-21

    文章提到了几个关键的背景信息:中文分词作为机器学习任务的兴起,得益于如宾州大学中文树库和北京大学计算语言所标注的人民日报语料等大量切分语料的积累。这些语料库为模型训练提供了基础,推动了分词技术的发展。...

    微软亚洲研究院中文分词语料___icwb2-data

    《微软亚洲研究院中文分词语料:ICWB2-Data的深度探索》 在自然语言处理领域,高质量的语料库是研究与开发的基础。本文将深入探讨“微软亚洲研究院中文分词语料——ICWB2-Data”,这个重要的科研数据集。ICWB2-Data...

    汉语分词语料库

    CTB6汉语分词语料库,可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

    分词-词性标注-词典-中文语料库.zip

    总结起来,"分词-词性标注-词典-中文语料库.zip"这个压缩包提供的资源涵盖了中文NLP的基础要素,包括多种分词数据、词性标注实例和词典资源,这些都可以用于训练和评估分词算法、词性标注模型,以及进行词典的构建和...

    pku98-人民日报分词语料1998年1月份

    《人民日报分词语料1998年1月份》是一份重要的中文语言资源,主要用于自然语言处理(NLP)领域的研究和应用。这份资料集包含了1998年1月份的《人民日报》文章,经过专业处理,被分词为一个个独立的词汇,便于后续的...

    自然语言处理-条件随机场工具集

    可以使用的中文语料资源是SIGHAN提供的backoff 2005语料,目前封闭测试最好的结果是4-tag+CFR标注分词,在北大语料库上可以在准确率,召回率以及F值上达到92%以上的效果,在微软语料库上可以到达96%以上的效果。

    es7.0 ik的分词器

    描述中提到,"es提供的分词是英文分词,对于中文的分词就做的非常不好了",这意味着在处理中文文档时,ES的内置分词器可能无法满足需求。为了更好地进行中文文本的索引和检索,就需要使用专门为中文设计的分词工具,...

    香港城市大学语料库;微软亚洲研究院语料库;北京大学语料库;

    在本篇中,我们将详细探讨香港城市大学语料库、微软亚洲研究院语料库以及北京大学语料库这三大中文语料库,以及它们在分词任务中的应用。 首先,香港城市大学语料库,拥有1772202个字符,被专门设计用于训练NLP模型...

    小黄鸡语料库(分词以及未分词)

    小黄鸡语料库在分词处理上应该经过了专业人士的校对,确保了词汇切分的准确性,这对于下游任务的精度至关重要。未分词的语料虽然没有直接的词汇信息,但在深度学习中,模型可以通过学习自动提取特征,生成自己的分词...

    谭松波-酒店评论语料-UTF-8,10000条

    现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件...

    crf分词标注训练语料

    CRF(Conditional Random Field,条件随机场)是一种常用的序列标注模型,在中文分词任务中表现出色,能够考虑上下文信息进行精确的词边界判断。"crf分词标注训练语料"是一个专门用于训练CRF模型的数据集,旨在帮助...

    基于特定语料库的TF-IDF的中文关键词提取

    TF-IDF(Term Frequency-Inverse Document Frequency)是一种在信息检索和自然语言处理领域广泛应用的算法,用于衡量一个词在文档中的重要性。它基于词频(Term Frequency, TF)和逆文档频率(Inverse Document ...

Global site tag (gtag.js) - Google Analytics