分词器在北京大学的语料上f-score达到93.9%了 - Phy Eas - ITeye博客

`

phyeas

浏览: 165545 次
性别:
来自: 珠海

最近访客更多访客>>

phoenixpj

ynsluhan

黑人红花侠

david_way

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

rockone： start_response()中的status和header ...
初试Python3.0 wsgiref遇到好些问题..
zhangdp_neu： 1.文本比较如何处理多关键字搜索？难道也文本比较。如果文本过多 ...
基于文本比较的搜索是否可行？
sdh5724：分词是很大的目的是为了减少内存使用。如果按字符倒排，也能出 ...
基于文本比较的搜索是否可行？
Heart.X.Raid：对于海量数据而言，可行性不大。查询关键字需要对每篇文档进行比较 ...
基于文本比较的搜索是否可行？
marcolu.1987：那个，能不能传一份标准切分结果给我，我在学习中文分词，希望得到 ...
分词器源码……M1

分词器在北京大学的语料上f-score达到93.9%了

博客分类：

日常杂记

F#算法 C C++C#

阅读更多

连续几天的努力终于把f-score从0.856一直提升到0.939。特征也从原来的5中增加到了8种，分类从原来的4种加到了6种，170多W的事件，训练出50多M的模型文件。想起原本只有区区0.856的f-score也觉得真不容易，呵呵。越到后面越觉得再提升就很困难了，基本上特征都提取完了……目前没有想到新的特征。

在这里也简要说下我的特征系列（当前字用C表示，C-1既是前一个字）：C pC-1 nC+1 pcC-1C cnCC+1 pnC-1C+1 ppC-2C-1 nnC+1C+2 (num | pnum | nnum) (symbol | nSymbol)

再加上读取11个字位内的最佳概率链（多了需要太多的运算空间和时间，没增加1则在原来的基础上*2,11个字位圆满算下来是2的11次方次运算。）

我会不断改进这个分词器的，过一段时间可能放出代码来给有兴趣的朋友下载，有什么写得不对的地方大家尽量指教。先谢谢了。最大熵的核心算法是从网上下的开源项目。

分享到：

分词器源码……M1 | 监听文件变化、python和GIL

2010-04-14 22:25
浏览 2672
评论(0)
分类:非技术
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

北京大学28288句分词语料: ### 北京大学28288句分词语料知识点解析 #### 一、概述 “北京大学28288句分词语料”是一份由北京大学提供的权威中文文本分词数据集，它包含了大量经过精心处理和标注的中文句子。这份语料库非常适合用于中文自然...

微软亚洲研究院中文分词语料_icwb2-data: 研究人员和开发者可以利用“icwb2-data”来训练新的分词模型，通过比较模型在开发集和测试集上的表现，不断优化模型参数。此外，该语料库也适用于评估新算法的效果，推动中文分词技术的创新。总的来说，“中文分词...

BOTSALLY® 赛莉®中文语料自动标注-细切-词性标注语料样例: 在提供的样例文件"希望SegTag.xml"中，我们可以预期看到每条语料记录都包含了经过赛莉®处理的分词结果和对应的词性标注。XML文件是一种常用的数据存储格式，它以结构化的方式组织数据，便于程序读取和解析。在这个...

微软亚洲研究院中文分词语料库: 微软亚洲研究院中文分词语料库是为中文自然语言处理领域提供的重要资源，它在中文分词研究中扮演了核心角色。中文分词是中文文本处理的基石，因为中文没有像英文那样的空格来自然地划分单词，所以需要通过分词算法将...

北京大学语料库（1 833 177 字）包含训练和测试集: 北京大学语料库是一个重要的资源，尤其对于自然语言处理（NLP）的研究者和开发者来说，它是进行各种语言分析任务的基础。这个数据集包含了1,833,177个字符，提供了大量的文本数据，足以支持大规模的训练和验证工作。...

icwb2-data等分词语料: "icwb2-data"语料库源自国际中文词汇边界识别评测（ICWS'05）的第二轮比赛，由北京航空航天大学和微软亚洲研究院联合发布。这个数据集包含了大量的标注过的中文句子，旨在帮助开发和评估中文词语分隔（wordseg）算法...

中文分词十年又回顾- 2007-2017 CWS-10Year-Review-21: 文章提到了几个关键的背景信息：中文分词作为机器学习任务的兴起，得益于如宾州大学中文树库和北京大学计算语言所标注的人民日报语料等大量切分语料的积累。这些语料库为模型训练提供了基础，推动了分词技术的发展。...

微软亚洲研究院中文分词语料___icwb2-data: 《微软亚洲研究院中文分词语料：ICWB2-Data的深度探索》在自然语言处理领域，高质量的语料库是研究与开发的基础。本文将深入探讨“微软亚洲研究院中文分词语料——ICWB2-Data”，这个重要的科研数据集。ICWB2-Data...

汉语分词语料库: CTB6汉语分词语料库，可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

pku98-人民日报分词语料1998年1月份: 《人民日报分词语料1998年1月份》是一份重要的中文语言资源，主要用于自然语言处理（NLP）领域的研究和应用。这份资料集包含了1998年1月份的《人民日报》文章，经过专业处理，被分词为一个个独立的词汇，便于后续的...

分词-词性标注-词典-中文语料库.zip: 总结起来，"分词-词性标注-词典-中文语料库.zip"这个压缩包提供的资源涵盖了中文NLP的基础要素，包括多种分词数据、词性标注实例和词典资源，这些都可以用于训练和评估分词算法、词性标注模型，以及进行词典的构建和...

es7.0 ik的分词器: 描述中提到，"es提供的分词是英文分词，对于中文的分词就做的非常不好了"，这意味着在处理中文文档时，ES的内置分词器可能无法满足需求。为了更好地进行中文文本的索引和检索，就需要使用专门为中文设计的分词工具，...

自然语言处理-条件随机场工具集: 可以使用的中文语料资源是SIGHAN提供的backoff 2005语料，目前封闭测试最好的结果是4-tag+CFR标注分词，在北大语料库上可以在准确率，召回率以及F值上达到92%以上的效果，在微软语料库上可以到达96%以上的效果。

香港城市大学语料库；微软亚洲研究院语料库；北京大学语料库；: 在本篇中，我们将详细探讨香港城市大学语料库、微软亚洲研究院语料库以及北京大学语料库这三大中文语料库，以及它们在分词任务中的应用。首先，香港城市大学语料库，拥有1772202个字符，被专门设计用于训练NLP模型...

小黄鸡语料库（分词以及未分词）: 小黄鸡语料库在分词处理上应该经过了专业人士的校对，确保了词汇切分的准确性，这对于下游任务的精度至关重要。未分词的语料虽然没有直接的词汇信息，但在深度学习中，模型可以通过学习自动提取特征，生成自己的分词...

谭松波-酒店评论语料-UTF-8,10000条: 现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312，本资源除了原始编码格式，还具有UTF-8编码格式。本资源还包含将所有语料分成pos.txt和neg.txt两个文件，每个文件中的一行代表原始数据的一个txt文件...

crf分词标注训练语料: CRF（Conditional Random Field，条件随机场）是一种常用的序列标注模型，在中文分词任务中表现出色，能够考虑上下文信息进行精确的词边界判断。"crf分词标注训练语料"是一个专门用于训练CRF模型的数据集，旨在帮助...

小黄鸡-未分词-语料库: 《小黄鸡-未分词-语料库》是一个专门针对中文自然语言处理（NLP）的训练数据集，尤其适用于构建和优化中文对话系统。这个数据集源于人人网上的“小黄鸡”互动，这是一个广受欢迎的聊天机器人，积累了大量的用户对话...

Global site tag (gtag.js) - Google Analytics