m635674608

浏览: 5052928 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

英文分词的算法和原理

博客分类：

分词器

英文分词的算法和原理

根据文档相关性计算公式

TF-IDF:http://lutaf.com/210.htm
BM25:http://lutaf.com/211.htm

分词质量对于基于词频的相关性计算是无比重要的

英文(西方语言）语言的基本单位就是单词，所以分词特别容易做，只需要3步：

根据空格/符号/段落分隔,得到单词组
过滤，排除掉stop word
提取词干

第一步：按空格/符号分词

用正则表达式很容易

pattern = r'''(?x) # set flag to allow verbose regexps
([A-Z]\.)+ # abbreviations, e.g. U.S.A.
| \w+(-\w+)* # words with optional internal hyphens
| \$?\d+(\.\d+)?%? # currency and percentages, e.g. $12.40, 82%
| \.\.\. # ellipsis
| [][.,;"'?():-_`] # these are separate tokens
'''
re.findall(pattern,待分词文本)

第二步：排除stop word

stopword就是类似a/an/and/are/then 的这类高频词，高频词会对基于词频的算分公式产生极大的干扰，所以需要过滤

第三步：提取词干

词干提取(Stemming) 这是西方语言特有的处理，比如说英文单词有单数复数的变形，-ing和-ed的变形，但是在计算相关性的时候，应该当做同一个单词。比如 apple和apples，doing和done是同一个词，提取词干的目的就是要合并这些变态

Stemming有3大主流算法

Lucene 英文分词自带了3个stemming算法，分别是

EnglishMinimalStemmer
著名的 Porter Stemming
KStemmer

词干提取算法并不复杂，要么是一堆规则，要么用映射表，编程容易，但是必须是这种语言的专家，了解构词法才行啊

http://text-processing.com/demo/stem/ 是一个在线试验词干提取算法的网站

Lemmatisation

Lemmatisation是和词干提取(Stemming) 齐名的一个语言学名词，中文可以叫做 词形还原 ,就是通过查询字典，把 "drove" 还原到 "drive"
而stemming会把单词变短，"apples","apple"处理之后都变成了 "appl"

wikipedia关于词形还原的简介
European languages lemmatizer 一个c语言的lib

做计算机语言学研究才会涉及到lemmatization，我个人觉得做搜索完全可以不考虑，Stemming已经可以解决大问题了

参考

搜索相关度算法公式: BM25

BM25算法的全称是 Okapi BM25，是一种二元独立模型的扩展，也可以用来做搜索的相关度排序。

Sphinx的默认相关性算法就是用的BM25。Lucene4.0之后也可以选择使用BM25算法(默认是TF-IDF)。如果你使用的solr，只需要修改schema.xml，加入下面这行就可以

<similarity class="solr.BM25Similarity"/>

BM25也是基于词频的算分公式，分词对它的算分结果也很重要

IDF公式

f（qi,D）:就是词频
|D|：[给定文档]D长度。
avgdl:索引中所有文档长度。

抽象点看，BM25的公式其实和TF-IDF公式大同小异，可以也可以当做 = ∑ idf(q) * fx(tf),

只不过，BM25的idf和tf都做了一些变形，特别是tf公式，还加入了两个经验参数k1和b,K1和b用来调整精准度，一般情况下我们取K1=2，b=0.75

至于BM25和TF-IDF 哪种相关性算法更更好，我认为依赖于搜索质量评估标准

参考

Lucene TF-IDF 相关性算分公式

Lucene在进行关键词查询的时候，默认用TF-IDF算法来计算关键词和文档的相关性，用这个数据排序

TF:词频,IDF：逆向文档频率，TF-IDF是一种统计方法，或者被称为向量空间模型,名字听起来很复杂，但是它其实只包含了两个简单规则

某个词或短语在一篇文章中出现的次数越多，越相关
整个文档集合中包含某个词的文档数量越少，这个词越重要

所以一个term的TF-IDF相关性等于 TF * IDF

这两个规则非常简单，这就是TF-IDF的核心规则，第二个的规则其实有缺陷的，他单纯地认为文本频率小的单词就越重要，文本频率大的单词就越无用，显然这并不是完全正确的。并不能有效地反映单词的重要程度和特征词的分布情况，比如说搜索web文档的时候，处于HTML不同结构的特征词中对文章内容的反映程度不同，应该有不同的权重

TF-IDF的优点是算法简单，运算速度很快

Lucene为了提高可编程行，在上述规则做了一些扩充，就是加入一些编程接口，对不同的查询做了权重归一化处理，但是核心公式还是TF * IDF

Lucene算法公式如下

score(q,d) = coord(q,d) · queryNorm(q) · ∑ ( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) )

tf(t in d ), = frequency½
idf(t) = 1 +log(文档总数/(包含t的文档数+1))
coord(q,d) 评分因子,。越多的查询项在一个文档中，说明些文档的匹配程序越高，比如说，查询"A B C",那么同时包含A/B/C3个词的文档是3分，只包含A/B的文档是2分，coord可以在query中关掉的
queryNorm(q)查询的标准查询，使不同查询之间可以比较
t.getBoost() 和 norm(t,d) 都是提供的可编程接口，可以调整 field/文档/query项的权重

各种编程插口显得很麻烦，可以不使用，所以我们可以把Lucence的算分公式进行简化

score(q,d) = coord(q,d) · ∑ ( tf(t in d) · idf(t)2 )

结论

TF-IDF 算法是以 term为基础的，term就是最小的分词单元，这说明分词算法对基于统计的ranking无比重要，如果你对中文用单字切分，那么就会损失所有的语义相关性，这个时候搜索只是当做一种高效的全文匹配方法
按照规则1 某个词或短语在一篇文章中出现的次数越多，越相关 一定要去除掉stop word，因为这些词出现的频率太高了，也就是TF的值很大，会严重干扰算分结果
TF和IDF在生成索引的时候，就会计算出来： TF会和DocID保存在一起(docIDs的一部分)，而IDF= 总文档数 / 当前term拥有的docIDs 长度

http://my.oschina.net/bruceray/blog/493317

分享到：

elasticsearch java API------与集群交互 | 中文分词原理

2015-11-09 10:49
浏览 2678
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

英文分词的算法和原理

英文分词的算法和原理

第一步：按空格/符号分词

第二步：排除stop word

第三步：提取词干

Lemmatisation

搜索相关度算法公式: BM25

Lucene TF-IDF 相关性算分公式

结论

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

英文分词的算法和原理

英文分词的算法和原理

第一步：按空格/符号分词

第二步：排除stop word

第三步：提取词干

Lemmatisation

搜索相关度算法公式: BM25

Lucene TF-IDF 相关性算分公式

结论

评论

发表评论

相关推荐

Java开源分词系统IKAnalyzer学习（七） 词库加载分词

es 同义词 热更新 1.1版本

mmseg 同义词分析器 SolrSynonymParser

lucene4.7 分词器（三）

IKAnalyzer如何自定义远端词库

es 同义词 热更新

热更新 IK 分词使用方法

中文分词器IK和Paoding技术对比

mmseg 分词器 同义词总结

lucene版本升级到4.6.0以上之后使用mmseg4j分词器遇到的问题

elasticsearch 分词器配置注意事项

中文分词 mmseg4j 的词库格式

中文分词原理

elasticsearch 1.1.0 mmseg 英文数字分词

11大Java开源中文分词器的使用方法和分词效果对比

中文分词器性能比较

Lucene5学习之使用MMSeg4j分词器

IK,ansj,mmseg4j分词性能比较

布式搜索elasticsearch 中文分词集成

elasticsearch的实现全文检索

最近访客更多访客>>

Java开源分词系统IKAnalyzer学习（七）词库加载分词

es 同义词热更新 1.1版本

es 同义词热更新

mmseg 分词器同义词总结