- 浏览: 813801 次
- 性别:
- 来自: 武汉
文章分类
最新评论
-
107x:
不错,谢谢!
log4j.properties配置详解 -
gzklyzf:
为啥我解析的PDF文档没有作者、文章题目等信息啊,下面是我的代 ...
Apache Lucene Tika 文件内容提取工具 -
mervyn1024:
解压密码是啥
ictclas4j调整 -
百卉含英:
如果我的文件输出路径是这个log4j.appender.Fil ...
log4j.properties配置详解 -
lxhxklyy:
mark……
log4j.properties配置详解
1 什么是BM25
摘录一段wiki
BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the query terms within a document (e.g., their relative proximity). It is not a single function, but actually a whole family of scoring functions, with slightly different components and parameters. One of the most prominent instantiations of the function is as follows.
文档搜索中,并没有例如pr(google)这样的权威的评分作为排序的依据,所以有各种各样评分标准来评价我们搜索的相关度,而BM25就是其中比较著名的一种。
2 怎么用BM25
到底BM25评分还是个数学方法,我们先来看看它的数学表达式
大概解释一下公式的意思
对于公式1
score(D,Q):就是我们所要计算的评分,即为【给定搜索内容】Q在【给定文档】D中的相关程度,分数越高表示相关度越高。
q:【给定搜索内容】Q中的语素,英文的话就是单词,中文的话需要先进行简单的切词操作。
f(qi,D):在【给定文档】D中,某一个语素qi出现的频率。
|D|:【给定文档】D长度。
avgdl:索引中所有文档长度。
另外两个参数K1和b用来调整精准度,一般情况下我们取K1=2,b=0.75。
公式2是用来计算公式1中IDF(qi)的值
N:索引中文档的总数目。
n(qi):索引中包含语素qi的文档的总书目。
至此,公式所有变量、常量意义明确,我们就可以开始计算了。
--------------------------------------------------------------
由于公式并不难以理解,纯计算部分coder的事就没必要列出来了,这里我想说的是如何把这套评分体系和lucene结合起来。
众所皆知,lucene有score的功能,详见以下链接
http://lucene.apache.org/java/2_4_0/scoring.html
就不细说了。
现在我们做一个简单的demo,加入附件中的jar包
- public static void main(String[] args) throws ParseException, IOException {
- //建立索引
- IndexSearcher searcher = new IndexSearcher("/doc");
- //计算平均长度avgdl
- BM25Parameters.load("avgLengthPath");
- BM25BooleanQuery query = new BM25BooleanQuery("This is my Query",
- "Search-Field", new MMAnalyzer());
- //开始进行检索
- Hits hits = searcher.search(query);
- //输出结果
- for (int i = 0; i < 10; i++) {
- System.out.println(hits.id(i) + ":" + hits.score(i));
- }
- }
public static void main(String[] args) throws ParseException, IOException {
//建立索引
IndexSearcher searcher = new IndexSearcher("/doc");
//计算平均长度avgdl
BM25Parameters.load("avgLengthPath");
BM25BooleanQuery query = new BM25BooleanQuery("This is my Query",
"Search-Field", new MMAnalyzer());
//开始进行检索
Hits hits = searcher.search(query);
//输出结果
for (int i = 0; i < 10; i++) {
System.out.println(hits.id(i) + ":" + hits.score(i));
}
}
我们即可计算BM25,模仿baidu硬盘搜索做一个简单的玩意也可以很快上手了。
补充:除了lucene以外,mg4j也可以进行bm25的计算,甚至于比lucene更优秀的在于利用mg4j可以直接计算bm25。不过在中文分词方面,利用mg4j就远没有lucene方便,所以略去不谈。
3 BM25怎么样
简单分析一下bm25的算法我们可以知道这套评分方法还是基于在文档中出现频率,也就是说给定查询语句中的词素至少要有一个在给定文档中出现,不然计算结果会为0。
而由不愿意透露身份的王博士所介绍的基于以下两个公式的转移概率模型的评分则不需要有如此硬性的要求,譬如你在搜索“中国首都”时,会得到一篇含有“北京”字样的文档。
我们衡量一套搜索方法的原则无外乎准确度和量:
基于转移概率的搜索方法虽然得到的量会更多一些,的那是我们认为准确度会有所不足,并不是每组高转移概率的词汇对都会如“中国首都”和“北京”这样同义,可能会有很多无意义的转移词汇对或者根本不相关的词汇对,这将大大降低搜索的效率。
基于BM25的搜索方法在准确度上会更胜一筹,它的结果至少保证了是含有【给定搜索语句】的语素,事实上大部分实用的全文搜索也保证了这一原则。
由此对比,我们认为虽然基于转移概率模型的评分在理论上是一套更好的评分方法,但是实际操作用问题很多,在没有一个相对而言准确且大量的转移词汇对数据库前,基于BM25评分的搜索算法应该是更实用的。
评论
发表评论
-
关于调整华中科技大学期刊分类办法征求意见的通知
2012-02-21 11:06 8482关于调整华中科技大学期刊分类办法征求意见的通知 ... -
半监督分类点滴
2011-10-14 10:55 1475半监督分类点滴 如果仅使用有标记样本 ... -
参考文献
2011-04-10 23:22 1068专著(M:Monograph);论文集(C:Collected ... -
Web-based Services and Information Systems
2011-04-08 23:21 1261[Dbworld] Web-based Services an ... -
词序列核函数
2011-03-21 17:23 1668词序列核函数 Case 1: ACB & ... -
Standard treebank POS tagger
2011-03-12 14:48 1490Standard treebank POS tagger ... -
Rand指数
2010-12-17 15:58 2414Rand指数为Milligan和Cooper[]提 ... -
关于期刊
2010-12-03 12:06 1594Web Mining相关国际会议期刊及影响因子列表(欢迎 ... -
有关国际会议3
2010-12-03 12:00 27423对AI领域的会议的评点The First Class:今天先 ... -
有关国际会议2
2010-12-03 11:56 1527AREA: Artificial Intelligence a ... -
有关国际会议1
2010-12-03 11:53 16901几个数据库/数据挖掘会议 iamlucky SIGMOD ... -
CCF公布推荐的国际学术会议和期刊目录
2010-10-12 14:47 1822CCF公布推荐的国际学术会议和期刊目录 经过3年多的工 ... -
curriculum vitae
2010-06-12 17:46 1513Benxiong Huang received t ... -
期刊列表
2010-04-22 14:29 1284World Wide Web 1386-145X ... -
Minor revision required \- IEEE Intelligent Systems, ISSI\-2009\-09\-0121\.R1
2010-03-26 21:06 2671旧历年去年腊月二十九发出的信件,到三十晚上猛然发现的。 滑行 ... -
从SCI他引看研究论文的质量----再从这里谈开去zz
2010-03-26 20:59 2566从SCI他引看研究论文的质量----再从这里谈开去zz ... -
ISI公布2008年度SCI收录期刊影响因子
2010-03-08 21:37 2796ISI公布2008年度SCI收录期刊影响因子 2 ... -
IEEE Intelligent Systems, ISSI\-2009\-09\-0121: Decision: major revision
2009-12-23 15:29 1913这篇早该发出来,以识之。 go on working…… ... -
从语言模型“反推”的角度看查询扩展
2009-12-04 21:43 14696.2从语言模型“反推”的角度看查询扩展 查询扩展就是根据实 ... -
语言模型
2009-11-18 21:12 1922恩,首先说语言模型是 ...
相关推荐
这个简单的示例展示了如何将BM25评分模型与Lucene的搜索功能相结合,以实现更精确的文档排序。 总结来说,BM25算法通过综合考虑词汇频率、文档长度和词汇普遍性来评估文档的相关性,为搜索引擎提供了一种有效的排序...
4. **查询相关性**: BM25考虑了查询中每个词的重要性,通过对每个词的得分进行加权求和,得到文档的整体相关性评分。这种加权方法使得查询中的重要词能对文档的排名产生更大影响。 5. **XML文件格式**: 压缩包中的...
本文将深入探讨Lucene示例中的BM25相似度计算,旨在帮助初学者理解如何利用Lucene 4.7.1版本构建索引、执行查询,并比较默认的TF-IDF相似度与BM25相似度的区别。 首先,我们需要了解什么是Lucene。Lucene是一个由...
对于相同的查询词和文档,TF-IDF和BM25的计算结果不同,因为BM25引入了文档长度的调整,使得短文档中高频率的词能获得更高的权重,而长文档中的高频率词权重会被降低。 总结来说,TF-IDF和BM25都是用于评估文本中...
BM25 算法是一种常用的搜索相关性评分算法,用于计算查询语句与文档之间的相关性得分。该算法的主要思想是将查询语句分解成多个语素,然后计算每个语素与文档之间的相关性得分,最后将所有语素的相关性得分进行加权...
BM25的全称为Best Match 25,它改进了早期的TF-IDF模型,通过引入文档长度和查询项分布的调整因子,使得评分更加准确。 BM25的核心思想是基于词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, ...
BM25算法原理参见我的博文:[【NLP】非监督文本匹配算法——BM25] 测试程序: ```python bm25 = BM25() result = bm25.cal_similarity("自然语言处理并不是一般地研究自然语言") for line, score in result: ...
es的排序准则的相关度,根据搜索 ...TF/IDF会随着关键词出现的次数得分逐渐增高,BM25随着关键词出现的次数,得分会有一个极限(用两个参数可以进行调节 k1[默认1.2],b[默认0.75])。目前ES5.0以后版本默认使用BM25。
它基于词频和文档长度进行评分,简单高效,能够在大量文本中快速找到相关文档。尽管不涉及深度学习,但BM25在处理大规模文档集合时具有显著的优势,如低延迟和资源效率。 那么,为什么BERT未能完全取代BM25呢? 1....
lucene可使用的BM25模型
由于引入了文档长度,BM25能够更好地解决长文档和短文档之间相似度评分不公正的问题。 文章还介绍了一个BM25类的实现,这个类能够计算用户问题与“标准问”库中问题的相似度。标准问库是一个问答系统中预先配置的、...
本示例着重介绍了如何利用BM25和BGE检索算法来提升RAG模型的性能,并且支持OpenAI风格的大模型服务。现在,我们将深入探讨这些概念和技术。 首先,BM25(Best Match 25)是一种经典的倒排索引检索算法,用于从大量...
BM25算法是一种在信息检索领域广泛使用的全文检索排名算法,尤其在搜索引擎中扮演着重要角色。它基于词频逆文档频率(TF-IDF)的概念,并在此基础上进行优化,更准确地评估文档与查询的相关性。这个压缩包"Algorithm...
【标题】"山东大学 信息检索技术课设 BM25算法实现"涉及到的是一个基于Python的信息检索技术课程设计项目,其核心目标是实现BM25算法。BM25(Best Match 25)是一种在信息检索系统中广泛使用的文档排名算法,它能够...
到目前为止,已实现的算法是: 霍加api BM25 BM25L BM25 + BM25-Adpt BM25T 这些算法均取自,它对每种方法进行了很好的概述,并对它们进行了基准测试。 一个不错的选择是,他们比较了不同类型的预处理,例如词干...
BM25(Best Match 25)是一种在信息检索领域广泛使用的文本排名算法,主要用于文档相关性评分。它是TF-IDF(词频-逆文档频率)的一种改进版本,能够更精确地评估文档与查询之间的相关性。在Python中,`python-bm25`...
BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法
【作品名称】:基于python的BM25文本匹配算法实现 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】: 测试程序: bm25...