毕业设计(查全率[召回率]与精度[查准率])----2

fullfocus

浏览: 103184 次
来自: 厦门

最近访客更多访客>>

movw

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

毕业设计

搜索引擎百度 C C++C#

[web网页自动分类系统 java c++]

一直搞不清搜索引擎的查全率和查准率是什么意思,只知道这两个是衡量一个搜索引擎性能的. 今个看一篇南大的学士论文的时候, 又碰到这个问题. 所以决定把他搞清楚, 上百度搜了一下, 所获很多.

查全率[召回率]与精度[查准率] 之辨析:

召回率(recall rate)和精度(precision)定义： <o:p></o:p>

从一个大规模数据集合中检索文档的时，可把文档分成四组 <o:p></o:p>

－系统检索到的相关文档（Ａ）

- 系统检索到的不相关文档（Ｂ）

- 相关但是系统没有检索到的文档（Ｃ）

- 相关但是被系统检索到的文档（Ｄ）

<o:p> </o:p>	相关<o:p></o:p>	不相关<o:p></o:p>
检索到<o:p></o:p>	A<o:p></o:p>	B<o:p></o:p>
未检索到<o:p></o:p>	C<o:p></o:p>	D<o:p></o:p>

直观的说，一个好的检索系统检索到的相关文档越多越好，不相关文档越少越好．<o:p></o:p>

召回率和精度是衡量信息检索系统性能最重要的参数．<o:p></o:p>

召回率Ｒ：用检索到相关文档数作为分子，所有相关文档总数作为分母，即 R=A/(A+C)<o:p></o:p>

精度Ｐ：用检索到相关文档数作为分子，所有检索到的文档总数作为分母．即 P=A/(A+B). <o:p></o:p>

下面举例说明召回率和精度之间的关系：<o:p></o:p>

一个数据库有500个文档, 其中有50个文档符合定义的问题.系统检索到75个文档,但是只有45个符合定义的问题. <o:p></o:p>

召回率 R=45/50=90%<o:p></o:p>

精度 P=45/75=60%<o:p></o:p>

本例中, 系统检索是比较有效的,召回率为90%. 但是结果有很大的噪音, 有近一半的检索结果是不相关. 研究表明: 在不牺牲精度的情况下,获得一个高召回率是很困难的.召回率越高,精度下降的很快,而且这种趋势不是线性的.

分享到：

毕业设计3－－－Nutch的使用 | 毕业设计(Web网页自动分类系统)----开篇(1 ...

2007-02-27 12:46
浏览 3048
评论(0)
论坛回复 / 浏览 (0 / 3951)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论