发表者:吴军,Google 研究员
[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]
我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询“原子能的应用”的相关性对这些网页进行排序。因此,这里的关键问题是如何度量网页和查询的相关性。
我们知道,短语“原子能的应用”可以分成三个关键词:原子能、的、应用。根据我们的直觉,我们知道,包含这三个词多的网页应该比包含它们少的网页相关。当然,这个办法有一个明显的漏洞,就是长的网页比短的网页占便宜,因为长的网页总的来讲包含的关键词要多些。因此我们需要根据网页的长度,对关键词的次数进行归一化,也就是用关键词的次数除以网页的总字数。我们把这个商称为“关键词的频率”,或者“单文本词汇频率”(Term Frequency),比如,在某个一共有一千词的网页中“原子能”、“的”和“应用”分别出现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035 和 0.005。 我们将这三个数相加,其和 0.042 就是相应网页和查询“原子能的应用”
相关性的一个简单的度量。概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。 (TF: term frequency)。 那么,这个查询和该网页的相关性就是:
TF1 + TF2 + ... + TFN。
读者可能已经发现了又一个漏洞。在上面的例子中,词“的”站了总词频的 80% 以上,而它对确定网页的主题几乎没有用。我们称这种词叫“应删除词”(Stopwords),也就是说在度量相关性是不应考虑它们的频率。在汉语中,应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后,上述网页的相似度就变成了0.007,其中“原子能”贡献了0.002,“应用”贡献了 0.005。
细心的读者可能还会发现另一个小的漏洞。在汉语中,“应用”是个很通用的词,而“原子能”是个很专业的词,后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重,这个权重的设定必须满足下面两个条件:
1. 一个词预测主题能力越强,权重就越大,反之,权重就越小。我们在网页中看到“原子能”这个词,或多或少地能了解网页的主题。我们看到“应用”一次,对主题基本上还是一无所知。因此,“原子能“的权重就应该比应用大。
2. 应删除词的权重应该是零。
我们很容易发现,如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍然不很清楚要找什么内容,因此它应该小。概括地讲,假定一个关键词 w 在 Dw 个网页中出现过,那么 Dw 越大,w 的权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频率指数” (Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数。比如,我们假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10亿/10亿)= log (1) = 0。假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500) =6.2。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF = log(2)
则只有 0.7。也就只说,在网页中找到一个“原子能”的比配相当于找到九个“应用”的匹配。利用 IDF,上述相关性计算个公式就由词频的简单求和变成了加权求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。在上面的例子中,该网页和“原子能的应用”的相关性为 0.0161,其中“原子能”贡献了 0.0126,而“应用”只贡献了0.0035。这个比例和我们的直觉比较一致了。
TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。在搜索、文献分类和其他相关领域有广泛的应用。讲起 TF/IDF 的历史蛮有意思。IDF 的概念最早是剑桥大学的斯巴克-琼斯[注:她有两个姓] (Karen Sparck Jones)提出来的。斯巴克-琼斯 1972 年在一篇题为关键词特殊性的统计解释和她在文献检索中的应用的论文中提出IDF。遗憾的是,她既没有从理论上解释为什么权重IDF 应该是对数函数 log(D/Dw)(而不是其它的函数,比如平方根),也没有在这个题目上作进一步深入研究,以至于在以后的很多文献中人们提到 TF/IDF 时没有引用她的论文,绝大多数人甚至不知道斯巴克-琼斯的贡献。同年罗宾逊写了个两页纸的解释,解释得很不好。倒是后来康乃尔大学的萨尔顿(Salton)多次写文章、写书讨论 TF/IDF 在信息检索中的用途,加上萨尔顿本人的大名(信息检索的世界大奖就是以萨尔顿的名字命名的)。很多人都引用萨尔顿的书,甚至以为这个信息检索中最重要的概念是他提出的。当然,世界并没有忘记斯巴克-琼斯的贡献,2004年,在纪念文献学学报创刊 60 周年之际,该学报重印了斯巴克-琼斯的大作。罗宾逊在同期期刊上写了篇文章,用香农的信息论解释 IDF,这回的解释是对的,但文章写的并不好、非常冗长(足足十八页),把一个简单问题搞复杂了。其实,信息论的学者们已经发现并指出,其实 IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵(Kullback-Leibler Divergence)(详见上一系列)。这样,信息检索相关性的度量,又回到了信息论。
现在的搜索引擎对 TF/IDF 进行了不少细微的优化,使得相关性的度量更加准确了。当然,对有兴趣写一个搜索引擎的爱好者来讲,使用 TF/IDF 就足够了。 如果我们结合上网页排名(Page Rank),那么给定一个查询,有关网页综合排名大致由相关性和网页排名乘积决定。
固定链接 |

分享到:
相关推荐
9. **相关性计算**:通过TF-IDF、PageRank等算法计算网页和查询的相关性,以提高搜索结果的准确性和相关性。 10. **有限状态机(FSM)**:在地址识别中,有限状态机用于识别和解析复杂的结构化信息,如地址、电话号码...
#### 知识点九:网页与查询相关性确定 在搜索引擎技术中,确定网页与用户查询的相关性是提高搜索结果质量的关键。这通常涉及词频逆文档频率(TF-IDF)、PageRank等算法,通过数学模型评估关键词在网页中的重要性和...
碳交易机制下考虑需求响应的综合能源系统优化运行模型及有效性分析,碳交易机制下需求响应的综合能源系统优化运行策略探索:低碳减排的实践路径,碳交易机制下考虑需求响应的综合能源系统优化运行 综合能源系统是实现“双碳”目标的有效途径,为进一步挖掘其需求侧可调节潜力对碳减排的作用,提出了一种碳交易机制下考虑需求响应的综合能源系统优化运行模型。 首先,根据负荷响应特性将需求响应分为价格型和替代型 2 类,分别建立了基于价格弹性矩阵的价格型需求响应模型,及考虑用能侧电能和热能相互转的替代型需求响应模型; 其次,采用基准线法为系统无偿分配碳排放配额,并考虑燃气轮机和燃气锅炉的实际碳排放量,构建一种面向综合能源系统的碳交易机制; 最后,以购能成本、碳交易成本及运维成本之和最小为目标函数,建立综合能源系统低碳优化运行模型,并通过 4 类典型场景对所提模型的有效性进行了验证。 通过对需求响应灵敏度、燃气轮机热分配比例和不同碳交易价格下系统的运行状态分析发现,合理分配价格型和替代型需求响应及燃气轮机产热比例有利于提高系统运行经济性,制定合理的碳交易价格可以实现系统经济性和低碳性协同。 关键词: 碳交易机制;
MATLAB演示程序:涡旋拉盖尔-高斯光束的横模特性与拓扑荷数及径向指数的影响分析,涡旋拉盖尔高斯光束MATLAB演示程序,涡旋拉盖尔高斯光束横模MATLAB演示程序 拓扑荷数l : 决定了光束的轨道角动量。 具有不同拓扑荷数的涡旋拉盖尔 - 高斯光束携带不同大小的轨道角动量。 影响光束的相位分布。 当l≠0时,光束具有螺旋相位结构,即相位随着角向坐标以的周期变化。 可以通过光学方法进行调控和测量,在量子信息处理、光学镊子等领域有重要应用。 径向指数p : 表示径向方向上的节点数。 p值越大,光束在径向方向上的能量分布变化越复杂,会出现更多的节点和暗区。 与拓扑荷数一起决定了光束的整体形状和强度分布。 ,涡旋拉盖尔-高斯光束; 拓扑荷数l; 径向指数p; MATLAB演示程序; 螺旋相位结构; 角向坐标变化; 轨道角动量。,MATLAB演示涡旋拉盖尔-高斯光束横模:拓扑荷数与径向指数的影响
PFC5.0算例代码解析:含矿物岩石材料,PFC5.0代码解析:探究由三种矿物构成的岩石与类岩石材料在GBM条件下的单轴压缩2D模拟算例,助力学习与技能提升,PFC5.0代码,含三种矿物组成的岩石或者类岩石材料,GBM,单轴压缩2d,算例代码仅供学习以及提升 ,关键词:PFC5.0代码;三种矿物组成;岩石或类岩石材料;GBM;单轴压缩2d;算例代码;学习;提升; 关键词:PFC5.0; 矿物组成; 岩石/类岩石; GBM; 单轴压缩; 算例学习; 提升;,PFC5.0模拟:含三种矿物岩石材料单轴压缩算例
Matlab三维A*算法详解:Astar三维路径规划及自定义地图、障碍物与代函数设定指南,Matlab三维A星算法路径规划工具箱,matlab三维A*算法 Astar三维路径规划 超详细注释 可自定义地图 自定义障碍物栅格数量和颜色 路径颜色 修改代价函数 预设5种常见评价指标 可 ,matlab; A*算法; 三维路径规划; 详细注释; 自定义地图; 自定义障碍物; 栅格数量和颜色; 路径颜色; 代价函数; 评价指标。,Matlab三维A*算法:超详细注释,自定义地图与障碍物路径规划
win32汇编环境,对话框中使用树形视图示例三
**基于SVPWM与死区补偿的PMSM dq轴电感离线辨识方法:高频注入法与电流极性分析**,SVPWM死区补偿技术下的PMSM电感离线辨识方法研究——基于电流极性与高频注入法的高效识别策略,SVPWM+死区补偿(基于电流极性)+高频注入法辨识PMSM的dq轴电感(离线辨识) 1.模型的中的电机,为采用自建的电机模型 2.适用于spmsm和ipmsm, 3.基于两相静止坐标轴电压注入,可通过设置合理的电压幅值和频率,在静止状态下准确辨识电感(更电机后,由于电机额定电压与转速的不同,可能需要调整原有的高频注入参数以获取满意的辨识效果)(不适用在线辨识) 4.死区补偿,是基于电流矢量极性判断 5.可进行有、无死区补偿下的辨识效果对比(资料中包含多个模型,为笔者当初在有无死区补偿,不同设置条件下的进行参数辨识效果对比,以及模型中包含的一些注释,或可供参考) 6.如果模型运行提示Ts未定义,可在命令行窗口输入Ts=0.0001,以解决该报错 7.模型与参考的期刊lunwen一一对应,可互相印证,其建模方式和思想,适合小白入门学习(不建议初学者无参考lunwen的模型) ,SVPWM; 死区补偿
关于电容电流反馈在有源阻尼谐振抑制及SVPWM策略中的运用及其结合单电流环与中点电位平衡控制的综合研究(参考《某领域文献》《另一些领域的研究》等),电容电流反馈SVPWM控制,电容电流反馈有源阻尼谐振抑制+SVPWM 含: [1]有源阻尼谐振抑制+SVPWM [2]单电流环控制 [3]中点电位平衡控制 提供相关参考文献 ,有源阻尼谐振抑制; SVPPM; 电容电流反馈; 谐振抑制; 中点电位平衡控制; 文献暂无。,电容电流反馈结合SVPWM与有源阻尼谐振抑制的研究与实现
易福门RFID:高效控制标准块,多重调用易管理,轻松修改编号与硬件标识符,RFID控制标准块多重调用便捷设,易福门RFID控制标准块,可以多重调用,只需要更改编号和硬件标识符。 ,易福门RFID;控制标准块;多重调用;编号;硬件标识符,易福门RFID标准控制块:多调高效,只需更改编号和硬件标识
TypeScript 基础语法,本人亲自整理的资料
基于博途西门子PLC的多种液体混合控制系统设计与实现:一份包含全流程的电子程序资料,基于博途西门子PLC的多种液体混合控制系统设计与实现:一份包含全流程的电子程序资料,基于plc多种液体混合控制系统设计 博途 西门子plc 本为电子程序资料 一、包含内容: ①西门子PLC程序+HMI仿真工程 (博途V14或以上) 一份; ②配套有IO点表+PLC接线图+主电路图+控制流程图 (CAD源文件可编辑); ,基于plc多种液体混合控制系统设计; 博途V14; 西门子plc; 混合控制; 控制系统设计; 程序仿真; IO点表; PLC接线图; 主电路图; 控制流程图。,基于博途V14的西门子PLC多种液体混合控制系统设计资料
寻找热泵最佳压力的优化算法 输入Cop和高压值,以找到最大化Cop的最佳高压 Optimization algorithm to find optimal pressure of heat pump Inputs of Cop and high pressure values to find optimal high pressure that maxes out COP
三相变压器空载合闸励磁涌流仿真研究:特点分析与观察,变压器空载合闸:三相励磁涌流仿真研究及特性分析,【1】变压器空载合闸时励磁涌流的仿真 仿真目的:分析三相变压器空载合闸过程中,观察励磁涌流的特点 仿真结果:励磁涌流的特点和分析过程可详细咨询。 ,励磁涌流;变压器空载合闸;仿真目的;分析特点;仿真结果。,变压器空载合闸仿真:励磁涌流分析
孪生模型环境安装及其训练方法
更多毕业设计https://cv2022.blog.csdn.net/article/details/124463185
315MHz与433MHz无线遥控接收解码Keil源程序及AD格式电路图详解,315MHz和433MHz无线遥控接收解码源程序,附带Keil源程序和AD格式电路图,315 433MHZ无线遥控接收解码源程序 Keil源程序 含AD格式电路图 ,315MHz无线遥控接收; 433MHz无线解码源程序; Keil源程序; AD格式电路图,基于Keil的315/433MHz无线遥控解码源程序解析及AD格式电路图详解
MATLAB滚动轴承故障诊断程序:采用西楚凯斯大学数据,基于变分模态分解(VMD)算法与包络谱分析的故障诊断比较实现,MATLAB滚动轴承故障诊断程序:采用西楚凯斯大学数据,基于变分模态分解(VMD)算法与包络谱分析的故障诊断比较实现,MATLAB滚动轴承故障诊断程序:采用西楚凯斯大学数据,首先通过变分模态分解(VMD)算法处理,而后分别通过包络谱分析实现故障诊断 ps.通过尖峰对应的频率与计算出的故障频率比较,实现故障诊断 ,核心关键词:MATLAB; 滚动轴承故障诊断; 西楚凯斯大学数据; 变分模态分解(VMD)算法; 包络谱分析; 故障频率比较。,MATLAB基于VMD算法的滚动轴承故障诊断程序:西楚凯斯大学数据包络谱分析
个人ii c的一个说明的资料
更多毕业设计https://cv2022.blog.csdn.net/article/details/124463185