6.2从语言模型“反推”的角度看查询扩展
查询扩展就是根据实际出现的词项推断应该出现的词项,也就是从用户提交的查询推断出隐含在用户查询意图背后的其他词项,从而“揣摩”出用户真实的信息需求。启发式的查询扩展方法在实现扩展时,采用的是一种启发式的扩展词选取方法和权重修正策略,缺乏严格的数学推导和理论依据。为了在统计语言模型框架内实现查询扩展,有必要将用户真实的查询意图表示为查询语言模型(或叫信息需求语言模型),记为θU。
在最简单的情况下,假设θU为一元模型。查询扩展的目的就是利用所有与用户信息需求有关的已知信息来“反推”出潜在的查询语言模型。
这里的“过滤”是一种不可见的潜在过程,可认为是由用户完成的,IR系统的用户根据自己的信息需求(查询意图)挑选出一些能代表其查询意图的关键词构成初始查询提交给IR系统;“反推”则由IR系统来完成,是IR系统根据用户提交的查询“揣摩”其真实查询意图的过程,即根据现有的所有与用户信息需求有关的已知信息(用户提交的查询、文档集、检索的上下文信息、用户的个性化信息以及其他外部知识如WordNet等)“推断”出其真实的查询意图。
6.3基于语言模型估计的反推方法
对于由给定的n篇与用户信息需求相关的文档组成的相关文档集合R={D1,D2,…,Dn},假设R中的每篇文档仅含有一个主题(显然,该主题是与用户信息需求相关的),基于这种假设,我们可认为相关文档集合R所讨论的主题由某个概率模型所生成;为了简化问题的规模,进一步假设该概率生成模型为最简单的一元语言模型,称为相关主题模型,记为θR。根据初始的查询语言模型θQ和相关主题模型θR,我们可以采用线性插值平滑的方法将这两部分信息结合起来,从而获得反推后的查询语言模型θU:
P (w|θU)=α*p(w|θQ)+(1-α)*p(w|θR)
其中α为小于1大于0的插值系数,根据经验获得,缺省值为0.2。
参考:基于统计语言建模的信息检索及相关研究
分享到:
相关推荐
这涉及到逆运动学的计算,即给定末端执行器(画笔)的位置和方向,反推各关节的角度。通常需要解决一组非线性方程,可以使用数值方法如牛顿迭代法来求解。 5. **坐标系建立与对应关系**:建立世界坐标系是仿真中的...
- **逆向动力学**:根据目标位置反推关节角度,适用于更高级的应用场景。 ##### 4. 扩展功能开发 - **头部和手臂**:增加头部和手臂可以使模型更加逼真,同时也能提升整体动画的质量。 - **更复杂的动作**:如跳跃...
基于ABB机器人Rapid编程语言的机器人轨迹规划研究,是近年来机器人领域的重要课题之一。研究者通过分析和应用ABB机器人中的RAPID编程语言,对机器人在固定坐标系中的位姿与姿态进行表示方法的研究,进而对机器人的...
从学科的角度看,人工智能致力于理解和复制人类的智能行为,通过设计和构建智能机器或软件系统,实现对复杂问题的解决。这一学科不仅涉及硬件,如神经计算机、量子计算机等新型计算平台的研发,还涵盖了算法、模型和...
在摄影测量中,我们拥有一个或多个从不同角度拍摄的地球表面图像。通过已知的相机参数(包括内参和外参)以及至少三个地面控制点的坐标,我们可以计算出图像上任意像素对应的实际地理位置。单像空间后方交会是指仅...