`

[#0x002C] IR经典模型之向量模型

 
阅读更多

1. 向量模型同样将dj和qcc同级计算,采用的同级方式是扩展qcc到t维

 

2. 相似度计算

  • 依旧有dj = {w1j, w2j, …, wtj},但这里的wij不再是二元值,而是一个加权值;同样定义qcc = {w1, w2, ..., wt},这里的wi也是一个加权值
  • sim(dj, qcc) = dj • qcc / (|dj| * |qcc|), dj • qcc为向量点乘运算
  • 一次检索的过程是根据qcc来和所有dj ∈ D(文档集合),计算出一组sim值,然后依据sim值来排序D,返回前排部分文档(可自定义阈值,比如返回sim值大于0.5的或是D排序后的前30%文档)
  • |dj|² = ∑i (wij²);|qcc|² = ∑i (wi²),对于一次检索而言,|qcc|值对排序不会产生任何影响;dj • qcc =  ∑i (wij * wi)
  • term freqency(词频):表示词ki在文档dj中出现的频率,TFij = Nij / ∑t Ntj,Nij为词ki在文档dj中出现的次数,∑t Ntj为所有词在文档dj中出现的次数和,即dj包含的总词数。若词ki的TF值越高,则说明ki越能代表文档dj
  • inverse doucument frequency(逆向文档频率):设|Di| = {d|d∈D且ki∈d},|Di|值即表示文档集D中有这么多篇文档包含了词ki;IDFi = log(|D| / |Di|),|D|为文档集中的文档个数。若IDFi值越大,说明D中包含ki的文档越少,从而ki用来区分D中不同文档的能力也就越大。
  • wij = TFij * IDFi
  • wi = (½ + ½ * TFij) * IDFi
0
0
分享到:
评论

相关推荐

    常见蓝屏代码,代码蓝屏

    #### 0x0000000C - 读取错误 当操作系统尝试读取磁盘上的数据时发生错误,可能是磁盘损坏或连接问题导致。 #### 0x0000000D - 缓存错误 该错误与缓存相关的硬件故障有关,如CPU缓存或主板上的缓存模块出现问题。 #...

    电脑蓝屏代码一览表 有助于 你更好的了解你的电脑为什们蓝屏啊!

    ### 0x000c - 获取资源失败 获取资源时出现错误,可能是因为资源已被占用或不存在。 ### 0x000d - 超时 超时错误通常发生在等待某个操作完成的过程中,例如网络连接或硬件访问。 ### 0x000e - 在用户模式下,...

    windows蓝屏代码

    #### 0x0000000C 存取码错误 如果存取码错误,则表示对某个资源的访问方式不正确,可能是读写权限不匹配。 #### 0x0000000D 资料错误 该错误表示数据本身存在问题,例如数据损坏或格式不正确。 #### 0x0000000E ...

    电脑蓝屏代码大全

    ##### 0X0000482 执行此应用程序所需的程序库文件之一被损 缺少或损坏的程序库文件可能导致此错误。重新安装程序或修复程序库文件。 ##### 0X0000483 没有应用程序与此项操作的指定文件建立关联 如果文件类型未与...

    Windows 错误码整理

    ### 0x000C - 数据错误。 这通常是因为数据损坏或格式不正确,导致无法正确解析或处理。 ### 0x000D - 设备未准备好。 此错误表明设备(如硬盘驱动器或网络连接)尚未准备好接收请求。 ### 0x000E - 文件名太长。 ...

    Windows xp 蓝屏代码详解

    #### 0x000C - 数据不可用 - **描述**:请求的数据当前不可用。 - **可能原因**:数据正在被其他进程使用。 #### 0x000D - 错误过大 - **描述**:错误超出了预期范围。 - **可能原因**:系统资源管理错误。 #### ...

    蓝屏错误对照表

    #### 0x0000000C:存取码错误。 - **描述**:访问内存时出现了错误。 - **解决方案**:更新驱动程序,运行内存测试工具检查硬件问题。 #### 0x0000000D:资料错误。 - **描述**:数据损坏或不一致。 - **解决方案**...

    windows蓝屏错误代码大全

    #### 0x0000000C - ATAPI_UNEXPECTED_ERROR 当系统在处理ATAPI设备时遇到意外错误时,会出现此错误。这可能是由于硬件故障或驱动程序错误导致的。 #### 0x0000000D - DRIVER_ORDINAL_NOT_FOUND 此错误表明系统无法...

    TaiXuan91#TXLuaLesson#0X2B循环for1

    0X2B循环for前置知识0X29再谈循环正文Lua除了while和repeat语句还提供了一种for循环语句.while和repeat语句循环终止条件可以是任

    TartaricAcid#TXLuaLesson#0X0E中学算术1

    0X0E中学算术前置知识0X0D数学库函数正文有了三角函数、反三角函数、对数函数、求幂运算,中学阶段涉及的所有具体的数值计算基本就都可以求解。求此表达式的值:第

    TaiXuan91#TXLuaLesson#0X00目录1

    目录图例Stage1 入门Stage2 基础Stage3 字符串处理Stage4 理解函数Stage5 表结构Stage6 流程控制Stage7 模块Stage

    TaiXuan91#TXLuaLesson#0X36度量时间1

    1. 度量脚本执行时间 2. 记录时间 3. 计算时间间隔

    上传后缀绕过

    ##### 0x01: 前台过滤绕过 通过抓包工具如Burp Suite截取上传请求,将文件名中的`.jpg`修改为`.php`(例如:将`evil.jpg`改为`evil.php`),这样可以绕过前端的文件扩展名检查。由于前端验证通常较为简单,这种方法...

    real6410点灯

    这里代码中的地址如 `0x7f008000` 指向了 real6410 开发板上用于控制 LED 的寄存器基址。 #### 2.2 汇编指令详解 - **LDR**:Load Register,用于从内存读取数据到寄存器。 - **STR**:Store Register,用于将...

    windows蓝屏错误代码小解

    在Windows系统中,遇到蓝屏错误是较为常见的现象之一,而了解这些错误代码的具体含义对于诊断问题至关重要。本文将详细解读部分蓝屏错误代码及其含义,帮助用户更好地理解并解决问题。 ### 0 0x00000000 作业完成 ...

    ARM7_test4.rar_keil4怎样编arm程序?

    LDR R1, =0xE002C000 @ GPIO端口控制寄存器地址 LDR R2, =0x000000FF @ D5和D6对应的位掩码 STR R2, [R1, #0x18] @ 设置为输出模式 ; 循环闪烁LED B LOOP LOOP: LDR R2, [R1, #0x14] @ 读取GPIO数据寄存器 ORR R2...

    蓝屏代码解析。欢迎下载。

    - **0x0482**: 加载的驱动程序之一与当前操作环境不兼容。 - **0x0483**: 没有找到指定的驱动程序。 - **0x0484**: 指定的服务不存在。 #### 0x04b0 - 0x05a2 - **0x04b0**: 指定的驱动程序无效。 - **0x05a2**: ...

    学习笔记stack相关

    ```c void func(char *buf) { printf("%s\n", buf); } int main() { char buf[256]; func(buf); } ``` 编译并反汇编上述程序,可以得到如下汇编代码片段: ```assembly Dump of assembler code for function ...

    MCU云快充协议C语言实现库软件源代码.zip

    MCU云快充协议C语言实现库软件源代码: #define FRAME_TYPE_0X01 0x01//充电桩登录认证 #define FRAME_TYPE_0X02 0x02 #define FRAME_TYPE_0X03 0x03//充电桩心跳包 #define FRAME_TYPE_0X04 0x04 #define FRAME_...

Global site tag (gtag.js) - Google Analytics