`
poson
  • 浏览: 361415 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

关键词推荐的几种常见相关性计算方法

阅读更多
    当你在互联网使用搜索的时候,关键词推荐可能是你经常使用到的一个辅助工具。如各种搜索引擎搜索框的下拉提示;google 结果页会有“XXX”的“相关搜索”;百度结果页也有提示一组相关搜索词。关键词推荐在文献上一般称为query suggestiong,query expansion,query rewrite,query recommendation。
   
    而这些常见的关键词推荐是怎么得到的呢?我总结了一下,有以下几种方式。
    第一:只考虑用户输入的关键词。这是指,推荐词只是用户输入词的字串的组合,不添加新的字符串。那么我们考虑的就是如何丢弃不重要的字或者词,或者对输入关键词做拼写纠错。
    对于如何丢弃词,考虑怎么计算字或者词的重要性。考虑词的重要性可以通过TF-IDF,信息增益等方法来完成。还有一种方法是:通过crf的方法,通过序列标注的方法,标准两类词,第一类是重要的词,第二类是次要的词。标记出来之后,我们扔掉不次要的词,留下来的也就是重要词。

    第二:只考虑用户输入序列的关键词。
    这种方法可以把每个用户在一个时间段输入的n个词看成是一次“购物篮”数据,我们统计两周甚至几个月的用户输入,那么我们就可以得到非常多的购物篮数据。通过关联规则挖掘,我们就可以挖掘出相关词。但是这种方法明显的缺点就是没有考虑购物篮中的物品的顺序。当一个关键词和另外一个关键词很相似的时候,无法当成统一为一个对象。
   
    例如“nokia 正品”和“正品 nokia”是两个不同的词,甚至字母大小写也会当成不同的购物篮中的对象。我们需要对这些对象做一下归一化。例如:query分词后按照ascii排序;通通转换为小写字母;把英文品牌通通转换为中文品牌等。
    关联规则是一个比较简单方法。更加复杂一点,我们可以把所有的query当成node,当输入联系查询了query1和query2,那么这两个结点之间就有一条边。这些边上面的权重都可以用概率来表示,最终再用最短路径之类的方法来求解。
    或者使用互信息的方法来计算两个query之间的相关性。sim(x,y)=P(x,y)/(p(x)*p(y)).
   
    第三:考虑query-click log
    把query-click item作为一个矩阵。query是矩阵的行,click iterm或者page(URL)作为列,矩阵中的元素是query(i)点击URL(j)的次数。通过这样的一个矩阵,我们就可以使用k-means聚类,或者对query两两之间通过url 的向量来计算相关性。

    第四种:考虑一些规则
    对应一些词难以推荐相关词,则通过不同的规则来完成不同的推荐。如地点替换/放大/缩小。属性的替换,如款式的替换等等。
    
     长尾query的推荐方法:
     长尾query的推荐是目前研究的一个热点,根据仔细的分析也有一些可以依据的知识。
分享到:
评论

相关推荐

    几种常见的搜索引擎的性能比较与分析2.doc

    本论文将对几种常见的搜索引擎进行深入研究,以揭示其工作原理、性能特点以及在实际应用中的优势。 **搜索引擎的发展与技术原理** 搜索引擎的发展历程可追溯到早期的Archie和Gopher等工具,随着Web的普及,Google...

    网络游戏-基于社交网络的关键词提取方法及装置.zip

    本文将探讨一种基于社交网络的关键词提取方法及其在网络游戏中的应用。这种方法可以帮助游戏开发者更好地理解玩家的需求,优化游戏设计,提升用户体验,并进行有效的市场推广。 关键词提取是信息处理的关键步骤,它...

    e语言-网站关键词提取工具易语言

    在本工具中,可能采用了以下几种技术: 1. **编码转换**:互联网上的网页编码格式多样,包括GBK、UTF-8等,不正确的编码可能导致乱码。因此,工具首先需要识别或转换网页的编码,确保文本数据的正确读取和处理。 2...

    ChatGPT模型的特征选择与关键词提取.docx

    以下是几种常见的关键词提取方法: 1. **基于TF-IDF算法的关键词提取** - **定义**:TF-IDF是一种用于信息检索与数据挖掘的统计方法,用于评估一个词对于一篇文档的重要程度。TF(Term Frequency)指词在文档中的...

    文档内容搜索 可以实现对其内容的判断以及关键词的检索

    4. **相关性计算**:使用特定的相关性模型(如TF-IDF、BM25等)来评估每个文档与查询的相关程度,通常以分数表示。 5. **排序与返回结果**:根据相关性分数对文档进行排序,并返回排名靠前的结果给用户。 在实现这...

    文本分类与关键词检测项目

    2. 特征工程:对于关键词检测,可能需要计算TF-IDF值或其他相关性指标。对于文本分类,可能需要构建词袋模型(Bag-of-Words)、TF-IDF向量或者利用预训练的词嵌入(如Word2Vec、GloVe)。 3. 模型构建:根据项目...

    常用推荐系统算法总结及性能比较.pdf

    本文将对几种常见的推荐系统算法进行详细总结,并比较它们的性能特点。 1. ItemCF(基于商品的协同过滤) ItemCF算法关注商品之间的相似性,常用于如电商、电影和音乐推荐。它计算商品之间的相似度矩阵,当用户对某...

    相似度计算

    以下是几种常见的相似度计算方法的详细说明: 1. **皮尔逊相关系数**(Pearson Correlation Coefficient): 皮尔逊相关系数衡量的是两个变量间的线性关系强度,其值介于-1到1之间,1表示完全正相关,-1表示完全负...

    百度-SPO提取1

    这里,我们将探讨几种常见的关键词提取方法,并结合提供的资源进行讨论。 首先,提到的“SPO”概念可能来源于语义三元组(Subject-Predicate-Object),这是一种表示知识图谱中实体关系的方式。在NLP任务中,SPO...

    fenci.rar_C++分词_中文关键字_中文搜索引擎_分词_分词 搜索

    4. **查询处理**:接收用户的输入,进行查询分析、关键词匹配、相关性计算等操作,返回最相关的搜索结果。 5. **结果排序**:根据查询结果的相关性进行排序,将最相关的页面放在前面显示。 四、分词与搜索 在中文...

    计算广告学第二讲 搜索广告检索

    通常情况下,关键词售卖遵循以下几种匹配模式: - **精确匹配**:只有完全匹配关键词的查询才会触发广告。 - **短语匹配**:只要查询包含关键词短语中的所有词汇,无论顺序如何都会触发广告。 - **广泛匹配**:即使...

    基于机器学习的问答推荐算法设计-论文初稿0.81

    LTR是一种针对信息检索任务的机器学习方法,它旨在通过训练模型来自动学习文档的排序策略。在传统的信息检索中,排序通常依赖于手工设计的特征和得分函数。然而,LTR方法可以利用大量的查询-文档对的反馈数据,学习...

    中文常见的停用词表 文档

    在实际应用中,中文停用词表的使用方法主要有以下几种: 1. **文本预处理**:在进行文本分词后,将停用词从分词结果中剔除,以减少后续处理的负担。 2. **关键词抽取**:在提取文本关键词时,排除停用词能更好地...

    王通2010年最新SEO教程完整版.pdf

    以上知识点仅为文件内容的部分摘录,要掌握SEO,还需深入学习和实践文件中提到的其他相关知识点,如网站优化步骤、关键词优化策略、外链获取技巧、网站友情链接的价值计算方法、网站中不应该出现的SEO方法等。...

    电信设备-一种基于XML的信息搜索方法.zip

    有几种常见的搜索策略: 1. **关键字搜索**:通过匹配XML文档中的特定关键词或短语来查找相关信息。这通常涉及到XPath或XQuery语言,它们允许我们以结构化的方式定位XML文档中的节点。 2. **模式匹配**:利用XPath...

    Programming Collective Intelligence

    书中介绍了几种常见的聚类算法,如K-Means聚类算法、层次聚类(Hierarchical Clustering)等。 - **K-Means聚类算法**:这是一种迭代聚类算法,通过不断地重新分配数据点到最近的簇中心来优化聚类结果。 - **层次聚类...

    Introduction To Information Retrieval

    接着,教程会详细探讨几种主要的信息检索模型,包括布尔模型、矢量空间模型(VSM)和概率模型。布尔模型基于逻辑运算符(如AND、OR、NOT)来组合查询,强调查询项的存在与否;矢量空间模型将文档和查询表示为多维...

    王通2010年最新SEO教程完整版

    - **内容策略**:提出了几种有效的内容优化策略,包括合理的内容更新频率、利用长尾关键词等。 #### 网站信用度与信任度 - **提高信任度**:提供了多种方法来提高网站的信用度和信任度,这对于增强用户信任感、提高...

Global site tag (gtag.js) - Google Analytics