`
lzj0470
  • 浏览: 1276814 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

关键词权重的量化方法TF/IDF

阅读更多

写这篇文章前,一定要说明一点,我对算法也是刚刚开始研究,一定会有不少地方会有差错,也请高手指正,上次计算相关度的方式发布后,就得到了高人的点化,在此谢谢这位高手,也谢谢大家对我的关注。

下面进入主题:

今天我想说的是关键词权重的量化方法TF/IDF,为什么说这个呢?因为我们知道,在数量庞大的搜索引擎库里,拥有无数个形容同一事物的词汇,就好像我上次说的手机和彩铃,他们分明是形容同一个类别:移动通讯相关的东西,但是谁的权重更高呢?这就看这个关键词所表达的意思和在具体文章中的意义来判断了。

在搜索引擎中,一个词能够概括这篇文章意思的能力越高,权重就越高,反之则降低,举个例子吧,类似于这样的一个词:“吸烟的危害”,在这个词里面,吸烟是整个文章的一个主词,也就是说,吸烟这个词是整篇文章的核心,而“危害”这个词却能表达很多危害,例如环境污染危害,破坏公物的危害等。剩下的一个词“的”在整个句子里根本就没有任何意义,这样一来,我们的权重问题就可以看的很明白了,具体的权重大小就如下这样

吸烟>危害>的,而“的”这个词因为不包含任何意义,所以,一般情况下,搜索引擎的计算规则中会讲“的”这个词消噪(这点纯属个人看法,请高手指教。)

我们可以看到的是,有些词,只要你搜索一下,马上就会得出结果,例如吸烟 危害这样的词,而“的”这个词虽然存在于几乎所有的网页中,却根本不能反应出任何意义,这样一来他的权重就少的可怜了,这就是搜索引擎中的:“逆文本频率指数”(Inverse document frequency 缩写为IDF)他的计算公式是这样的,假如一个词W在DW个网页中出现过,那么DW的值越大,W的权重就越小。具体的公式如下log(D/dW).

这个我们可以举个例子,假如有10亿个网页在搜索库里,而手机这个词出现的次数是两百万次,那么我们的计算公式就是

log(2000000/1000000000)=log(500)=6.2

通过这样的方式,我们就可以算出词的权重,这个办法,可以使用在优化当中的长尾生僻词的办法中,利用计算,得到最大的权重词,当然,你无法知道数据库里到底有多少个网页,因此,也就只能通过搜索结果来判断了,呵呵。

那么TF是什么呢?

TF是指你所选定关键词的出现频率,也就是单词汇的出现频率,(Term Frequency)举个例子,还是上面的例子,假如在一个有一千字的文章中“吸烟的危害”这几个词组在网页中分别出现以下的次数:

吸烟:5次

的:46次

危害:9次

这样,吸烟出现的频率是0.005%,“的”出现的频率是0.046,危害出现的频率是0.009%这样,结合相加,这个词“吸烟的危害”在这个文章中的比重就是0.06%。但是我们刚才说过,“的”这个词在大量网页中出现,而且根本无法形容任何意义,因此这个词是需要被删除的,那么,整个这个文章的关键词密度 就是(5+9)*100%,也就是仅仅0.016%。

这个办法我们一般会使用在页面的关键词密度计算上,记住:类似“的”这样的词语是不能被作为关键词的,因为他会被忽略

知道了以上的计算方法后,我们基本就可以知道搜索引擎是如何工作的了,但是有些朋友为了提高文章权重,大量的堆砌主关键词,也就是说假如“吸烟危害”是这个网页的关键词,他会为了提高排名而大量的堆砌关键词,其实根本没有必要去做,我在我的博客里曾经提到过一个“免费送Q币”的案例,他就完全避开了这样的限制,却做到了很好的排名,这就是一个关键词组合的办法,以后我会讲到,有兴趣的朋友可以去研究一下。

接着我们的话题,TF/IDF被认为是信息检索中最伟大的发明,就是因为他在一定意义上解决了很多网页排序的问题,现在的大型搜索引擎都是靠这个公式去做为基础的,当然,在计算方式上会改进很多的部分,以求更准确,另外,结合向量空间模型(Vector Space Models) 、多文档列表求交计算等方式,使得搜索引擎的结果更加准确。

写这篇小文的意思,主要是想让各位对搜索引擎的排序做一个深入的了解,上次我所说过的相关度与这篇文章也是息息相关的,大家不妨研究一下。

本文原载:飘渺蝶舞的SEO梦想

分享到:
评论
2 楼 输入法 2011-06-15  
引用

今天我想说的是关键词权重的量化方法TF/IDF,为什么说这个呢?因为我们知道,在数量庞大的搜索引擎库里,拥有无数个形容同一事物的词汇,就好像我上次说的手机和彩铃,他们分明是形容同一个类别:移动通讯相关的东西,但是谁的权重更高呢?这就看这个关键词所表达的意思和在具体文章中的意义来判断了。

请问红色指示的文章在哪里?博客里没有找到。
急需这方面的资料,谢谢了。
1 楼 dvdface 2009-04-27  
这个论文把解释了TD-IDF的核心思想, 召回率和准确率的矛盾,导致TF-IDF产生的原因

Gerard Salton、Christopher Buckley

Term Weighting Approaches in Automatic Text Retrieval

相关推荐

    TF-IDF.py.zip_TF-IDF WEIGHT_tf-idf_tf_idf_特征提取

    TF-IDF(Term Frequency-Inverse Document Frequency)是一种在信息检索和自然语言处理中广泛使用的文本特征表示方法。它能够衡量一个词在文档中的重要性,适用于文档集合的特征提取,帮助我们理解文档的主题和区分...

    TF-IDF及其算法1

    它主要用于衡量一个词语在文档集合中的重要性,通过计算词语在单个文档中的频率(Term Frequency, TF)和在整个文档集合中的逆向频率(Inverse Document Frequency, IDF)来综合评估词语的权重。 TF-IDF的核心思想...

    TF-ID算法实现Python源码

    TF-IDF(Term Frequency-Inverse Document Frequency)是一种在信息检索和文本挖掘中广泛使用的统计方法,用于评估一个词在文档中的重要性。该算法的基本思想是:如果一个词在文档中频繁出现,但在整个文集(或语料...

    基于TF-IDF的社交电商文本信息分类研究.pdf

    TF-IDF方法被广泛应用于搜索引擎的关键词排序、文档聚类、文本相似度计算、文本分类等任务中。而CHI(Chi-Square Test)特征选择方法则是利用卡方检验来评估特征与类别之间的相关性,常用于特征选择,以提高模型的...

    TF-IDF算法解析与Python实现方法详解

    TF-IDF算法是一种在信息检索和文本挖掘领域广泛使用的加权技术,它的核心目标是量化一个词在文档中的重要性。TF-IDF的计算由两部分组成:词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)。 ...

    TFIDF讲义 Vector Support Model: TFIDF

    TF-IDF(Term Frequency-Inverse Document Frequency)是信息检索领域常用的一种文本表示方法,它能够量化文本中每个词的重要性。在向量空间模型(Vector Space Model, VSM)中,TF-IDF被用来为文档中的词汇分配权重...

    一篇介绍TFIDF的ppt

    TF-IDF,全称为Term Frequency-Inverse Document Frequency,是一种在信息检索和文本挖掘领域常用的用于评估词项在文档集合中的重要性的统计方法。它通过结合词频(Term Frequency, TF)和逆文档频率(Inverse ...

    kmeans中文文本聚类java源码(包括对文本tf,idf的计算,文本相似度计算)

    在这个项目中,我们关注的是基于Java实现的k-means中文文本聚类,该实现包括了TF-IDF权重计算和文本相似度计算的关键步骤。以下是关于这些知识点的详细解释: 1. **k-means聚类**:k-means是一种经典的聚类算法,其...

    人工智能-机器学习-数据预处理-预处理数据例如去除xml标签,去停用次,分词,计算TF-IDF

    4. 计算TF-IDF:TF-IDF(Term Frequency-Inverse Document Frequency)是一种常见的文本特征表示方法,用于量化一个词在文档中的重要性。TF表示词频,即某个词在文档中出现的次数;IDF则表示逆文档频率,反映了词的...

    TF-IDF与余弦相似性的应用(一) 自动提取关键词

    TF-IDF(Term Frequency-Inverse Document Frequency)是一种在信息检索和自然语言处理中广泛...随着自然语言处理技术的不断发展,TF-IDF仍然是许多文本处理任务的首选方法之一,同时也不断被新的技术所补充和完善。

    电信设备-基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统.zip

    传统的词频(TF)或TF-IDF方法可能无法捕捉到文本的深度语义信息。因此,本研究引入了信息熵作为特征量化手段,以增强对文本特征的理解和表示。 信息熵是一个衡量信息不确定性的度量,常用于信息理论和数据挖掘中。...

    文本聚类用的Tfid词频计算

    在这一过程中,TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的词频统计方法,用于量化词语在文档集合中的重要性。下面我们将详细探讨TF-IDF的计算原理以及在文本聚类中的应用。 TF-IDF是一种...

    基于义原相似度的关键词抽取方法 .docx

    关键词抽取方法主要包括TextRank、TF-IDF和LDA。TextRank利用PageRank思想,构建词图并迭代计算节点权重。TF-IDF则通过词频和逆文档频率来评估词的重要性,适用于文本降维。LDA则是一种主题模型,能够发现文本隐藏的...

    文本分析方法及其应用(92页 PPT).ppt

    TF-IDF方法作为文本特征权重计算的经典方法,可以帮助我们更好地理解和处理文本数据。此外,针对中文特有的语言结构,开发出了多种中文分词方法,这些方法为中文文本的数据处理提供了有力的支持。通过综合运用这些...

    生成向量空间

    这种模型的核心思想是通过词频或者TF-IDF(词频-逆文档频率)等方法来量化词语的重要性,并将其转化为向量的形式。 1. **词频(Term Frequency, TF)**:词频是衡量一个词在文档中出现次数的指标,它反映了词在文档...

    指纹识别(指纹识别算法过程)

    指纹识别算法的核心是TF-IDF权重算法。TF-IDF全称为Term Frequency-Inverse Document Frequency,它是一种用于信息检索和文本挖掘中的重要统计方法。TF代表词频(Term Frequency),表示一个词在文档中出现的频率;IDF...

    基于权重的朴素贝叶斯分类器设计与实现.pdf

    TF-IDF模型能够反映词条在文档中的频率与其在整个文档集合中稀有性的结合效果,从而更准确地量化词条的权重。通过将TF-IDF模型集成到朴素贝叶斯分类器中,不仅可以改善先验概率的估计,还能更有效地识别和利用那些能...

    MatchLink一种主题爬行方法.pdf

    接着,利用TF-IDF(词频-逆文档频率)公式为词表中的每个关键词分配权重。TF-IDF是一种用于信息检索与数据挖掘的统计方法,它能反映某个词对一篇文章的重要性。通过计算每个关键词在文档中的词频(TF)和逆文档频率...

Global site tag (gtag.js) - Google Analytics