`
Ryee
  • 浏览: 283563 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

LDA算法靠近google

阅读更多

对于SEOr每天面对的挑战来自于搜索引擎的排序算法,因为这个算法是对搜索词汇在结果页中排名到底的重要依据,并且搜索引擎通过构建一个可学习的模型来识别页面上的文本内容。

LDA算法- 主题建模&分析

 

LDA算法公式:


 

 

为了便于理解这里有个简化的形式:



 

 

我们来尝试解释一下,主题词的机会 = 该主题所在文档的出现频次 X 改主题词使用的频次 ;

 

Google会分析用户查询词汇与哪些主题是相关的,这些相关会通过描述词的周边属性来考察,例如:“桔子” 与它相关的属于水果,橙色的颜色属性等等这些内容都是它的相关联的。

 

LDA方法是非常强大的自动化学习算法,他扩展了关键词组合、复合文档间的关联。他已经在很多领域作出了杰出贡献。

 

贝叶斯定律 贝叶斯过滤方法被应用于反垃圾处理。他有效的降低了索引数据库杂质和词语的不准确性。

 

相关算法还包括:

-          TF*IDF  权重公式,比粗糙的关键词密度等指标,可以更加准确影响到关键词排名因素。

-          Followed IPs 这是我们最关心的对链接权重的考量,重点在于文本链接的价值。

-          LDA Cosine 主题与页面相关性。

 

看一些简单的例子:

1、单一关键词

 内容A包含关键词Batman,而内容B中不包含;显然搜索引擎很容易使用内容A参与排名。

 



 2、关键词词组

 关键词组合那个排名靠前,这要取决于两者那个更加相关,Wiggum与Chief相比 关键词Chief更加普遍(相关性广泛)因此内容A更容易被捕获。

备注:这个例子恰恰也说明了另外一个流行的关注指标-关键词密度,你知道怎样理解了:)

 

 

3、组合关键词(复合词)

 

 搜索引擎的相关度(relevancy),看了内容大家很容易从内容B中的描述"Daily Planet" "Clark Kent" 就会联想到超人的主要特征,带着黑边眼镜的日报记者-克拉克 :)所以 很明显内容B相关性优于内容A。

 

 

4、主题模型



 

通过内容作为人的理解能力是可以看出很明显的相关,内容B描述的乐器- 一个女人在演奏这种乐器,但是搜索引擎没有这种经验和经历,没有相关联的关键词如内容A中的更加难以识别。但幸运的是,从LDA的算法中已经评估出来内容B优于内容A。这是一种强健的算法:)

 

-----

总结:

1、算法建立在用户体验基础之上的,我们用用户的思维来考虑问题。

2、搜索引擎也在着力解决这些问题,有可能仅仅是时间的问题。 

 

 

  • 大小: 16.8 KB
  • 大小: 12.4 KB
  • 大小: 13.2 KB
  • 大小: 12.4 KB
  • 大小: 12.5 KB
  • 大小: 11.8 KB
分享到:
评论

相关推荐

    学习LDA算法的步骤

    ### 学习LDA算法的步骤 #### 一、引言 在自然语言处理和文本挖掘领域,主题模型(如LDA算法)是理解和分析文本数据的重要工具之一。LDA(Latent Dirichlet Allocation,潜在狄利克雷分配)算法是一种基于概率的统计...

    LDA算法(MATLAB实现)

    **主题:LDA算法在MATLAB中的实现** 线性判别分析(Linear Discriminant Analysis, LDA)是一种经典的统计分析方法,常用于特征选择和降维,尤其在分类问题中广泛应用。MATLAB作为强大的数学计算和数据分析环境,...

    LDA算法实现

    在"LDA算法及结果截图.zip"中,可能包含了LDA运行后得到的主题分布和词汇概率等信息的可视化结果。这些图表可以帮助我们直观理解模型学习到的主题以及各个文档和词汇与主题的关联程度。 总的来说,LDA算法通过在...

    LDA算法原理详解及代码,另附LDA数学八卦高清PDF版笔记整理

    **主题模型:LDA算法详解** LDA,全称为Latent Dirichlet Allocation(潜在狄利克雷分配),是一种在自然语言处理领域广泛使用的主题模型。该算法通过挖掘文本中的潜在主题来帮助我们理解大量文本数据。LDA的核心...

    LDA算法实例源代码

    非常不错的LDA算法实例源代码,亲测可用。是一个实例的代码,给需要用LDA算法的人一个参考。希望对大家有用。

    lda算法的详细介绍

    ### LDA算法详解及其在文本建模中的应用 #### 一、引言 隐含狄利克雷分配(Latent Dirichlet Allocation, LDA)是David M. Blei、Andrew Y. Ng与Michael I. Jordan于2003年在《机器学习研究杂志》上提出的一种生成...

    LDA算法漫游指南 v2.0.pdf

    LDA算法,全称为Latent Dirichlet Allocation(潜在狄利克雷分配),是一种广泛应用于自然语言处理和文本挖掘领域的主题模型。主题模型是一种无监督学习算法,主要用于从文档集合中发现文档的主题分布和主题下的词...

    人脸识别LDA算法源码

    在这个"人脸识别LDA算法源码"中,我们将会探讨LDA如何被用来优化人脸识别的性能。 LDA的主要目标是找到一个线性变换,将原始数据映射到一个新的空间,使得类别间差异最大化,同时类别内差异最小化。在人脸识别的...

    python-LDA, lda算法的python实现

    **主题模型与LDA算法** LDA(Latent Dirichlet Allocation)是一种常见的主题模型,全称为潜在狄利克雷分配。它在文本挖掘和自然语言处理领域中被广泛使用,用于从大量文档中发现隐藏的主题结构。LDA假设每个文档都...

    LDA算法漫游指南 v2.01

    《LDA算法漫游指南 v2.01》是一本深入探讨主题模型领域中的Latent Dirichlet Allocation(LDA)算法的书籍,作者马晨通过详尽的理论分析和实践应用,旨在帮助读者理解并掌握这一被广泛接受的算法。 LDA算法是基于...

    LDA算法的matlab源代码

    总的来说,LDA算法在信号识别、图像分类、文本分类等多种任务中都有广泛的应用,通过有效的特征提取,能够提高后续分类器的性能。了解并掌握LDA的原理及其在MATLAB中的实现,对于理解和改进机器学习模型具有重要意义...

    LDA算法---java

    **LDA算法(Latent Dirichlet Allocation)**是一种基于概率的主题模型,广泛应用于文本挖掘领域,用于识别和提取文档中的潜在主题。该算法通过分析文档中单词的分布来推断文档所属的主题,并且可以进一步了解主题...

    LDA算法漫游指南 v2.0 - latex样式 (修复的)1

    LDA算法漫游指南 v2.0 - latex样式 (修复的) LDA(Latent Dirichlet Allocation)算法是主题模型领域非常著名的算法,值得深入研究应用,该算法也有很深刻的数学背景和技术启发。马晨在这部作品中详细介绍了LDA算法...

    运用改进型LDA算法的电商微博热点话题研究.pdf

    本文提出了一种改进型LDA算法在电商微博热点话题研究中的应用,重点探讨了如何在海量的社交媒体文本数据中识别和分析热点话题。 首先,需要明确的是LDA(Latent Dirichlet Allocation)模型,它是一种典型的主题...

    MATLAB 关于 LDA 算法

    % This code is LDA base face recoginition programme. It reads nots(here 6) % facse from ORL database and the rest (nump-nots) are used as test. % LDA_Performance shows the recognition performance. % ...

    我收集到得一些人脸识别的程序和大家分享-使用基于LDA算法的人脸识别程序(附有相应的论文).rar

    我收集到得一些人脸识别的程序和大家分享-使用基于LDA算法的人脸识别程序.rar 将我收集到得一些比较完整的人脸识别的资料和大家分享,由于附件大小的限制 我只挑选了一些小的发上来,还有些为了减小文件,我把数据...

    LDA算法漫游指南 v2.0 - 百度阅读1

    【LDA算法漫游指南 v2.0】是一本深入探讨Latent Dirichlet Allocation (LDA)算法的著作,作者马晨强调了数学和算法在人工智能领域的核心地位,认为数学的价值具有永恒性。LDA算法作为主题模型的代表,被广泛应用于...

    lda算法五合一

    **LDA算法五合一**是针对主题模型(Topic Model)中的Latent Dirichlet Allocation(潜在狄利克雷分配)算法的学习资源集合。这个压缩包包含的五个不同版本的实现,旨在帮助Python开发者深入理解并掌握LDA算法的运用...

Global site tag (gtag.js) - Google Analytics