摘要:
两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一
个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自
动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。
关键词:
主题模型
技术领域:
搜索技术、自然语言处理
假设有两个句子,我们想知道它们之间是否相关联:
第一个是:“乔布斯离我们而去了。”
第二个是:“苹果价格会不会降?”
如果由人来判断,我们一看就知道,这两个句子之间虽然没有任何公共词语,但仍然是很相关的。这是因为,虽然第二句中的“苹果”可能是指吃的苹果,但
是由于第一句里面有了“乔布斯”,我们会很自然的把“苹果”理解为苹果公司的产品。事实上,这种文字语句之间的相关性、相似性问题,在搜索引擎算法中经常
遇到。例如,一个用户输入了一个query,我们要从海量的网页库中找出和它最相关的结果。这里就涉及到如何衡量query和网页之间相似度的问题。对于
这类问题,人是可以通过上下文语境来判断的。但是,机器可以么?
在传统信息检索领域里,实际上已经有了很多衡量文档相似性的方法,比如经典的VSM模型。然而这些方法往往基于一个基本假设:文档之间重复的词语越多越可能相似。这一点在实际中并不尽然。很多时候相关程度取决于背后的语义联系,而非表面的词语重复。
那么,这种语义关系应该怎样度量呢?事实上在自然语言处理领域里已经有了很多从词、词组、句子、篇章角度进行衡量的方法。本文要介绍的是其中一个语义挖掘的利器:主题模型
。
主题模型是什么?
主题模型,顾名思义,就是对文字中隐含主题的一种建模方法。还是上面的例子,“苹果”这个词的背后既包含是苹果公司这样一个主题,也包括了水果的主题。当我们和第一句进行比较时,苹果公司这个主题就和“乔布斯”所代表的主题匹配上了,因而我们认为它们是相关的。
在这里,我们先定义一下主题究竟是什么。主题就是一个概念、一个方面。它表现为一系列相关的词语。比如一个文章如果涉及到“百度”这个主题,那么
“中文搜索”、“李彦宏”等词语就会以较高的频率出现,而如果涉及到“IBM”这个主题,那么“笔记本”等就会出现的很频繁。如果用数学来描述一下的话,主题就是词汇表上词语的条件概率分布
。与主题关系越密切的词语,它的条件概率越大,反之则越小。
例如:
通俗来说,一个主题就好像一个“桶”,它装了若干出现概率较高的词语。这些词语和这个主题有很强的相关性,或者说,正是这些词语共同定义了这个主
题。对于一段话来说,有些词语可以出自这个“桶”,有些可能来自那个“桶”,一段文本往往是若干个主题的杂合体。我们举个简单的例子,见下图。
以上是从互联网新闻中摘抄下来的一段话。我们划分了4个桶(主题),百度(红色),微软(紫色)、谷歌(蓝色)和市场(绿色)。段落中所包含的每个
主题的词语用颜色标识出来了。从颜色分布上我们就可以看出,文字的大意是在讲百度和市场发展。在这里面,谷歌、微软这两个主题也出现了,但不是主要语义。
值得注意的是,像“搜索引擎”这样的词语,在百度、微软、谷歌这三个主题上都是很可能出现的,可以认为一个词语放进了多个“桶”。当它在文字中出现的时
候,这三个主题均有一定程度的体现。
有了主题的概念,我们不禁要问,究竟如何得到这些主题呢?对文章中的主题又是如何进行分析呢?这正是主题模型要解决的问题。下面我简要介绍一下主题模型是怎样工作的。
主题模型的工作原理
首先,我们用生成模型的视角来看文档和主题这两件事。所谓生成模型
,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语
”这样一个过程得到的。那么,如果我们要生成一篇文档,它里面的每个词语出现的概率为:
上面这个式子,可以矩阵乘法来表示,如下图所示:
左边的
矩阵表示每篇文章中每次词语出现的概率;中间的Φ矩阵表示的是每个主题中每个词语出现的概率
,也就是每个“桶
表示的是每篇文档中各个主题出现的概率
,可以理解为一段话中每个主题所占的比例。
假如我们有很多的文档,比如大量的网页,我们先对所有文档进行分词,得到一个词汇列表。这样每篇文档就可以表示为一个词语的集合。对于每个词语,我们可以用它在文档中出现的次数除以文档中词语的数目作为它在文档中出现的概率
。这样,对任意一篇文档,左边的
矩阵是已知的,右边的两个矩阵未知。而主题模型就是用大量已知的“词语-文档”
矩阵
,通过一系列的训练,推理出右边的“词语-主题”矩阵Φ
和“主题文档”矩阵Θ
。
主题模型训练推理的方法主要有两种,一个是pLSA(Probabilistic Latent Semantic
Analysis),另一个是LDA(Latent Dirichlet
Allocation)。pLSA主要使用的是EM(期望最大化)算法;LDA采用的是Gibbs
sampling方法。由于它们都较为复杂且篇幅有限,这里就只简要地介绍一下pLSA的思想,其他具体方法和公式,读者可以查阅相关资料。
pLSA采用的方法叫做EM(期望最大化)算法,它包含两个不断迭代的过程:E(期望)过程和M(最大化)过程。用一个形象的例子来说吧:比如说食
堂的大师傅炒了一盘菜,要等分成两份给两个人吃,显然没有必要拿天平去一点点去精确称量,最简单的办法是先随意的把菜分到两个碗中,然后观察是否一样多,
把比较多的那一份取出一点放到另一个碗中,这个过程一直重复下去,直到大家看不出两个碗里的菜有什么差别为止。
对于主题模型训练来说,“计算每个主题里的词语分布”和“计算训练文档中的主题分布”就好比是在往两个人碗里分饭。在E过程中,我们通过贝叶斯公式
可以由“词语-主题”矩阵计算出“主题-文档”矩阵。在M过程中,我们再用“主题-文档”矩阵重新计算“词语-主题”矩阵。这个过程一直这样迭代下去。EM
算法的神奇之处就在于它可以保证这个迭代过程是收敛的
。也就是说,我们在反复迭代之后,就一定可以得到趋向于真实值的 Φ和 Θ。
如何使用主题模型?
有了主题模型,我们该怎么使用它呢?它有什么优点呢?我总结了以下几点:
1) 它可以衡量文档之间的语义相似性。对于一篇文档,我们求出来的主题分布可以看作是对它的一个抽象表示。对于概率分布,我们可以通过一些距离公式(比如KL距离)来计算出两篇文档的语义距离,从而得到它们之间的相似度。
2)它可以解决多义词的问题。回想最开始的例子,“苹果”可能是水果,也可能指苹果公司。通过我们求出来的“词语-主题”概率分布,我们就可以知道“苹果”都属于哪些主题,就可以通过主题的匹配来计算它与其他文字之间的相似度。
3) 它可以排除文档中噪音的影响。一般来说,文档中的噪音往往处于次要主题中,我们可以把它们忽略掉,只保持文档中最主要的主题。
4) 它是无监督的,完全自动化的。我们只需要提供训练文档,它就可以自动训练出各种概率,无需任何人工标注过程。
5) 它是跟语言无关的。任何语言只要能够对它进行分词,就可以进行训练,得到它的主题分布。
综上所述,主题模型是一个能够挖掘语言背后隐含信息的利器。近些年来各大搜索引擎公司都已经开始重视这方面的研发工作。语义分析的技术正在逐步深入到搜索领域的各个产品中去。在不久的将来,我们的搜索将会变得更加智能,让我们拭目以待吧。
分享到:
相关推荐
会员背后的奥秘——以三大会员促销为例.pdf
大脑的奥秘——神经科学导论(期末考试答案)汇编.pdf
大脑的奥秘——神经科学导论(期末考试答案)借鉴.pdf
《英语词汇的奥秘——英语单词学习手册》是一本旨在帮助读者揭示英语单词记忆秘诀的指南,它将带领你深入探索英语词汇的世界,让你在学习过程中体验到快乐和成就感。这本书针对不同层次的学习者,提供了丰富的策略和...
青岛版小学数学六年级上册第七单元人体的奥秘——比教案-.pdf
认识大脑思维的奥秘——创新思维讲义doc20(1).docx
【标题】:“认识大脑思维的奥秘——创新思维讲义doc20(1).doc” 【描述】:“认识大脑思维的奥秘——创新思维讲义doc20(1).doc”是一个关于创新思维的文档,可能包含深入解析大脑工作原理和如何培养创新思维的内容...
这个课件"编程的奥秘——.NET课件"显然旨在教授.NET框架的基础知识,特别是针对VB.NET(Visual Basic .NET)语言的编程教育。 VB.NET是.NET框架的一部分,是一种面向对象的编程语言,它继承了经典的Visual Basic的...
《认识大脑思维的奥秘——创新思维讲义》是一份探讨创新思维的文档,旨在深入理解大脑的思维机制并阐述如何运用这些知识来激发创新。文档中提到了创新思维的三个基础资源:土地、资金和人力,特别强调了人力资源中的...
【青岛版六年级上册数学第四单元测试卷(人体的奥秘——比)】主要涵盖了比的概念、化简比、求比值、比例的应用等多个数学知识点。以下是对这些知识点的详细解析: 1. **比的基本概念**:比是表示两个数的关系,通常...
多线程是现代计算机编程中的一个重要概念,尤其在操作系统如Windows这样的多任务环境中,多线程使得程序能够并发执行多个任务,从而充分利用系统的计算资源,提高程序的响应速度和效率。在C#编程中,多线程机制是...
《编码——隐匿在计算机背后的软硬件语言》是一本深入浅出介绍计算机基础知识的书籍,非常适合初学者。这本书旨在帮助读者理解计算机系统的工作原理,包括软件和硬件如何协同工作,以及编码过程中的各种奥秘。以下是...
此书使我们明白了这种创造性——以及我们人类对交流的迫切需求——已经促进了过去两个世纪的革新。 在本书中,作者 Charles Petzold 用常见的对象和诸如布莱叶育文、摩尔斯电码之类大家熟悉的语言系统, 为那些...
首先,文件提到,教育科学出版社的高中版信息技术必修教材《数据与计算》第*单元“编程计算”第3节的内容被用于指导学生掌握循环的结构和执行过程,以及如何运用循环来解决实际问题。这说明了循环在编程计算中的核心...
摄像机的奥秘在于其不断进化的技术和多样化的应用领域。摄像机自20世纪20年代初出现以来,经历了电子管、晶体管、大规模集成电路、数字和CCD(电荷耦合器件)四个关键发展阶段。早期的摄像机依赖于真空摄像管,随着...
"神经科学导论" 神经科学是一门研究神经系统结构、功能与行为的科学,涵盖了神经解剖学、神经生理学、神经药理学、神经心理学等多个领域。本资源摘要信息将对神经科学导论中的重要概念和知识点进行概括。...
【知识点详解】 1. **物质的构成**:物质是由**分子**、**原子**和**离子**等微粒构成的。这些微粒是物质的基本组成单位,不同的物质可能由不同的微粒构成。 2. **分子的特性**:分子是保持物质化学性质最小的粒子...
赛福基因是一家专注于基因大数据解析和精准医疗服务的生物科技公司,由余伟师博士创立。该公司致力于填补中国在基因大数据应用领域的空白,通过建立人工智能基因数据分析平台,为医院、科研机构和第三方检测机构提供...
本书《时间之箭——揭开时间最大奥秘之科学旅程》是一部深入浅出的科普著作,旨在引领读者探索时间这一宇宙中最神秘的概念之一。通过本书,我们可以了解到科学不仅仅是对自然现象的简单记录和解释,更重要的是,它是...