发表者:吴军, Google 研究员
我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。
先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语言模型必然导致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。但这种测试方法对于研发语言模型的人来讲,既不直接、又不方便,而且很难从错误率反过来定量度量语言模型。事实上,在贾里尼克(Fred Jelinek)的人研究语言模型时,世界上既没有像样的语音识别系统,更没有机器翻译。我们知道,语言模型是为了用上下文预测当前的文字,模型越好,预测得越准,那么当前文字的不确定性就越小。
信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称为语言模型复杂度(Perplexity)的概念,直接衡量语言模型的好坏。一个模型的复杂度越小,模型越好。李开复博士在介绍他发明的 Sphinx 语音识别系统时谈到,如果不用任何语言模型(即零元语言模型)时,复杂度为997,也就是说句子中每个位置有 997 个可能的单词可以填入。如果(二元)语言模型只考虑前后词的搭配不考虑搭配的概率时,复杂度为 60。虽然它比不用语言模型好很多,但是和考虑了搭配概率的二元语言模型相比要差很多,因为后者的复杂度只有 20。
信息论中仅次于熵的另外两个重要的概念是“互信息”(Mutual Information) 和“相对熵”(Kullback-Leibler Divergence)。
“互信息”是信息熵的引申概念,它是对两个随机事件相关性的度量。比如说今天随机事件北京下雨和随机变量空气湿度的相关性就很大,但是和姚明所在的休斯敦火箭队是否能赢公牛队几乎无关。互信息就是用来量化度量这种相关性的。在自然语言处理中,经常要度量一些语言现象的相关性。比如在机器翻译中,最难的问题是词义的二义性(歧义性)问题。比如 Bush 一词可以是美国总统的名字,也可以是灌木丛。(有一个笑话,美国上届总统候选人凯里 Kerry 的名字被一些机器翻译系统翻译成了"爱尔兰的小母牛",Kerry 在英语中另外一个意思。)那么如何正确地翻译这个词呢?人们很容易想到要用语法、要分析语句等等。其实,至今为止,没有一种语法能很好解决这个问题,真正实用的方法是使用互信息。具体的解决办法大致如下:首先从大量文本中找出和总统布什一起出现的互信息最大的一些词,比如总统、美国、国会、华盛顿等等,当然,再用同样的方法找出和灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。有了这两组词,在翻译 Bush 时,看看上下文中哪类相关的词多就可以了。这种方法最初是由吉尔(Gale),丘奇(Church)和雅让斯基(Yarowsky)提出的。
当时雅让斯基在宾西法尼亚大学是自然语言处理大师马库斯 (Mitch Marcus) 教授的博士生,他很多时间泡在贝尔实验室丘奇等人的研究室里。也许是急于毕业,他在吉尔等人的帮助下想出了一个最快也是最好地解决翻译中的二义性,就是上述的方法,这个看上去简单的方法效果好得让同行们大吃一惊。雅让斯基因而只花了三年就从马库斯那里拿到了博士,而他的师兄弟们平均要花六年时间。
信息论中另外一个重要的概念是“相对熵”,在有些文献中它被称为成“交叉熵”。在英语中是 Kullback-Leibler Divergence,是以它的两个提出者库尔贝克和莱伯勒的名字命名的。相对熵用来衡量两个正函数是否相似,对于两个完全相同的函数,它们的相对熵等于零。在自然语言处理中可以用相对熵来衡量两个常用词(在语法上和语义上)是否同义,或者两篇文章的内容是否相近等等。利用相对熵,我们可以到处信息检索中最重要的一个概念:词频率-逆向文档频率(TF/IDF)。我们下回会介绍如何根据相关性对搜索出的网页进行排序,就要用的餐TF/IDF 的概念。另外,在新闻的分类中也要用到相对熵和 TF/IDF。
对信息论有兴趣又有一定数学基础的读者,可以阅读斯坦福大学托马斯.科弗 (Thomas Cover) 教授的专著 "信息论基础"(Elements of Information Theory):
http://www.amazon.com/gp/product/0471062596/ref=nosim/103-7880775-7782209?n=283155
http://www.cnforyou.com/query/bookdetail1.asp?viBookCode=17909
科弗教授是当今最权威的信息论专家。
分享到:
相关推荐
数学之美系列完整版是由吴军,Google研究员编写的一系列关于数学在自然语言处理和信息检索中的应用。这系列文章涵盖了统计语言模型、中文分词、隐含马尔科夫模型、信息论、图论、网络爬虫、有限状态机、信息指纹、...
同时,集合论的方法是解决计算机算法中相关问题的基本工具,比如在数据处理、信息检索等方面的应用。 在图论部分,读者将会接触到图的基本概念和性质,以及如何应用图论的理论来分析和解决实际问题。图论不仅仅局限...
7. **信息论在信息处理中的应用**:信息论提供了一套理论框架,用于压缩数据、评估信息质量和通信效率。 8. **贾里尼克公式**:在语言处理领域,贾里尼克公式用于计算词汇共现概率,对词典生成和信息检索有直接影响...
1. **通信的数学理论**:1948年,香农在《贝尔系统技术杂志》上发表了论文《通信的数学理论》,这篇论文被认为是信息论的开山之作。在论文中,香农首次提出了信息熵的概念,它是衡量信息不确定性的指标,也是信息论...
### 矩阵在信息处理中的应用:非负矩阵分解(NMF)的发展及原理 #### 一、非负矩阵分解(NMF)概述 在信息处理领域,非负矩阵分解(Non-negative Matrix Factorization, NMF)是一种重要的数学工具,尤其在处理大规模...
本书不仅涵盖了信息论的经典内容,还探讨了其在其他科学领域以及工程实践中的应用。 在信息论中,信息的概念是指能够减少接收者不确定性的任何事物。信息论研究对象的目的在于找到信息传输和处理的最佳方法,以提高...
信息论是一门研究信息处理、存储和传输的学科,其核心理论由克劳德·香农在1948年提出。信息论在通信领域的应用广泛,也逐步渗透到包括社会科学在内的其他学科领域,对人类的认知、记忆和遗忘等心理过程提供了新的...
【数学之美系列】是由Google研究员吴军撰写的一系列文章,主要探讨了数学在信息处理、自然语言处理(NLP)和搜索引擎技术中的应用。该系列文章涵盖了多个关键知识点,包括统计语言模型、中文分词、隐含马尔可夫模型...
信息论是由克劳德·香农在1948年发表的论文《通信的数学理论》中首次提出的概念,它研究的主要内容包括信息的度量、信息的传输与编码、信息的处理以及信息的优化与控制等方面。 描述中反复强调“很全面,很多有用的...
信息技术在小学数学教育中的应用已经日益成为提升教学质量的重要手段。这篇论文主要探讨了如何借助信息技术,如计算机辅助教学(CAI)和多媒体技术,来优化小学数学课堂,增强学生的学习兴趣,以及解决教学中的难点...
"MathorCup数学应用挑战赛历年优秀论文.rar"这个压缩包文件包含了多个历届比赛的优秀论文,主要聚焦于数学在实际问题中的应用。MathorCup数学应用挑战赛是一个旨在推动数学与实际问题结合,提升学生和专业人士数学...
《清华大学应用信息论考博资料》是一份针对清华大学电子工程系博士研究生入学考试的重要参考资料,主要涵盖了应用信息论和随机过程两大核心主题。对于备考的学生来说,这份资料无疑是提升理解和掌握这两个领域理论...
数学作为所有科学的基础,其理论在信息论的形成中起着至关重要的作用。信息论中的核心概念,如熵、互信息、信道容量等,都是基于数学理论构建的。熵,用来描述信息的不确定性,是概率论和信息论中的关键概念。它提供...
根据提供的信息,我们可以了解到“模糊数学的应用”这一主题是与模糊数学在网络自动答疑系统中应用相关的硕士学位论文。模糊数学是一种处理不确定性和模糊性的数学理论,其创立者为美国自动控制专家扎德(L. A. ...
信息论作为通信和信息技术领域的基石,通过数学的严格分析为我们提供了处理信息的基本方法。学习信息论不仅需要掌握一系列的理论知识,更需要通过不断的实践与习题训练来达到深刻理解与应用。因此,《信息论习题解答...
9. **信息理论在实际应用中的角色**:信息论在众多领域都有应用,如无线通信、网络编码、数据压缩、密码学、机器学习和人工智能等。例如,CDMA通信系统利用了扩频技术,其理论基础就来源于信息论。 10. **编码理论*...
在计算机科学中,信息论不仅在数据通信和网络领域中发挥着基础作用,还在数据结构、算法设计、人工智能和认知科学等领域都有广泛应用。 6. 计算机图形学:计算机图形学是利用计算机技术来创建、处理、存储和显示...
"小鼠视觉感受区电位信号(LFP)与视觉刺激之间的关系研究.pdf"以及其重复文件,可能运用方差分析来分析不同视觉刺激下小鼠大脑电生理反应的差异,这在神经科学研究中至关重要,有助于揭示大脑处理视觉信息的机制。...
《信息论——基础理论与应用》(第二版)是由傅祖芸编著的一本深入探讨信息论的教材,它涵盖了信息论的基本概念、原理及其在实际中的应用。这本书的课后答案是学习者掌握和深化理解信息论知识的重要辅助资料。 信息...
信息论,作为一门科学,由美国数学家克劳德·香农在20世纪40年代初创立,它主要研究信息的度量、编码、传输、压缩和处理等问题。这门学科不仅对通信工程有着深远影响,还在统计学、计算机科学、数据压缩、密码学、...