发表者:吴军,Google 研究员
前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?
信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。
一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。
那么我们如何量化的度量信息量呢?我们来看一个例子,马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”? 他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号,从 1 到 32, 然后提问: “冠军的球队在 1-16 号中吗?” 假如他告诉我猜对了, 我会接着问: “冠军在 1-8 号中吗?” 假如他告诉我猜错了, 我自然知道冠军队在 9-16 中。 这样只需要五次, 我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值五块钱。
当然,香农不是用钱,而是用 “比特”(bit)这个概念来度量信息量。 一个比特是一位二进制数,计算机中的一个字节是八个比特。在上面的例子中,这条消息的信息量是五比特。(如果有朝一日有六十四个队进入决赛阶段的比赛,那么“谁世界杯冠军”的信息量就是六比特,因为我们要多猜一次。) 读者可能已经发现, 信息量的比特数和所有可能情况的对数函数 log 有关。 (log32=5, log64=6。)
有些读者此时可能会发现我们实际上可能不需要猜五次就能猜出谁是冠军,因为象巴西、德国、意大利这样的球队得冠军的可能性比日本、美国、韩国等队大的多。因此,我们第一次猜测时不需要把 32 个球队等分成两个组,而可以把少数几个最可能的球队分成一组,把其它队分成另一组。然后我们猜冠军球队是否在那几只热门队中。我们重复这样的过程,根据夺冠概率对剩下的候选球队分组,直到找到冠军队。这样,我们也许三次或四次就猜出结果。因此,当每个球队夺冠的可能性(概率)不等时,“谁世界杯冠军”的信息量的信息量比五比特少。香农指出,它的准确信息量应该是
= -(p1*log p1 + p2 * log p2 + ... +p32 *log p32),
其中,p1,p2 , ...,p32 分别是这 32 个球队夺冠的概率。香农把它称为“信息熵” (Entropy),一般用符号 H 表示,单位是比特。有兴趣的读者可以推算一下当 32 个球队夺冠概率相同时,对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。对于任意一个随机变量 X(比如得冠军的球队),它的熵定义如下:
变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
有了“熵”这个概念,我们就可以回答本文开始提出的问题,即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前 10% 的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是 250 万比特。如果用一个好的算法压缩一下,整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书,大约需要 1MB 大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(redundancy)。 需要指出的是我们这里讲的 250 万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。
不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。
在下一集中, 我们将介绍信息熵在信息处理中的应用以及两个相关的概念互信息和相对熵。
对中文信息熵有兴趣的读者可以读我和王作英教授在电子学报上合写的一篇文章
《语信息熵和语言模型的复杂度》
分享到:
相关推荐
【数学之美系列】是由Google研究员吴军撰写的一系列文章,主要探讨了数学在信息处理、自然语言处理(NLP)和搜索引擎技术中的应用。该系列文章涵盖了多个关键知识点,包括统计语言模型、中文分词、隐含马尔可夫模型...
《谷歌黑板报》系列文章深入探讨了数学在信息检索和自然语言处理中的核心作用以及其奇妙的应用。本文将从统计语言模型、中文分词、隐含马尔可夫模型、信息度量、布尔代数、图论、信息论、贾里尼克公式、相关性计算、...
它以问题为导向,结合历史背景,引导读者深入理解数学的本质,提高解题能力,同时也让读者欣赏到数学之美。无论你是数学的新手还是有一定基础的探索者,这本书都将为你带来丰富的启示和乐趣。通过阅读PDF文档,你...
诺贝尔奖则是为了纪念瑞典化学家阿尔弗雷德·诺贝尔而设立的,涵盖了物理、化学、生理学或医学、文学以及和平等多个领域,而菲尔兹奖则是国际数学联盟颁发给年轻数学家的奖项,通常每四年颁发一次。 集合论的创始人...
### 谷歌黑板报:数学之美——深入探索Google的数学原理 #### 知识点一:统计语言模型 统计语言模型是自然语言处理(NLP)领域中的一项核心技术,它通过数学方法评估一系列词语构成句子的可能性,进而帮助机器理解...
在情感、态度与价值观上,课堂活动应激发学生的学习兴趣,让他们在参与数学研究过程中感受数学的理性美,并理解线线和平面之间相互转化的唯物主义观点。 教学的重点在于直线与平面平行的判定定理及其实际应用,这...
信息量是用来度量信息的新颖性或不确定性的一个量,通常用比特(bits)来表示。香农的信息熵是衡量一个随机变量不确定性的重要指标,它描述了每条消息平均的信息量。例如,2021习题1可能涉及到如何计算一个离散随机...
在21世纪度量金融风险是一个复杂而至关重要的任务,特别是在全球金融市场日益一体化的时代。Leslie Rahl和Zoubair Essaghier的文章深入探讨了这一主题,强调了风险管理在金融领域的艺术性和科学性的结合。 首先,...
《杜克大学经济学硕士生数学夏令营》这份文件是一本为经济学专业的硕士生准备的数学教程,由Daniel A. Graham撰写,首次发布于2010年7月29日。这本教程的目标是提炼并呈现那些对经济学至关重要的数学概念,并且强调...
这种度量标准是基于van Rijsbergen的信息检索效能度量方法来构建的,通过组合与增长原则显著相关的定量指标,将这些指标加权求和,形成了一个综合得分,以此来评估城市规划的成功。在研究过程中,作者选取了美国...
我们将定义(离散共形等价度量)上的两个PL度量 和离散共形等价,如果存在上的一系列PL度量,和一系列三角剖分 ,使得1. 每一个三角剖分在度量下是Delaunay 的;2. 如果,则存在函数,使得,即两个PL度量彼此相差一...
③分别选择同一直线上的两条线段的距离值,利用“度量”菜单中的计算命令,依次计算出两者之积④拖动动点,观察规律:相交弦定理。 制表 [制表] 在“度量”菜单中“制表”命令。选择上例中“四条线段的长度”,利用...
《资本市场理论综述》是2021-2022年度的一份教育精品资料,主要涵盖了一系列关于投资回报和风险分析的关键概念。本资料详细介绍了资本市场的核心知识点,包括回报计算、持有期回报、回报统计、平均股票回报与无风险...
尽管有许多成本估算方法,如代码行(LOC)、功能点(FP)、人月、人天、人年等度量单位,但单纯依赖数学模型并不能确保精确的成本估算,需要结合实际情况灵活应用。 软件项目成本估算通常包括两大部分:软件开发...
线性代数是数学的一个重要分支,它涵盖了矩阵、行列式和线性方程组等多个核心概念,这些概念在工程、科学和经济等众多领域都有着不可或缺的应用。在本章的学习中,我们将深入探讨这些基本概念及其运算,以提升对线性...
10. 汉武帝时期的事件:汉武帝时期,实行了一系列重要政策,包括颁布“推恩令”削弱诸侯权力,张骞出使西域开辟丝绸之路,以及“罢黜百家,独尊儒术”确立儒学的正统地位。 11. 丝绸之路的路线:丝绸之路是古代东西...
AWG标准是通过一系列数学公式来确定不同AWG值对应的导线尺寸。 根据提供的AWG线规对照表,我们可以看到从AWG10到AWG40的各种规格,包括它们对应的直径、面积以及铜线的电阻信息。例如,AWG10的导线直径为0.289英寸...
分形维数是一种度量复杂几何形状或结构维度的方法,它超越了传统的欧几里得几何,能够描述不规则、自相似的物体。在MATLAB中实现分形维数的计算,可以为科研和工程领域提供强大的分析工具,特别是在图像处理、地理...