`
isiqi
  • 浏览: 16753509 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

“信息熵”(shāng) 的概念【转】

阅读更多

信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。

一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。

那么我们如何量化的度量信息量呢?我们来看一个例子,马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”? 他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号,从 1 到 32, 然后提问: “冠军的球队在 1-16 号中吗?” 假如他告诉我猜对了, 我会接着问: “冠军在 1-8 号中吗?” 假如他告诉我猜错了, 我自然知道冠军队在 9-16 中。 这样只需要五次, 我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值五块钱。

当然,香农不是用钱,而是用 “比特”(bit)这个概念来度量信息量。 一个比特是一位二进制数,计算机中的一个字节是八个比特。在上面的例子中,这条消息的信息量是五比特。(如果有朝一日有六十四个队进入决赛阶段的比赛,那么“谁世界杯冠军”的信息量就是六比特,因为我们要多猜一次。) 读者可能已经发现, 信息量的比特数和所有可能情况的对数函数 log 有关。 (log32=5, log64=6。)

有些读者此时可能会发现我们实际上可能不需要猜五次就能猜出谁是冠军,因为象巴西、德国、意大利这样的球队得冠军的可能性比日本、美国、韩国等队大的多。因此,我们第一次猜测时不需要把 32 个球队等分成两个组,而可以把少数几个最可能的球队分成一组,把其它队分成另一组。然后我们猜冠军球队是否在那几只热门队中。我们重复这样的过程,根据夺冠概率对剩下的候选球队分组,直到找到冠军队。这样,我们也许三次或四次就猜出结果。因此,当每个球队夺冠的可能性(概率)不等时,“谁世界杯冠军”的信息量的信息量比五比特少。香农指出,它的准确信息量应该是

= -(p1*log p1 + p2 * log p2 + ... +p32 *log p32),

其中,p1,p2 , ...,p32 分别是这 32 个球队夺冠的概率。香农把它称为“信息熵” (Entropy),一般用符号 H 表示,单位是比特。有兴趣的读者可以推算一下当 32 个球队夺冠概率相同时,对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。对于任意一个随机变量 X(比如得冠军的球队),它的熵定义如下:

变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

有了“熵”这个概念,我们就可以回答本文开始提出的问题,即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前 10% 的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是 250 万比特。如果用一个好的算法压缩一下,整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书,大约需要 1MB 大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(redundancy)。 需要指出的是我们这里讲的 250 万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。

分享到:
评论

相关推荐

    图像信息熵_信息熵_图像二维熵_图像;一维信息熵;二维信息熵;互信息_

    在本主题中,我们将深入探讨一维和二维信息熵以及互信息的概念,并结合给定的`Hx.m`文件,推测这是一个用于计算图像信息熵的MATLAB脚本。 首先,让我们了解一维信息熵。在图像处理中,一维信息熵通常用于分析单个...

    MATLAB实现信息熵

    在信息技术和数据处理领域,信息熵是一个至关重要的概念,它度量了信息的不确定性或信息的平均信息量。MATLAB作为一个强大的数值计算环境,提供了丰富的工具和函数来实现各种数学和统计计算,包括信息熵的计算。下面...

    信息熵_C++_图像信息熵C++_

    在计算机科学领域,尤其是图像处理和数据分析中,信息熵是一个重要的概念。它是衡量信息不确定性的度量,由信息论的创始人克劳德·香农在1948年提出。本篇文章将深入探讨信息熵的基本原理,以及如何使用C++语言来...

    图像信息熵的matlab代码_matlab图像处理_图像信息熵_

    在图像处理领域,信息熵是一个重要的概念,它用于衡量图像的灰度分布均匀性。信息熵越高,图像的灰度分布越均匀;反之,如果信息熵较低,图像可能呈现出更集中的灰度值。本篇将详细介绍如何使用MATLAB进行图像信息熵...

    各种信息熵.zip_信息熵_各种信息熵_各种熵_熵

    信息熵是信息理论中的一个核心概念,用于量化信息的不确定性或信息量。在这个名为"各种信息熵.zip"的压缩包中,我们预期会找到一系列关于信息熵应用的代码实例,这些代码旨在帮助用户理解并实际操作不同的熵计算方法...

    图像信息熵计算

    在图像处理领域,信息熵是一个重要的概念,它用于衡量图像中的信息量或者不确定性。通过计算图像的信息熵,我们可以了解图像内部像素值分布的情况,这对于图像分析、压缩以及识别等方面都有着极其重要的意义。本文将...

    英文文本信息熵的计算_编程_计算_熵_信息熵_英文文本的信息熵_

    在IT领域,信息熵是一个非常重要的概念,尤其在数据处理、编码理论和信息论中扮演着核心角色。本文将深入探讨如何使用C++编程语言来计算一篇英文文本的信息熵。 首先,我们需要理解信息熵的基本原理。信息熵是信息...

    信息熵,信息熵的计算公式,matlab

    在信息技术和数据处理领域,信息熵是一个至关重要的概念,它源于信息理论,由克劳德·香农在20世纪40年代提出。信息熵衡量的是一个信息源的不确定性或信息含量,通常用于评估信息的混乱程度。在图像处理中,信息熵被...

    信息熵_熵_causek3r_信息熵_熵权值_熵值法_

    信息熵是信息理论中的一个基础概念,由克劳德·香农提出,它用于量化信息的不确定性或随机性。信息熵的提出,为人们衡量系统或事件的不确定性提供了一个量化的工具。较低的信息熵表示我们对系统的状态有较高的知识...

    信息熵计算C程序,信息科学

    在信息科学领域,信息熵是一个核心概念,它量化了信息的不确定性或系统的混乱程度。本压缩包提供的C程序专门用于计算信息熵,是理解和研究复杂系统的重要工具。下面我们将详细探讨信息熵的概念、其在系统科学中的...

    计算灰度图像信息熵的方法

    在图像处理领域,信息熵是一个重要的概念,尤其在评估图像的复杂性和多样性时。本文将深入探讨计算灰度图像信息熵的方法,以及它如何作为衡量图像质量的一个指标。 首先,让我们理解什么是灰度图像。灰度图像是一种...

    信息熵的算法及实现

    通过对离散信源的熵、图像熵以及基于信息熵的Web页面主题信息计算方法的研究,我们不仅深入理解了信息熵这一重要概念,还探索了其在实际应用中的潜力。信息熵作为衡量信息价值的一个重要指标,在信息理论研究和实践...

    实验一 信息熵与图像熵计算

    2.复习信息熵基本定义, 能够自学图像熵定义和基本概念。 二、实验内容与原理: 实验内容:1.能够写出MATLAB 源代码,求信源的信息熵。 2.根据图像熵基本知识,综合设计出MATLAB 程序,求出给定图像的图像熵。

    图像分割 二维信息熵

    信息熵是信息论中的一个核心概念,用于衡量信息的不确定性或信息量。在图像处理中,它通常被用来评估像素的灰度分布均匀性。当图像中某个区域的像素值分布非常均匀时,其信息熵较高,表示该区域的不确定性较大;反之...

    图片信息熵检测

    首先,我们要理解信息熵的基本概念。信息熵是由克劳德·香农提出的,它表示信息的不确定度或者信息的平均信息量。在图像处理中,一个像素的灰度值分布越均匀,信息熵越大,表示图像的信息含量越丰富;反之,如果像素...

    论文研究-基于信息熵的约简概念格渐进式构造.pdf

    本论文研究的是如何通过信息熵的引入,形式化地给出概念内涵的重要程度,并结合用户的兴趣度对概念进行约简,提出一种基于信息熵的约简概念格渐进式构造算法。 概念格的渐进式构造方法关注的是在添加新的对象或者...

    信息论 图片信息熵等计算

    本大作业聚焦于图片信息熵等计算,旨在深入理解这些概念及其应用。在这个压缩包中,我们主要关注的是信息熵和相关熵这两个关键概念。 信息熵是信息论的核心概念,由克劳德·香农在20世纪40年代提出。它是一种度量...

    信息熵计算

    信息熵在信息技术和图像处理领域中扮演着至关重要的角色,特别是在遥感图像融合的应用中。...通过阅读和理解这些代码,你可以更深入地学习如何在实际项目中应用信息熵和梯度的概念,从而优化遥感图像的处理和分析。

    xinxishang.rar_信息熵_图像信息熵_图像的信息熵

    在IT领域,信息熵是一个非常重要的概念,尤其在数据处理、图像分析以及通信等领域中扮演着核心角色。本文将深入探讨“信息熵”这一概念,特别是在图像信息熵方面的应用,结合256x256灰度图像的例子,来帮助你理解和...

Global site tag (gtag.js) - Google Analytics