1、信息的概念信息的概念信息是信息论中最基本、最重要的概念,它是信息是信息论中最基本、最重要的概念,它是一个既存在广泛又抽象的概念;一个既存在广泛又抽象的概念;F广泛性客观世界充满信息人类离不开信息知识、书本是有用信息的积累F抽象性信息不等同与“消息”、“信号”、“情报”、“知识”和“数据”等小结小结-理解信息的概念理解信息的概念v信息信息-事物运动状态或存在方式的事物运动状态或存在方式的不确定不确定性性的描述。的描述。v狭义信息论:又称香农信息论。主要通过狭义信息论:又称香农信息论。主要通过数数学描述学描述与与定理分析定理分析,研究通信系统,研究通信系统从信源到从信源到信宿的全过程信宿的全过程F
2、信息的度量F信道容量F信源和信道编码理论等问题。通信系统模型通信系统模型v香农将各种通信系统概括成通信系统模型:香农将各种通信系统概括成通信系统模型:信源信源编码器编码器信道信道译码器译码器信宿信宿噪声源噪声源消息消息干扰干扰信号信号信号信号+干扰干扰消息消息通信系统中形式上传输的是消息,但实质上传输的是信息。通信系统中形式上传输的是消息,但实质上传输的是信息。通信的结果是消除或部分消除不确定性,从而获得信息。通信的结果是消除或部分消除不确定性,从而获得信息。信源信源v信源信源-信息的来源,是产生消息或消息序列的源泉信息的来源,是产生消息或消息序列的源泉v按照消息的取值集合的离散性和连续性按照
3、消息的取值集合的离散性和连续性F离散信源-输出的消息是有限的,可数的,可以用一维离散型随机变量来描述。如筛子的点数、碱基种类、氨基酸的种类、选修课成绩F连续信源-信源符号集的取值是连续的,可以用一维连续型随机变量来描述。如:说话的内容是离散的,说话的分贝是连续的.F由于计算机是离散的,我们重点讨论离散信源v某时刻,信源发出的消息(事件)具有不确定性某时刻,信源发出的消息(事件)具有不确定性概率知识回顾概率知识回顾v在一定条件下可能出现也可能不出现的现象 称为随机现象. F随机现象揭示了条件和结果之间的不确定性,其数量关系无法用函数加以描述,F在一次观察中出现什么结果具有偶然性,但是通过大量试验
4、,结果具有一定的统计规律性。(掷骰子)F随机现象是通过随机试验来研究的.概率知识回顾概率知识回顾v随机试验随机试验,通常用,通常用 E E 表示,表示,对自然现象的对自然现象的观察和进行一次科学实验。在相同条件下观察和进行一次科学实验。在相同条件下F可重复进行F试验的结果不止一个,每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前其结果无法确知F在大量重复试验或观察中呈现出某种统计规律性的现象v例如:重复摸球试验、掷骰子、参加一次英语考试的试验概率知识回顾概率知识回顾v基本事件基本事件,常用,常用e, e, 来表示来表示F对一个试验来说,我们把其最简单的不能再分的事件称为该事件的基本事
5、件v样本空间样本空间-用用表示,表示,一个试验所有基本事件组成的集合,称为该试验的样本空间v随机事件随机事件-随机试验的每个可能的结果F是基本事件集的子集,简称事件v概率测度概率测度(概率),用(概率),用P P表示,表示,刻画事件发生可能性大小的数量指标F非负性(P(X)=0)、完备性(P()=1)2.1自信息和互信息2.1.1自信息自信息v自信息(量)自信息(量): :一个消息一个消息xixi (事件)本身所包含(事件)本身所包含的信息量,由事件的不确定性决定,记为的信息量,由事件的不确定性决定,记为I(xi)I(xi)。F某事件xi发生所提供的信息量I(xi)应该是该事件发生的先验概率p
6、(xi)的函数:I(xI(x)=)=f(p(xf(p(x)(2)(2)当当p(xp(x)=1)=1时,时,I(xI(x)=0)=0; 极限情况下,当极限情况下,当p(xp(x)=0)=0时,时,I(xI(x)+)+。应满足以下公理化条件:应满足以下公理化条件:(1)I(x)(1)I(x)是是p(xp(x) )的的单调递减函数单调递减函数;若;若p(x1)p(x2),p(x1)I(x2)I(x1)I(x2)(3)(3)信息量满足信息量满足可加性可加性:对于两个独立事件,其信息量等于各自信:对于两个独立事件,其信息量等于各自信息量之和。若息量之和。若p(x1x2)=p(x1)p(x2),I(x1x
7、2)=I(x1)+I(x2)p(x1x2)=p(x1)p(x2),I(x1x2)=I(x1)+I(x2)2.1.1 自信息自信息v某消息某消息xixi的的自信息自信息,可用该消息出现的概率的对数,可用该消息出现的概率的对数的负值来表示:的负值来表示:p(xi)为消息的先验概率底数为2时,常把2省略v自信息量的单位:若这里的对数底取2,则单位为比特(bit,binary unit)FP(x)=1/2时,I(x)=1bit。即概率为1/2的事件具有1bit信息量v由于在计算机上是二进制(binary digit),我们一般都采用比特。221I( )log( )log( )iixip xp x lo
8、gloglogcacbba计算自信息量的例子计算自信息量的例子例例3 3:信源消息:信源消息X=A,T,G,C X=A,T,G,C 的概率模型如下:的概率模型如下:xiATGCP(xi)1/81/81/41/2xiATGCP(xi)1/81/81/41/2I(xi)log8log8log4log2则该信源各消息的自信息量分别为:则该信源各消息的自信息量分别为:单位:比特单位:比特自信息自信息I(xi)的含义的含义v在事件发生以前,等于事件在事件发生以前,等于事件xixi发生的不确定发生的不确定性的大小性的大小; ;v在事件发生以后,表示事件在事件发生以后,表示事件xixi所含有或最大所含有或最
9、大能给收信者提供的信息量。能给收信者提供的信息量。v通过通过无噪信道无噪信道传输后,收信者(信宿)对事传输后,收信者(信宿)对事件件xixi消除消除的不确定性的不确定性的大小,即获得的信息的大小,即获得的信息量的大小量的大小收到某消息获得的收到某消息获得的信息量信息量= =不确定性不确定性的减少量的减少量v例题例题4 4F(1)假设英文字母中“a”出现的概率为0.064,“c”出现的概率为0.022,分别计算他们的自信息量。F(2)假定前后字母出现是互相独立的,计算消息“ac”的自信息。F(3)假定前后字母出现不是互相独立的,当“a”出现以后,“c”出现的概率为0.04,计算“a”出现以后,“
10、c”出现的自信息量。v(1 1)英文字母中)英文字母中“a”a”出现的概率为出现的概率为0.0640.064,“c”c”出现的概率为出现的概率为0.0220.022,分别计算他们的,分别计算他们的自信息量。自信息量。v解:解:F(1)22I( )log 0.0643.96I( )log 0.0225.51abitcbit v(2 2)假定前后字母出现是互相独立的,计)假定前后字母出现是互相独立的,计算消息算消息“ac”ac”的自信息。的自信息。v解:由于前后字母出现是互相独立的,“ac”出现的概率为0.064*0.022,所以 信息量满足可加性信息量满足可加性222I()log (0.064*
11、0.022)(log 0.064log 0.022)I( )+I( )=9.47bitacac 222I()log (0.064*0.022)(log 0.064log 0.022)I( )+I( )=9.47bitacac 222I()log (0.064*0.022)(log 0.064log 0.022)I( )+I( )=9.47bitacac 222I()log (0.064*0.022)(log 0.064log 0.022)I( )+I( )=9.47bitacac v(3 3)假定前后字母出现不是互相独立的,当)假定前后字母出现不是互相独立的,当“a”a”出现以后,出现以后,
12、“ “c”c”出现的概率为出现的概率为0.040.04,F计算“a”出现以后,“c”出现的自信息量。v解:解:v“a”出现的条件下,“c”出现的频率变大,它的不确定性变小,消除了一定的不确定性,所提供的信息量就减少。2I()log 0.044.64bitca bitcI51. 5)( 2.1.2互信息互信息互信息互信息v一个事件 所给出关于另一个事件 的信息定义为互信息,用 表示。F是已知事件后所消除的关于事件的不确定性。F事件本身的不确定性减去已知事件后对仍然存在的不确定性iyix22(|)(|)( ;)( )(/)log()(/)log( )()iiiiiiiiiiiiiip xyp yx
13、I x yI xI xyI yI yxp xp y( ;)iiI x yiyixix( )iI xixiy)|(jiyxIv例例5 5F某地二月份天气出现的频率分别为晴1/2,阴1/4,雨1/8,雪1/8.F某一天有人告诉你:“今天不是晴天”,他这句话作为收到的消息y1,求收到y1后,y1与各种天气的互信息量。v解:解:把各种天气记作把各种天气记作x1(x1(晴晴) ),x2(x2(阴阴), x3(), x3(雨雨) ),x4(x4(雪雪) )。收到消息收到消息y1y1后各种天气发生的概率变成了后验概率:后各种天气发生的概率变成了后验概率:1( 1 1)( 2 1)14( 1/ 1)0 ( 2
14、/ 1)111( 1)( 1)248811( 3 1)1( 4 1)188( 3/ 1) ( 4/ 1)111111( 1)4( 1)4488488p x yp x yp xyp xyp yp yp x yp x yp xyp xyp yp y1( 1 1)( 2 1)14( 1/ 1)0 ( 2/ 1)111( 1)( 1)248811( 3 1)1( 4 1)188( 3/ 1) ( 4/ 1)111111( 1)4( 1)4488488p x yp x yp xyp xyp yp yp x yp x yp xyp xyp yp y)(/ )()(ypxypyxp 条件概率公式条件概率公式
15、v根据互信息的定义,可以算出y1与各种天气之间的互信息:11111112121212212223131331223414144124(|)( ;)()(/)log()(|)1/2(;)()(/)loglog1()1/4(|)1/4(;)()(/)loglog1()1/8(|)(;)()(/)logl()p xyI x yI xI xyp xp xyI xyI xI xybitp xp xyI xyI xI xybitp xp xyI xyI xI xyp x 21/4og11/8bit利用通信系统模型理解互信息利用通信系统模型理解互信息v设设X X为信源发出的离散消息集合;为信源发出的离散消息
16、集合;Y Y为信宿收为信宿收到的离散消息集合;到的离散消息集合;v信源发出的消息,经过信源发出的消息,经过有噪声有噪声的信道传递到的信道传递到信宿;信宿;信宿信道信源 图1 通信系统的简化模型噪声XY信宿信道信源噪声XYxixi无噪I(xi)p(xi)p(xi|yj )I(xi)yj( ;)( )( |)log ( ) log ( |)(1,2,;1,2, )( |)log( )ijiijiijijiI x yI xI x yp xp x yinjmp x yp xxi表示事件表示事件 出现前和出现后出现前和出现后关于事件关于事件 的的不确定性被消除不确定性被消除的部分的部分;表示事件表示事件
17、 出现以后信宿出现以后信宿获得的获得的关于事件关于事件 的的信息量信息量。jyix( ;)( )( |)log ( ) log ( |)(1,2,;1,2, )( |)log( )ijiijiijijiI x yI xI x yp xp x yinjmp x yp x( ;)( )( |)log ( ) log ( |)(1,2,;1,2, )( |)log( )ijiijiijijiI x yI xI x yp xp x yinjmp x yp xjyixv观察者站在输出端观察者站在输出端 :对对 yj 一无所知的情况下一无所知的情况下 xi 存在的不确定度;存在的不确定度; :收到:收到
18、yj 后后 xi 仍然存在的不确定度,损失的信息仍然存在的不确定度,损失的信息()iI x(|)ijI xy小结小结-信息量信息量 收到某消息获得的信息量收到某消息获得的信息量= =不确定性的减少量不确定性的减少量= =(收到此消息前关于某事件发生的不确定性)(收到此消息前关于某事件发生的不确定性)- -(收到此消息后关于某事件发生的不确定)(收到此消息后关于某事件发生的不确定)互信息的其他计算公式互信息的其他计算公式F是已知事件后所消除的关于事件的不确定性。F概率的乘法公式iyix)|()()|()()(yxpypxypxpxyp );(iixyI22(|)(|)( ;)( )(/)log(
19、 )(/)log( )( )iiiiiiiiiiiiiip xyp y xI x yI xI xyI yI yxp xp y);(iixyI);();(iiiixyIyxI互信息的其他计算公式互信息的其他计算公式F事件本身的不确定性和事件本身的不确定性加和,减去事件的不确定性。22(|)(|)( ;)( )(/)log()(/)log( )()iiiiiiiiiiiiiip xyp yxI x yI xI xyI yI yxp xp y22(|)(|)( ;)( )(/)log()(/)log( )()iiiiiiiiiiiiiip xyp yxI x yI xI xyI yI yxp xp
20、y)()(),(xypxpyxp概率乘法公式概率乘法公式)()()(log)()()(iiiiiiiiypxpyxpyxIyIxIix( )iI xiy)(jiyxIiiyx)(iyI);();(iiiixyIyxI通信前:通信前:X和和Y之间没有任何关系,即之间没有任何关系,即X、Y统计独立,统计独立, p(xi yj)=p(xi)p(yj),先验不确定度先验不确定度 通信后:通信后:p(xi yj)=p(xi)p(yj |xi )=p(yj)p(xi |yj),后验不确定度后验不确定度互信息量的性质一、一、对称性对称性:I(x;yI(x;y)=)=I(y;xI(y;x),),其通信意义表示
21、其通信意义表示发出发出x x收到收到y y所能提供给我们的信息量的大小;所能提供给我们的信息量的大小;二、当二、当x x与与y y统计独立时统计独立时, ,I(x;yI(x;y)=)=I(y;xI(y;x)=0,)=0,表示表示这样一次通信不能为我们提供任何信息这样一次通信不能为我们提供任何信息. .三、互信息可取正值也可取负值,也可取值三、互信息可取正值也可取负值,也可取值0 0,单位也是比特单位也是比特 上述两条性质与我们实际情况非常吻合上述两条性质与我们实际情况非常吻合. .思考题思考题v例题例题4 4F(1)英文字母中“a”出现的概率为0.064,“c”出现的概率为0.022,分别计算
22、他们的自信息量。F(2)假定前后字母出现是互相独立的,计算“ac”的自信息。F(3)假定前后字母出现不是互相独立的,当“a”出现以后,“c”出现的概率为0.04,计算“a”出现以后,“c”出现的自信息量。F(4)求在(2)和(3)两种情形下,消息“a”和消息“c”的互信息各为多少。2.2平均自信息概率知识回顾概率知识回顾v随机变量随机变量-将将样本空间样本空间(随机事件)数量化,(随机事件)数量化,即用数值来表示随机试验的结果即用数值来表示随机试验的结果F常用大写的英文字母X,Y,Z,或希腊字母,来表示v有些随机试验的结果可直接用数值来表示.F例如:在掷骰子试验中,结果可用1,2,3,4,5,
23、6来表示不妨用表示所有的样本点,: 出现出现1点点 出现出现2点点 出现出现3点点 出现出现4点点 出现出现5点点 出现出现6点点X(): 1 2 3 4 5 6X : x1 x2 x3 x4 x5 x6随机变量随机变量有些随机试验的结果不是用数量来表示,有些随机试验的结果不是用数量来表示,但可数量化但可数量化v例1: 掷硬币试验,其结果用汉字“出现正面”和“出现反面”来表示.v例2:基因型的表示:0 1 2可数量化可数量化: 用用 1表示表示 “出现正面出现正面” ; 用用 0 表示表示“出现反出现反面面”.随机变量随机变量v设立随机变量的目的设立随机变量的目的-用随机变量的取值用随机变量的
24、取值来描述随机事件和事件发生的概率来描述随机事件和事件发生的概率F其和普通函数的差别是,不一定定义在实数轴上,是定义在样本空间上v概率空间概率空间X,P(X)X,P(X)F一个随机变量的所有可能取值和这些取值对应的概率样本空间中某一点样本空间中某一点 随机事件随机事件 随机变量的某一取值随机变量的某一取值随机随机试验的一个结果试验的一个结果 X的一个唯一取值的一个唯一取值一一对应一一对应 函数关系函数关系v例如例如: : 在掷骰子试验中在掷骰子试验中X:1,2,3,4,5,6 样本空间P(X):P(X=1)=1/6,P(X=2)=1/6, P(X=6)= 1/6 XP X: 1 2 3 4 5
25、 6P(X): 1/6 1/6 1/6 1/6 1/6 1/66 ,2 , 11)(0ixpi611)(iixp 概率空间=离散信源的数学定义离散信源的数学定义v一维离散信源一维离散信源-输出的消息是输出的消息是有限的,可数的有限的,可数的,且且两两信息之间互不相容两两信息之间互不相容,可以用一维离散型随机,可以用一维离散型随机变量来描述变量来描述F信源可以用概率空间来表示v假设随机变量假设随机变量X X有有 个可能的取值个可能的取值 , , 各种取值出现的概率为各种取值出现的概率为 , 它的概率空间表示为它的概率空间表示为F同样满足概率空间的基本特性:非负性、完备性qix1,2,iq( )i
26、p x1,2,iq11()( )()()iqiqXxXxXxXp xp xp xP X0( )1ip x1( )1qiip x信息熵信息熵v自信息是一个随机变量自信息是一个随机变量:F自信息是指信源发出的某一消息所含有的信息量。F不同的消息,它们所含有的信息量也就不同。v平均自信息(信息熵平均自信息(信息熵/ /信源熵信源熵/ /香农熵香农熵/ /无条无条件熵件熵/ /熵函数熵函数/ /熵)熵)F可表示整个信源的(平均)不确定性F随机变量X的每一个可能取值的自信息的数学期望定义为随机变量X的平均自信息量。F单位:比特/符号、奈特/符号、哈特莱/符号21() ( )( )log( )qiiiiH
27、 XE I xp xp x ( )iI x信息熵的意义信息熵的意义v1 1)对于某特定的信源(概率空间给)对于某特定的信源(概率空间给定),其信息熵只有一个。定),其信息熵只有一个。v2 2)不同的信源因统计特性不同,其信息)不同的信源因统计特性不同,其信息熵也不同。熵也不同。例子:例子:F比如某地四月和七月天气的变换程度F两个或多个物种,碱基的组成偏向程度123123123()X=P (X )1 / 31 / 61 / 2y ()yyY=P (Y )1 / 61 / 21 / 3()zzZ=P (Z )1 / 31 / 61 / 2xxxz红( 黄 )( 蓝 )例 如红( 黄 )( 蓝 )晴
28、( 雾 )( 雨 )信息熵的意义信息熵的意义v3 3)信源的信息熵是从)信源的信息熵是从整个整个信源的统计特性信源的统计特性来考虑的,也就是从来考虑的,也就是从平均平均意义上来表征信意义上来表征信源的总体特性的。源的总体特性的。v例例1 1:一个布袋内放一个布袋内放100100个球,其中个球,其中8080个球个球是红色的,是红色的,2020个球是白色的。若随意取一个球是白色的。若随意取一球,猜测是什么颜色,球,猜测是什么颜色,求平均摸取一次所求平均摸取一次所能获得的信息量能获得的信息量?例例1.v一个布袋内放一个布袋内放100100个球,其中个球,其中8080个球是红色的,个球是红色的,202
29、0个球是白色的。若随意取一球,猜测是什么颜色,个球是白色的。若随意取一球,猜测是什么颜色,求平均摸取一次所能获得的信息量求平均摸取一次所能获得的信息量?v解:该信源对应的概率空间为解:该信源对应的概率空间为其中,其中,a1a1表示摸出的是红球,表示摸出的是红球,a2a2则表示白球。则表示白球。v若取出的是红球,获得的信息量是若取出的是红球,获得的信息量是v若取出的是白球,获得的信息量是若取出的是白球,获得的信息量是2 . 08 . 0)(21aaxPX比特8 . 0log)(log)(11aPaI比特2 . 0log)(log)(22aPaI例例1.v若若有放回有放回的取球,那么取球的取球,那
30、么取球n n次中,红球出次中,红球出现的次数约为现的次数约为 ,白球出现的次数约为,白球出现的次数约为v则摸取则摸取n n次后总共所获取的信息量为次后总共所获取的信息量为v这样,平均取球一次所获得的信息量约为这样,平均取球一次所获得的信息量约为)(1anP)(2anP)()()()(2211aIanPaIanP)(log)()(log)()(2211apapapapXH2 . 0log2 . 08 . 0log8 . 0符号比特/719. 0熵是从平均意义上来表征信源的总体信息测度的一个量熵熵H(X)的含义的含义v表示信源输出后,每个消息(或符号)所提表示信源输出后,每个消息(或符号)所提供的
31、平均信息量供的平均信息量v表示信源输出前,信源的平均不确定性表示信源输出前,信源的平均不确定性v表征变量表征变量X X的平均不确定性的平均不确定性v一般情况下,信息熵并不等于收信者平均获一般情况下,信息熵并不等于收信者平均获得的信息量,只有在无噪的情况下成立。得的信息量,只有在无噪的情况下成立。例例2.v有两个信源,其概率空间分别为有两个信源,其概率空间分别为F则求得的信息熵分别为F信源X中可推测出a1可能发生,其发生概率大,所以信源X的平均不确定性要小F因此,信息熵恰好反映了输出前信源平均不确定程度的大小。2 . 08 . 0)(21aaxPX5 . 05 . 0)(21bbyPY)(log
32、)()(log)()(2211apapapapXH符号比特/719. 05 . 0log5 . 05 . 0log5 . 0)(YH符号比特/1)()(YHXH精品课件精品课件!精品课件精品课件!例2.3v假设随机变量X的概率分布为v解:2i=1i=1( )2 ,1,2,3,H(X)1H(X)=2 log22/2iiiiip xii 求解:比特 符号2i=1i=1( )2 ,1,2,3,H(X)1H(X)=2 log22/2iiiiip xii 求解:比特 符号2i=1i=1( )2 ,1,2,3,H(X)1H(X)=2 log22/2iiiiip xii 求解:比特 符号nnn2232221lim32fgff2/1nn21212121lim32fg2/114322232221limnnnnnnn2211)211 (21lim2