1、熵、联合熵、条件熵目标目标理解理解各种熵的概念;掌握掌握离散信源各种熵的基本性质1()log()iiI aP a()iI a有两个含义:1、当事件发生前,表示该事件发生的不确定性;2、当事件发生后,标是该事件所提供的信息量 自信息量的单位取决于对数所取的底,若以2为底,单位为比特比特,以e为底,单位为奈特,以10为底,单位为哈特,通常取比特为单位回顾(回顾(1)回顾(回顾(1)1a2a1,2()1/4,3/4aaXp x1()log42I a 24()log0.4153I a例1:设天气预报有两种消息,晴天和雨天,出现的概率分别为1/4和3/4,我们分别用 来表示晴天,以 来表示雨天,则我们的
2、信源模型如下:对一个信源发出不同的消息所含对一个信源发出不同的消息所含有的信息量也不同。自信息是一有的信息量也不同。自信息是一个随机变量,不能用它来作为整个随机变量,不能用它来作为整个信源的信息测度个信源的信息测度11()log()log()()qiiiiH XEP aP ap a 信息熵具有以下两种物理含义信息熵具有以下两种物理含义:1、表示信源输出前信源的平均不确定性、表示信源输出前信源的平均不确定性2、表示信源输出后,每个符号所携带的平均信息量、表示信源输出后,每个符号所携带的平均信息量熵的单位取决于对数所取的底,若以2为底,单位为比特比特/符号符号回顾(回顾(2)熵是熵是从整个集合的统
3、计特性从整个集合的统计特性来考虑的,它从平均意义上来考虑的,它从平均意义上来表征信源的总体特征。来表征信源的总体特征。说明 自信息量自信息量I(x1)和和I(x2)只是表征信源中各只是表征信源中各个符号的不确定度,一个信源总是包含着个符号的不确定度,一个信源总是包含着多个符号消息,各个符号消息又按概率空多个符号消息,各个符号消息又按概率空间的先验概率分布,因而各个符号的自信间的先验概率分布,因而各个符号的自信息量就不同。所以自信息量不能作为信源息量就不同。所以自信息量不能作为信源总体的信息量总体的信息量。平均不确定度平均不确定度H(X)的定义公式与热力学的定义公式与热力学中熵的表示形式相同,所
4、以又把中熵的表示形式相同,所以又把H(X)称为称为信源信源X的熵。熵是在平均意义上来表征信源的的熵。熵是在平均意义上来表征信源的总体特性的,可以表征信源的平均不确定度。总体特性的,可以表征信源的平均不确定度。说明 信息量则只有当信源输出符号而被接收者信息量则只有当信源输出符号而被接收者收到后,才有意义,这就是给予接收者的收到后,才有意义,这就是给予接收者的信息度量,这值本身也可以是随机量,也信息度量,这值本身也可以是随机量,也可以与接收者的情况有关。可以与接收者的情况有关。某一信源,不管它是否输出符号,只要这某一信源,不管它是否输出符号,只要这些符号具有某些概率特性,必有信源的熵些符号具有某些
5、概率特性,必有信源的熵值;这熵值是在总体平均上才有意义,因值;这熵值是在总体平均上才有意义,因而是一个确定值,一般写成而是一个确定值,一般写成H(X),X是是指随机变量的整体(包括概率分布)。指随机变量的整体(包括概率分布)。说明作业相关作业相关人口问题人口问题:在某个地区,一对夫妻只允许生一个孩子,在某个地区,一对夫妻只允许生一个孩子,可是这里所有的夫妻都希望能生个男孩传宗接代,因此可是这里所有的夫妻都希望能生个男孩传宗接代,因此这里的夫妻都会一直生到生了一个男孩为止,假定生男这里的夫妻都会一直生到生了一个男孩为止,假定生男生女的概率相同问:生女的概率相同问:(1)这个地区男孩会多于女孩吗?
6、这个地区男孩会多于女孩吗?(2)一个家庭孩子的个数用离散随机变量一个家庭孩子的个数用离散随机变量X表示,计算表示,计算X的熵的熵 解:解:假定一个家庭里有k个女孩,1个男孩,相应的概率是0.5k*0.5,因此女孩的平均数是 ,女孩的平均数与男孩的平均数相等。1(0.5 0.5)1kkk 1()0.5log0.52kkkH X 习题相关习题相关设离散无记忆信源其发生的消息为(202120190213001203210110321010021032019223210)(1)此消息的自信息是多少?(2)在此消息中平均每个符号携带的信息量是多少?01230123()3/81/41/41/8XaaaaP
7、 x解:(1)因为离散信源是无记忆的,所以其发出的消息序列中各符号是统计独立的。因此,此消息的自信息就等于消息中各个符号的自信息之和!根据题意,可得 123431(0)log1.415(1)log28411(2)log2(3)log348I aI aI aI a 比特比特比特比特此消息中共有14个“0”符号,13个“1”符号,12个“2”符号,6个“3”符号,则得到消息的自信息是123414(0)13(1)12(2)6(3)87.81II aI aI aI a比特 01230123()3/81/41/41/8XaaaaP x习题相关习题相关(2)此消息中共含此消息中共含45个信源符号,这个信源
8、符号,这45个信源符号携带个信源符号携带着着8781比特信息量,则此消息中比特信息量,则此消息中平均每个符号携带平均每个符号携带的信息量的信息量为为287.81/451.95I 比特/符号(202120190213001203210110321010021032019223210)注意:此值是注意:此值是此消此消息息中平均每个符号中平均每个符号携带的信息量携带的信息量该离散无记忆该离散无记忆信源信源平均每个平均每个符号携带的信符号携带的信息量,即信息息量,即信息墒墒41()()log()1.91kkkH XP aP a 比特/符号习题相关习题相关新授课新授课联合熵与条件熵熵、联合熵与条件熵信息
9、熵的基本性质新授课新授课联合熵与条件熵熵、联合熵与条件熵信息熵的基本性质信源发出序列中只有前后两个符号间有依赖关系:信源的概率空间:连续两个信源符号出现的联合概率分布为:联合联合熵与条件熵熵与条件熵1212,()1(),(),()()qiqaaaXp ap ap ap aP Xqi=1且1()()1qqijijjP a aP a ai=1且已知符号 出现后,紧跟着 出现的条件概率为:iaja()(|)()ijjiiPa aPaaPa 由二维离散信源的发出符号序列的特点可以把其分成每两个符号一组,每组代表新信源 中的一个符号。并假设组与组之间是统计独立的,互不相关的。12XX X得到一个新的离散
10、无记忆信源 ,其联合概率空间为:12X X1212()X XP x x11121,.,()()(|)qqqqijijia a a aaaa aP a aP a P aa联合熵与条件熵1211(,)()log()qqijijijH XXP a aP a a 根据(信息)熵的定义,可得:(1)联合熵联合熵可以表征信源输出长度为2的平均不确定性,或所含有的信息量。说明说明:联合熵是随机序列联合熵是随机序列 联合离散符号集上的每个联合离散符号集上的每个符号对符号对 联合自信息量的数学期望联合自信息量的数学期望联合熵与条件熵 12X Xija a(2)条件熵条件熵211(|)(|)log(|)qijij
11、ijH XXaP aaP aa 则:21211(|)()(|)qiiiH XXP a H XXa11()(|)log(|)qqijijiijP a P aaP aa 11()log(|)qqijjiijP a aP aa 联合熵与条件熵随机序列 的联合符号集上的条件自信息量的数学期望 12X X例题已知二维随机变量 的联合概率分布 为 求XY()ijP x y(0,0)(1,1)1/8PP(0,1)(1,0)3/8PP(|)H X Y解:由21()()(0)(1)1/2jijYYiP yP x yPP又由|()13(|)(0|0)(1|1),(1|0)(0|1)()44ijijX YX YX
12、YX YjP x yP xyPPPPP y所以(|)()log(|)0.811ijijH X YP x yP xy 比特/符号新授课新授课联合熵与条件熵 熵、联合熵与条件熵信息熵的基本性质(,)H X Y(|)H X Y(|)H Y XlH(X,Y)H(X)H(YX)lH(X,Y)H(Y)H(XY)证明证明:)/()()(ijijixypxpyxp)/()(jijyxpypjijiyxp,)()iip xjjyp)(熵、联合熵与条件熵 所以所以)/()(log)(,ijijijixypxpyxp)/(log)(,ijjijixypyxp)(log)(iiixpxp)(log)(,ijijixp
13、yxp)/(log)(,ijjijixypyxp)/()(XYHXH)(XYHjijijijijijiyxpyxpyxIyxp,)(log)()()(熵、联合熵与条件熵证明证明:由由)/()()(ijijixypxpyxp)/()(jijyxpypjijiyxp,)()(iixpjjyp)(熵、联合熵与条件熵H(XY)H(Y)H(XY)所以所以)(XYHjijijijijijiyxpyxpyxIyxp,)(log)()()()/()(log)(,jijjijiyxpypyxp)(log)(jjjypyp)/(log)(,jijijiyxpyxp)/()(YXHYH)/(log)()(log)(
14、,jijijijijjiyxpyxpypyxp熵、联合熵与条件熵1,41943611210)(31iipxpXxjxi01201/41/18011/181/31/18201/187/360121141()3694Xp x()(|)()ijjiiP x xP xxP xxjxi01209/111/8012/113/42/9201/87/9xjxi0 01 12 20 01/41/41/181/180 01 11/181/181/31/31/181/182 20 01/181/187/367/36)/(542.1)(log)()(31SymbolBitaPaPXHiii)/(87.0)/(log)
15、()/(313112SymbolBitaaPaaPXXHijijji)/(41.2)(log)()(313121SymbolsBitaaPaaPXXHjiijjinH(X):表示信源中每个符号的平均信息量(表示信源中每个符号的平均信息量(信源熵信源熵)。)。nH(Y):表示信宿中每个符号的平均信息量(表示信宿中每个符号的平均信息量(信宿熵信宿熵)。)。nH(X|Y):表示在输出端接收到表示在输出端接收到Y的全部符号后,发送端的全部符号后,发送端X尚尚存的平均不确定性。这个对存的平均不确定性。这个对X尚存的不确定性是由于干扰引尚存的不确定性是由于干扰引起的。起的。信道疑义度信道疑义度(损失熵损失
16、熵,含糊度含糊度)nH(Y|X):表示在已知表示在已知X的全部符号后,对于输出的全部符号后,对于输出Y尚存的平尚存的平均不确定性。均不确定性。信道散布度信道散布度(噪声熵噪声熵)nH(XY):表示整个信息传输系统的平均不确定性(表示整个信息传输系统的平均不确定性(联合联合熵)熵)。熵的意义(对通信系统)熵的意义(对通信系统)熵之间的相互关系熵之间的相互关系H(X,Y)=H(X)+H(Y|X)H(X,Y)=H(Y)+H(X|Y)H(X)=H(X|Y)H(Y)=H(Y|X)H(X,Y)0;2)若X与Y独立,则H(X)=H(X|Y);3)如果H(X|YZ)=0,则要么H(X|Y)=0,要么H(X|Z
17、)=0;4)H(X|X)=0;5)若X与Y独立,则H(X|Y)=H(Y|X).x只有只有个可个可能的结果能的结果,H(X)0p(x)=p(x|y)H(X|Y=y)=H(X)棋子所在的棋子所在的位置位置:横格和横格和纵格共同决纵格共同决定定FFFTT 123456()0.20.190.180.170.160.17XaaaaaaP x该信源的熵H(X)log6不满足熵的极值性?2.652.58判断题判断题1)H(X)0;2)若X与Y独立,则H(X)=H(X|Y);3)如果H(X|YZ)=0,则要么H(X|Y)=0,要么H(X|Z)=0;4)H(X|X)=0;5)若X与Y独立,则H(X|Y)=H(Y
18、|X).x只有只有个可个可能的结果能的结果,H(X)0p(x)=p(x|y)H(X|Y=y)=H(X)棋子所在的棋子所在的位置位置:横格和横格和纵格共同决纵格共同决定定FFFTT 123456()0.20.190.180.170.160.17XaaaaaaP x该信源的熵H(X)log6不满足熵的极值性?2.652.58作业P22T1(除I(X;Y)T6 T1 H(X,Y)=1.825 H(X)=0.9183 H(Y)=1T6 H(X,Y|Z)=H(X|Z)+H(Y|X,Z)H(X|Z)当H(Y|X,Z)=0,即 Y是X、Z的函数时,原式等号成立。有两个同时输出的信源有两个同时输出的信源X和和
19、Y,其中,其中X的信源符号为的信源符号为A,B,C,Y的信源符号为的信源符号为D,E,F,G,已知,已知 P(X)和和P(Y|X),求联合信源的联合熵和条件熵。,求联合信源的联合熵和条件熵。XABCP(x)1/21/31/6P(y|x)D1/43/101/6E1/41/51/2F1/41/51/6G1/43/101/6扩展训练扩展训练 1)61log6131log3121log21(解:信源解:信源X的熵为:的熵为:()()log()XH XP XP X)/(461.1SymbolBitP(x,y)XABCYD1/81/101/36E1/81/151/12F1/81/151/36G1/81/1
20、01/36扩展训练扩展训练 1信源信源XY输出每一对消息的联合概率为:输出每一对消息的联合概率为:P(X,Y)=P(Y/X)P(X),结果如上表。结果如上表。(/)()log(/)1113111111(4*log2*log2*loglog3*log)8410101551223661.956(/)XYH YXP XYP YXBit Symbol ()()log()1111111111(4*log2*log2*loglog3*log)8810101515121236363.417(/)XYH XYP XYP XYbit Symbols 扩展训练扩展训练 1360916161103314121)/(
21、)()/()()/()()/()()(CDPCPBDPBPADPAPxDPxPDPX从上述结果可得:从上述结果可得:H(X,Y)=H(X)+H(Y/X)=1.461+1.956=3.417(bit/每对符号每对符号)当两个信源统计独立时,当两个信源统计独立时,H(X,Y)=H(X)+H(Y)为最大。为最大。对第二个信源对第二个信源Y,其熵,其熵H(Y)的计算。由全概率公式:的计算。由全概率公式:1203312115181)(EP3607936115181)(FP3609136110181)(GP扩展训练扩展训练 1max()()()1.461 1.9973.458(/ymbols)HXYH X
22、H YBit S联合熵的最大值为:联合熵的最大值为:max()()3.4583.4170.041(/ymbols)HHXYH XYBit S由于信源相关,使联合熵减小,其减小量为:由于信源相关,使联合熵减小,其减小量为:因此:因此:)36091log3609136079log3607912033log1203336091log36091()()log()YH YP YP Y)/(997.1SymbolBit扩展训练扩展训练 1电视屏上约有电视屏上约有 500 600=3 105个格点,按每个格点,按每点有点有 10个不同的灰度等级考虑,则共能组成个不同的灰度等级考虑,则共能组成n=103*10
23、个不同的画面。按等概率个不同的画面。按等概率1/1/103*10计算,计算,平均每个画面可提供的信息量为平均每个画面可提供的信息量为 53 10221()()log()log 10niiiH Xp xp x =3 105 3.32 比特比特/画面画面 扩展训练扩展训练 2有一篇千字文章,假定每字可从万字表中任选,有一篇千字文章,假定每字可从万字表中任选,则共有不同的千字文则共有不同的千字文 N=100001000=104000 篇篇 仍按等概率仍按等概率1/1/100001000计算,平均每篇千字文计算,平均每篇千字文可提供的信息量为可提供的信息量为 H H(X X)logNlogN4 4 1
24、0103 33 332 32 1 13 3 10 104 4 比特千字文比特千字文 比较:比较:“一个电视画面一个电视画面”平均提供的信息量远远超过平均提供的信息量远远超过“一篇千字文一篇千字文”提供的信息量。提供的信息量。扩展训练扩展训练 3该信源该信源X输出符号只有两个,设为输出符号只有两个,设为0和和1。输出符号发生的概率分别为。输出符号发生的概率分别为p和和q,pq=1。即信源的概率空间为。即信源的概率空间为 qpPX10 则二元信源熵为则二元信源熵为 H(X)=-plogp-qlogq =-plogp-(1-p)log(1-p)=H(p)扩展训练扩展训练 40 0.2 0.4 0.6
25、 0.8 110.80.60.40.2pH(p)扩展训练扩展训练 4信源信息熵信源信息熵H(X)是概率是概率p的函数,通的函数,通常用常用H(p)表示。表示。p p取值于取值于0,1区间。区间。H(p)函数曲线如图所示。从图中看出,函数曲线如图所示。从图中看出,如果二元信源的输出符号是确定的,即如果二元信源的输出符号是确定的,即p=1或或q=1,则该信源不提供任何信息。,则该信源不提供任何信息。反之,当二元信源符号反之,当二元信源符号0和和1 1以等概率发以等概率发生时,信源熵达到极大值,等于生时,信源熵达到极大值,等于1比特信比特信息量。息量。扩展训练扩展训练 4 有一布袋内放有一布袋内放l
26、00个球,其中个球,其中80个球是红色的,个球是红色的,20个球是白色的。随便摸出一个球,猜测是什么个球是白色的。随便摸出一个球,猜测是什么颜色,那么其概率空间为:颜色,那么其概率空间为:2.08.0)(21aaXPX扩展训练扩展训练 5解:I(a1)log p(a1)log0.8=0.32I(a2)log p(a2)log0.2=2.32 H(X)=p(a1)I(a1)p(a2)I(a2)=0.72扩展训练扩展训练 5精彩回顾精彩回顾信息重要性:食指上网,拇指发信!信息论重要性:量化信息!消息的信息含量等于该消息的惊奇程度!对数函数量化信息原由?1位的推广。64张纸牌的对分搜索。熵是故事的属性?香农信息量+KCC=常数!是一种与读者无关的绝对方式衡量故事所包含信息量的方法!精彩回顾精彩回顾H(P)是概率矢量是概率矢量P的函数,称为的函数,称为熵函数熵函数。我们用下述表示方法:我们用下述表示方法:n用用H(x)表示以离散随机变量表示以离散随机变量x描述的描述的信源的信息熵信源的信息熵;n用用H(P)或或 H(p1,p2,pq)表示概率矢量为表示概率矢量为P=(p1,p2,pq)的的q个符号信源的信息熵个符号信源的信息熵。n若当若当 q=2 时,因为时,因为 p1+p2=1,所以将两个符号的熵函所以将两个符号的熵函数写成数写成H(p1)或或H(p2)。扩展训练扩展训练 6