1、主要内容 信源的统计特性和数学模型信源的统计特性和数学模型 各类离散信源的信息测度各类离散信源的信息测度 -熵及其性质熵及其性质 信息理论的一些基本概念和重要结论信息理论的一些基本概念和重要结论 说明:本章内容是香农信息论的基础说明:本章内容是香农信息论的基础2.1 信源的数学模型及分类 信源是信息的来源,是产生消息或消息序列的源泉。消息是信息的载荷者。信息是抽象的,消息是具体的。研究信息,需从研究消息入手。由于信源发送什么消息预先是不可知的,只能用概率空间来描述信源。研究信源的各种可能的输出,以及输出各种可能消息的不确定性。1 1)数学模型数学模型 离散信源:离散信源:信源输出的是单个符号或
2、代码的消息,信源符号集的取值是有限的,或可数的,可以用一维离散型随机变量来描述。信源的数学模型就是离散型随机变量X的概率空间,表示为:并且满足 其中样本空间为 ,I为正整数集;符号ai出现的概率为p(ai)。信源的概率空间是一个完备集。1212.()()()().qqaaaXp ap a p aP x 1)(1qiiapIq qaaa,.,21 连续信源:连续信源:信源输出的是单个符号或代码的消息,但信源符号集的取值是连续的,可以用一维连续型随机变量来描述。相应的信源的数学模型就是连续型随机变量的概率空间,表示为:并且满足 其中(a,b)是连续随机变量X的取值区间,而p(x)是连续随机变量X的
3、概率密度函数。)(),()(xpbaxPX1)(badxxp2)信源的分类 不同信源输出的消息其随机性质不同。根据消息所具有的随机性质的不同,对信源进行如下分类:按照某取值时刻消息的取值集合的离散性和连续性,信源可分为离散信源和连续信源;按照信源输出消息所对应的随机序列的平稳性随机序列的平稳性,信源可分为平稳信源和非平稳信源。平稳信源:离散平稳信源和连续平稳信源。离散平稳信源:信源输出的随机序列X中,每个随机变量Xi都是取值离散的离散型随机变量,且各维概率分布都与时间起点无关;连续平稳信源:信源输出的随机序列X中,每个随机分量Xi都是取值连续的连续型随机变量,且各维概率分布都与时间起点无关。按
4、照信源输出的消息所对应的随机序列中随机变随机变量前后之间有无统计依赖关系量前后之间有无统计依赖关系,信源可分为无记忆信源和有记忆信源。离散无记忆信源:信源在不同时刻发出的符号之间是无依赖的,彼此统计独立的;有记忆信源:信源在不同时刻发出的符号之间是相互依赖的。例如:马尔可夫信源。时齐马氏链信源平稳序列信源离散有记忆信源平稳无记忆一般无记忆离散无记忆信源离散信源2.2 离散信源的信息熵 XP(x)a1 a2 aNp1 p2 pN信息论关心:X的不确定性不确定性大,获取的信息多不确定性分析:随机变量X、Y、ZXP(x)a1 a2 0.01 0.99ZP(z)a1 a2 a3 a4 a50.2 0.
5、2 0.2 0.2 0.2YP(y)a1 a2 0.5 0.5问题:能否度量、如何度量?小大信息熵信息熵 (不确定性)对于随机变量而言:对于随机变量而言:试验前试验前试验后试验后各取值的概率分布确切取值 (0)(不确定性)熵熵一定的确切性多次试验后多次试验后 通过试验消除了不确定性获得了信息信息的数量熵熵 定义自信息的数学期望为信源的平均自信息量,即信息熵:=单位:以2为底的对数时为比特/符号,以e为底的对数时为奈特/符号;以10为底的对数时为哈特/符号。)(1log)(iapEXH)(log)(1iqiiapap r进制信息熵Hr(X)与二进制信息熵H(X)的关系:Hr(X)=信源的信息熵H
6、是从整个信源的统计特性来考虑的,是从平均意义上来表征信源的总体信息测度,是信源的平均不确定程度的大小。rXHlog)(例:例:熵的计算熵的计算 有一布袋内放有一布袋内放100个球,其中个球,其中80个球是红色的,个球是红色的,20个球是白色的。随机摸出一个球,猜测是什么颜个球是白色的。随机摸出一个球,猜测是什么颜色,那么其概率空间为:色,那么其概率空间为:I(a1)log p(a1)log0.8=0.32I(a2)log p(a2)log0.2=2.32 H(X)=(n p(a1)I(a1)p(a2)I(a2)/n=0.722.08.0)(21aaXPX熵的含义熵的含义 熵是熵是从整个集合的统
7、计特性从整个集合的统计特性来考虑的,它从平均意义来考虑的,它从平均意义上来表征信源的总体特征。上来表征信源的总体特征。在信源输出后,信息熵在信源输出后,信息熵H(X)表示每个消息提供的平均信息表示每个消息提供的平均信息量;量;在信源输出前,信息熵在信源输出前,信息熵H(X)表示信源的平均不确定性;表示信源的平均不确定性;信息熵信息熵H(X)表征了变量表征了变量X的随机性。的随机性。,01.099.0)(21aaxPX5.05.0)(21aayPY计算其熵,H(Y)H(X),因此信源Y比信源X的平均不确定性要大。例:设甲地的天气预报为:晴(占48)、阴(占28)、大雨(占18)、小雨(占18)。
8、又设乙地的天气预报为:晴(占78),小雨(占18)。试求两地天气预报各自提供的平均信息量。若甲地天气预报为两种极端情况,一种是晴出现概率为1而其余为0。另一种是晴、阴、小雨、大雨出现的概率都相等为14。试求这两种极端情况所提供的平均信息量。又试求乙地出现这两种极端情况所提供的平均信息量。8/18/14/11/2小雨大雨阴晴)(xPX8/18/7小雨晴)(yPY两个信源解:甲地天气预报构成的信源空间为解:甲地天气预报构成的信源空间为:8/18/14/11/2小雨大雨阴晴)(xPX)(log)()(41iiiaPaPXH符号)(/75.181log8181log8141log4121log21bi
9、t乙地天气预报的信源空间为:8/18/7小雨晴)(yPY)/(544.07log8781log81log8187log87)(符号bitYH天气预报甲地极端情况 极端情况极端情况1:晴天概率:晴天概率10001小雨大雨阴晴)(xPX0log00log00log01log1)(XH)/(0)(0loglim0符号bitXH1/41/41/41/4小雨大雨阴晴)(xPX)/(241log4141log4141log4141log41)(符号bitXHn 结论:等概率分布时信源的不确定性最大,所以信息熵(平均信息量)最大。极端情况2:各种天气等概率分布乙地极端情况 极端情况极端情况1:晴天概率:晴天
10、概率1)/(00log01log1)(符号bitYH1/21/2阴晴)(yPY)/(121log)(符号bitYHn 结论:在极端情况2下,甲地比乙地提供更多的信息量。因为,甲地可能出现的消息数比乙地可能出现的消息数多。01小雨晴)(yPYn极端情况2:各种天气等概率分布XP(x)1 2 3 4 5 61/6 1/6 1/6 1/6 1/6 1/6H(x)=log6=2.58bits=1.79natsX1P(x1)1 2 3 4 5 6 0 1 0 0 0 0H(x1)=0H(x)H(x1)=log6条件熵已知事件 发生的条件下,信源Y的不确定性为:ia1(|)(|)log(|)qijijij
11、H Y XaP baP ba 当信源X发生的条件下,信源Y的不确定性,即条件熵为:111(|)()(|)()(|)log(|)qqqiiijijiiijH Y XP a H Y XaP a P baP ba 11()log(|)qqijjiijP abP ba 联合熵 符号集XY上的每个元素对 的联合自信息量H(XY),表示XY同时发生的不确定性。11()()log()qqijijijH XYP abP ab 小 结l 信息熵的概念:信源的平均自信息量,自信息的数学期望。)(1log)(iapEXH)(log)(1iqiiapap=l 信息熵的计算:信息熵的基本性质 用一个概率矢量P表示离散信
12、源X的概率分布,即令则信息熵可表示为P的函数:=H(P)又称H(P)为熵函数,熵函数具有以下性质:),.,()(),.,(),(2121qqpppaPaPaPP)(1log)(iapEXH)(log)(1iqiiapap 对称性 它体现熵是描述信源总体特性。),(),(),(1113221qqqqpppHppppHpppH123()1/21/41/4xaaaP x123()1/4 1/2 1/4yaaaP y123()1/41/41/2zaaaP z()()()H XH YH Z 确定性 若只有一个符号几乎必然出现,其他符号都是几乎不可能出现,这个信源是一个确知信源,其熵等于零。0)0,1,0
13、()0,0,1()0,1(HHH 非负性 因为0Pi1,所以取对数的底大于1时,值小于0。这种非负性对于离散信源的熵是合适的,但对连续信源来说这一性质并不存在。以后可看到在相对熵的概念下,可能出现负值。)(XH)(log)(1iqiiapap 扩展性说明:说明:信源的取值数增多时,若这些取值对应的概率很小(接近于零),则信源的熵不变。)(,),(),()(,)(,),(),(lim2112110nnnnnxpxpxpHxpxpxpxpH0loglim000021logln 2limlimlim011ln 2 可加性 H(XY)=H(X)+H(Y)若信源X和Y统计独立,X分布为(p1,p2,pn
14、),Y分布为(q1,q2,qm),则联合信源的熵等于分别熵之和。),(121212111mnnmmnmqpqpqpqpqpqpqpHninimjjjimjijinimjjijiqqppqpqpqp111111logloglog)log()log(1111mjjjniiniiimjjqqpppq),(),(2121mnqqqHpppHH(X)H(Y)强可加性 H(XY)=H(X)+H(Y/X)H(XY)=H(Y)+H(X/Y)两个互相关联的信源X和Y的联合信源的熵等于信源X的熵加上在X已知条件下信源Y的条件熵。H(Y|X)表示信源 X 输出一符号的条件下,信源Y再输出一符号所能提供的平均信息量,
15、称为条件熵。令 p(xi)=pi,p(yj|xi)=pij,则H(XY)递增性 性质表明:若原信源X中有一元素划分成m个元素,而这m个元素的概率之和等于原元素的概率,则新信源的熵增加。1121121212111(,)(,)(,)1,nmnmmnnnnmnnnnmijnijHpppqqqqqqHppppp Hppppqp其中 极值性,即最大离散熵定理证明:因为对数是型凸函数,满足詹森不等式Elog Y Y log EY Y,则有:nnnnHxxxHnnn221log)1,1,1(),(上凸性说明:所谓所谓型凸函数即是满足对任意概率矢量型凸函数即是满足对任意概率矢量P P1 1(p p1111,p
16、 p1212,p,p1 1q q)、P P2 2(p p2121,p p2222,p,p2 2q q)和任意和任意q q满足满足 0 0q q 1 1,有:,有:HqPHqP1 1+(1-q)P+(1-q)P2 2 qH(PqH(P1 1)+(1-q)H(P)+(1-q)H(P2 2)注:对-qp1i+(1-q)p2ilogqp1i+(1-q)p2i-(-qp1ilog p1i-(1-q)p2ilog p2i)用Jensen不等式,因为熵函数具有上凸性,所以熵函数具有极值,其最大值存在。)()1()()1(2121PHPHPPH 2.3 离散无记忆的扩展信源 离散信源 单符号离散信源 离散序列
17、信源 离散无记忆信源 一般无记忆 平稳无记忆 离散有记忆信源 平稳序列信源 齐次马尔可夫链信源 当离散平稳无记忆信源发出固定长度的消息序列当离散平稳无记忆信源发出固定长度的消息序列时,则得到原信源的时,则得到原信源的扩展信源扩展信源。例如在电报系统中,若信源输出的是两个二元数例如在电报系统中,若信源输出的是两个二元数字组成的符号序列,此时可认为是一个新的信源,字组成的符号序列,此时可认为是一个新的信源,它由四个符号(它由四个符号(00,01,10,11)组成,我们)组成,我们把该信源称为把该信源称为二元无记忆信源的二次扩展信源二元无记忆信源的二次扩展信源。如果把如果把N个二元数字组成一组,则信
18、源等效成一个二元数字组成一组,则信源等效成一个具有个具有2N个符号的新信源,称为个符号的新信源,称为二元无记忆信源二元无记忆信源的的N次扩展信源次扩展信源。n一般情况下,对一个离散无记忆信源一般情况下,对一个离散无记忆信源X,其样本,其样本空间为空间为a1,a2,aq,对它的输出,对它的输出消息序列消息序列,可用一组长度为可用一组长度为N的序列来表示。这时,它等效的序列来表示。这时,它等效成一个成一个新信源新信源。n新信源输出的新信源输出的符号符号是是N维离散维离散随机矢量随机矢量X=(X1,X2,XN),其中每个分量,其中每个分量Xi(i1,2,N)都都是随机变量,它们都取值于同一信源符号集
19、,并是随机变量,它们都取值于同一信源符号集,并且分量之间统计独立,则由随机矢量且分量之间统计独立,则由随机矢量X 组成的新组成的新信源称为信源称为离散无记忆信源离散无记忆信源X的的N次扩展信源。次扩展信源。单符号离散信源单符号离散信源X的数学模型:的数学模型:N次扩展信源与单符号离散信源次扩展信源与单符号离散信源比较比较:数学模型相同但输出不:数学模型相同但输出不是单个符号,而是一串是单个符号,而是一串N个相互独立的符号序列:个相互独立的符号序列:X(X1,X2,XN),联合分布密度,联合分布密度P(X)=P(X1X2XN)把把 X 等效为一个新信源,称为等效为一个新信源,称为X的的N次扩展信
20、源,其数学模型次扩展信源,其数学模型:1.)(12121qiiqqppppaaaxpX),.,(,)(.)()(.)(212121NNNiiiiqqiNaaappppX111()(.)()NkkNNiiiiikkPP aaP ap1()1NqiiP离散平稳无记忆离散平稳无记忆N次扩展信源的熵次扩展信源的熵 H(X)=H(XN)=NH(X)11()()()log()log()()NNNiXXiHHXppPPXXX)1log.1log1(log)(.1log)(2121NNNNiiiXiiiiXipppppppp其中其中:12111log.1log)(iiiXiiXippppppNNN)(.1lo
21、g11122111XHppppqiiqiiiqiiNN同理计算式中其余各项,得到:同理计算式中其余各项,得到:H(XN)=H(X)+H(X)+H(X)=N H(X)证:证:例例 求如下离散无记忆信源的二次扩展信源及其熵。求如下离散无记忆信源的二次扩展信源及其熵。解:解:二次扩展信源的概率空间为二次扩展信源的概率空间为X2的信源符号123456789对应的符号序列a1 a1a1 a2a1 a3a2 a1a2 a2a2 a3a3 a1a3 a2a3 a3概率P(i)1/41/81/81/81/161/161/81/161/16)/(5.141log4141log4121log21)(SymbolB
22、itXH921()()log()3(/)2()iiiH XPPBit SymbolsH X 1,414121)(31321iipaaaxpX离散平稳无记忆离散平稳无记忆N次扩展信源的熵次扩展信源的熵 H(X)=H(XN)=NH(X)2.4 离散平稳信源 1)1)离散平稳信源的数学定义离散平稳信源的数学定义 在一般情况下,信源在 t=i 时刻将要发出什么样的符号决定于两方面:l信源在信源在 t t=i i 时刻随机变量时刻随机变量X Xi i 取值的概率分布取值的概率分布P(P(x xi i)有关。一有关。一般信源不能保证般信源不能保证P(P(x xi i)=P()=P(x xj j)成立。成立
23、。l 与与t t=i i 时刻以前信源发出的符号有关,即与条件概率时刻以前信源发出的符号有关,即与条件概率P(P(x xi i /x xi i1 1 x xi i2 2)有关。有关。对平稳随机序列,序列的统计性质与时间的推移无关,即信源发出符号序列的概率分布与时间起点无关。平稳随机序列的数学定义 若当t=i,t=j 时(i,j 是大于1的任意整数),P(xi)=P(xj)=P(x),则序列是一维平稳的。具有这样性质的信源称为一维平稳信一维平稳信源源。除上述条件外,如果联合概率分布P(xi xi+1)也与时间起点无关,即P(xi xi+1)=P(xj xj+1)(i,ji,j为任意整数且为任意整
24、数且i i j j),则信源称为二维平稳信源二维平稳信源。它表示任何时刻信源发出二个符号的联合概率分布也完全相等。如果各维联合概率分布均与时间起点无关,那么信源是完全平稳的,信源发出的序列也是完全平稳的。这种各维联合概率分布均与时间起点无关的完全平稳信源称为离散平稳信源离散平稳信源。这时有:P(xi)=P(xj)P(xi xi+1)=P(xj xj+1)P(xi xi+1 xi+N)=P(xj xj+1 xj+N)联合概率与条件概率有以下关系:()()(|)ijijiP a bP a P ba 结论:对于平稳信源来说,其条件概率均与时间起点无关,只与关联长度N有关。它表示平稳信源发出的平稳随机
25、序列前后的依赖关系与时间起点无关。如果某时刻发出什么符号只与前面发出的某时刻发出什么符号只与前面发出的N N个个符号有关符号有关,那么任何时刻它们的依赖关系都是一样的。即:2)二维平稳信源及其信息熵二维平稳信源及其信息熵 二维平稳信源满足一维和二维概率分布与时间起点二维平稳信源满足一维和二维概率分布与时间起点无关。无关。P(ai aj)(i,j=1,q)(.)()()(.)(321321qqaPaPaPaPaaaaxPX1)(1qiiaPn设有一个离散二维平稳信源,其概率空间为:设有一个离散二维平稳信源,其概率空间为:1)|(),.,2,1,()()()|(1)(111 qjijijiijqi
26、qjjiaaPqjiaPaaPaaPaaPn 对离散二维平稳信源的信息测度:对离散二维平稳信源的信息测度:n 由于只有两个符号有关联,且其关联与时间无关,则由于只有两个符号有关联,且其关联与时间无关,则可把这个信源输出的随机序列分成可把这个信源输出的随机序列分成每二个符号一组每二个符号一组(因为相因为相邻的两个符号才有关联邻的两个符号才有关联),每每组构成新信源的一个符号组构成新信源的一个符号,并假并假设设组与组之间统计无关组与组之间统计无关(实际上,组尾的符号与下一组组头的符实际上,组尾的符号与下一组组头的符号是有关的号是有关的)。n这时,这时,等效成一个新的信源等效成一个新的信源X1X2,
27、它们的联合概率空间为:,它们的联合概率空间为:)(log)()(1121jiqiqjjiaaPaaPXXH)(.)()()(.)(3121113121112121qqqqaaPaaPaaPaaPaaaaaaaaxxPXX1)(11 qiqjjiaaP关于关于离散二维平稳信源联合熵离散二维平稳信源联合熵 H(X1X2)表示原来信源表示原来信源X输出任意一对消息输出任意一对消息的共熵,即的共熵,即描述信源描述信源X输出长度为输出长度为2的序列的序列的平均不确定性的平均不确定性(或所含有的信息量)。(或所含有的信息量)。可用可用H(X1X2)/2作为作为信源信源X的信息熵的的信息熵的值。值。)|(l
28、og)|()|(112ijqjijiaaPaaPaXXH)|()()|(12112iqiiaXXHaPXXHqiijqjjiqiijqjijiaaPaaPaaPaaPaP1111)|(log)()|(log)|()()(log)()(1121jiqiqjjiaaPaaPXXH)|()(log)(11ijqiiqjjiaaPaPaaP)|()|()(log)(1211XXHaaPaPaPqiqjijii)|()(121XXHXHqiijqjjiqiiqjijiaaPaaPaPaaPaP1111)|(log)()(log)|()(1,41943611210)(31iipxpXa aj ja ai
29、i0 01 12 20 01/41/41/181/180 01 11/181/181/31/31/181/182 20 01/181/187/367/360121141()3694Xp x)()()/(ijiijaPaaPaaPa aj ja ai i0 01 12 20 09/119/111/81/80 01 12/112/113/43/42/92/92 20 01/81/87/97/9a aj ja ai i0 01 12 20 01/41/41/181/180 01 11/181/181/31/31/181/182 20 01/181/187/367/36)/(542.1)(log)()
30、(31SymbolBitaPaPXHiii)/(87.0)/(log)()/(313112SymbolBitaaPaaPXXHijijji)/(41.2)(log)()(313121SymbolsBitaaPaaPXXHjiijji 到底选取哪一个值更能接近实际二维平稳信到底选取哪一个值更能接近实际二维平稳信源的熵,通过后面对源的熵,通过后面对一般离散平稳信源一般离散平稳信源的分析来的分析来解决这个问题。解决这个问题。122211()()2(/)H X XHXH XX 3)3)离散平稳信源的极限熵离散平稳信源的极限熵 平均符号熵平均符号熵 离散平稳信源输出N长的信源符号序列中平均每个信源符号所
31、携带的信息量称为平均符号熵,记为 HN(X)=H(X1X2XN)N维条件熵 H(Xn/X1Xn-1)N1)./(log).(11,.,211,nnnNiiiiiiiiaaapaap极限熵极限熵 若离散平稳信源当N趋于无穷时,平均符号熵的极限存在,则称此极限为离散平稳信源的极限熵,记为 H)./(lim)(lim11NNNNNXXXHXHH 离散平稳信源信息熵的性质(离散平稳信源信息熵的性质(4点)点)当H(X)时,有下述性质成立:(1)条件熵H(Xn/X1Xn-1)随着N的增大是非递增的,即H(XN/X1X2XN-1)H(XN-1/X1X2XN-2)H(X2/X1)(2)N给定时,平均符号熵
32、条件熵,即 HN(X)H(XN/X1X2XN-1)证明:NHN(X)H(X1X2XN)H(X1)H(X2/X1)H(XN/X1X2XN-1)由性质(1)得:NHN(X)H(XN/X1X2XN-1)H(XN/X1X2XN-1)N H(XN/X1X2XN-1)所以 HN(X)H(XN/X1X2XN-1)(3)平均符号熵HN(X)也是随着N的增大而非递增的,即 HN(X)HN1(X)H2(X)H(X)证明:NHN(X)H(X1X2XN)H(X1X2XN-1)H(XN/X1X2XN-1)(N1)HN1(X)H(XN/X1X2XN-1)又由性质(2)得:NHN(X)(N1)HN1(X)HN(X)所以 H
33、N(X)HN1(X)(4)存在,并且有 =HH)./(lim)(lim11NNNNNXXXHXH 因为 HN(X)0即 0 HN(X)HN1(X)H1(X)=H(X|Y)H(Y)=H(Y|X)H(XY)=H(X)+H(Y)各种熵之间的关系 名称名称 符号符号 关关 系系 图图 示示 无无 条条 件件 熵熵 条条 件件 熵熵 条条 件件 熵熵 联联 合合 熵熵)(XH)/()()();()/()/()(XYHXYHXHYXIYXHYXHXHYXYXYXYXYXYX)(YH)/(YXH)/(XYH);()()()()/(YXIXHYHXYHYXH);()()()()/(YXIYHXHXYHXYH)
34、;()/()/();()()()/()()/()()(YXIXYHYXHYXIYHXHYXHYHXYHXHXYH)()(YXHXYH)/()()();()/()/()(YXHXYHYHYXIXYHXYHYH)61log6131log3121log21(解:信源解:信源X的熵为:的熵为:例例:有两个同时输出的信源:有两个同时输出的信源X和和Y,其中,其中X的信源符号为的信源符号为A,B,C,Y的信源符号为的信源符号为D,E,F,G,已知,已知 P(X)和和P(Y/X),求联合信源的联合熵和条件熵。,求联合信源的联合熵和条件熵。XABCP(x)1/21/31/6P(y/x)D1/43/101/6E
35、1/41/51/2F1/41/51/6G1/43/101/6()()log()XH XP XP X)/(461.1SymbolBit信源信源XY输出每一对消息的联合概率为:输出每一对消息的联合概率为:P(XY)=P(Y/X)P(X),结果如下表:结果如下表:P(xy)XABCYD1/81/101/36E1/81/151/12F1/81/151/36G1/81/101/36(/)()log(/)1113111111(4*log2*log2*loglog3*log)8410101551223661.956(/)XYH YXP XYP YXBit Symbol ()()log()1111111111
36、(4*log2*log2*loglog3*log)8810101515121236363.417(/)XYH XYP XYP XYbit Symbols 信源信源Y的条件熵:的条件熵:信道散布度信道散布度 (噪声熵噪声熵)360916161103314121)/()()/()()/()()/()()(CDPCPBDPBPADPAPxDPxPDPXn从上述结果可得:从上述结果可得:nH(XY)=H(X)+H(Y/X)=1.461+1.956=3.417(bit/每对符号每对符号)当两个信源统计独立时,当两个信源统计独立时,H(XY)=H(X)+H(Y),为最大。,为最大。n对第二个信源对第二个信
37、源Y,其熵,其熵H(Y)的计算。由全概率公式:的计算。由全概率公式:因此:因此:1203312115181)(EP3607936115181)(FP3609136110181)(GP)36091log3609136079log3607912033log1203336091log36091()()log()YH YP YP Y)/(997.1SymbolBitmax()()()1.461 1.9973.458(/ymbols)HXYH XH YBit Sn联合熵的最大值为:联合熵的最大值为:max()()3.4583.4170.041(/ymbols)HHXYH XYBit S由于信源相关,使联
38、合熵减小,其减小量为:由于信源相关,使联合熵减小,其减小量为:2.5 马尔可夫信源马尔可夫信源 在很多信源的输出序列中,符号之间的依赖关系是有限的,任何时刻信源符号发生的概率只与前边已经发出的若干个符号有关,而与更前面的符号无关。为了描述这类信源除了信源符号集外还要引入状态集。这时,信源输出消息符号还与信源所处的状态有关。若一个信源满足下面两个条件,则称为马尔可夫信源:(1)某一时刻信源输出的符号的概率只与当前所处的状)某一时刻信源输出的符号的概率只与当前所处的状态有关,而与以前的状态无关;态有关,而与以前的状态无关;(2)信源的下一个状态由当前状态和下一刻的输出唯一)信源的下一个状态由当前状
39、态和下一刻的输出唯一确定。确定。设某二阶马尔可夫信源所处的状态E=E0,E1,E2,E3=00,01,10,11,在每一状态下可能输出的符号0,1。0 0 1 0 1 1 0 0 1 1 0 1 0E0=00 1E1=01 0E2=10 1E1=01 1E3=11 0E2=10P(1/E0)=P(E1/E0)=P01(1)某一时刻信源输出的符号的概率只与当前所处的状态有关,而与以前的状态无关。即111(|,)(|)lklilkljlkliP xa sE xa sEP xa sE当符号输出概率与时刻L无关,称为具有时齐性。即(|)(|),(|)1klklikikiaAP xasEP aEP aE
40、(2)信源的下一个状态由当前状态和下一刻的输出唯一确定。条件(2)表明,若信源处于某一状态 ,当它发出 一个符号后,所处的状态就变了,一定转移到另一状态。状态的转移依赖于发出的信源符号,因此任何时刻信源处在什么状态完全由前一时刻的状态和发出的符号决定。iE例:二阶马尔可夫信源,原始符号集为0,1,条件概率定为:P(0|00)=P(1|11)=0.8 P(1|00)=P(0|11)=0.2 P(0|01)=P(0|10)=P(1|01)=P(1|10)=0.5 由此可见,信源共有22=4种状态 E:E1=00,E2=01,E3=10,E4=11状态之间有转移概率,p(E2/E1)=p(E3/E4
41、)=0.2p(E2/E4)=p(E1/E3)=p(E2/E3)=p(E3/E2)=0.5P(E1/E1)=p(E4/E4)=0.8其状态转移图如下页。在状态转换图中,把信源的每一种状态用圆圈表示,用有向箭头表示信源发出某一符号后由一种状态到另一状态的转移。马尔可夫信源 01 100:0.51:0.20:0.2 000:0.8 111:0.81:0.50:0.51:0.5 由上例可知,m阶马尔可夫信源符号集共有q个符号,则信源共有 个不同状态。信源在某一时刻时,必然处于某一种状态,等到下一个字符输出时,转移到另外一个状态。mqm阶马尔可夫信源熵非常重要。四个步骤:1.画出状态转移图;2.求状态极
42、限概率(并可求出符号极限概率);3.求在每个状态下,信源的信息熵;4.求马尔可夫信源的熵 m阶马尔可夫信源熵稳定的状态分布状态极限概率通过状态转移图求出 1)()()()(12121JiiJJEQEQEQEQEEE满足)(iEQ1)()|()()(11JiiJjjijiEQEEpEQEQm阶马尔可夫信源熵在上例中:求4元1次方程组 11321314324234241234()0.8()0.5()5()0.2()0.5()()()14()0.5()0.2()1()()()0.5()0.8()7()()()()1Q EQ EQ EQ EQ EQ EQ EQ EQ EQ EQ EQ EQ EQ EQ
43、 EQ EQ EQ EQ EQ Em阶马尔可夫信源熵 得到了状态极限概率之后,可以求出符号极限概率 针对上例,有:JiikikEapEQap1)|()()(5.0)(8.0)(5.0)(5.0)(2.0)1(5.0)(2.0)(5.0)(5.0)(8.0)0(43214321EQEQEQEQpEQEQEQEQpm阶马尔可夫信源熵 在特定状态 时,发出 ,构成了一个新的信源 ,概率空间为 iEqaaa21ikEa|)|()|()|(|2121iqiiiqiiEapEapEapEaEaEam阶马尔可夫信源熵 因此可以求出在状态 下,马尔可夫信源的信息熵 对于上例:iE)|(log)|()|(1ik
44、qkikiEapEapEsXH7219.0)2.08.0()|(1)5.05.0()|(1)5.05.0()|(7219.0)2.08.0()|(4321HEsXHHEsXHHEsXHHEsXHm阶马尔可夫信源熵 求出了每个状态下信源的熵,也求出了各状态的极限概率,要求马尔可夫信源的熵,只需要对各状态下信源熵求统计平均即可)|()()|(1iJiiiEsXHEQEsXHEHm阶马尔可夫信源熵在上例中)/(80.07219.01451711717219.0145)|()()|()()|()()|()(44332211符号bitEsXHEQEsXHEQEsXHEQEsXHEQH例题求马尔可夫信源的
45、信源熵,已知二元一阶马尔可夫信源 共有 个状态,分别为 0)|(1)|(31)|(32)|(22211211aapaapaapaap221mq2211aEaE和例题状态转移图如下 E1E2a1:2/3a2:1/3a1:141)(43)(1)()()(31)(212112EQEQEQEQEQEQ例题各确定状态下的信源熵 马尔可夫信源熵0)|()/(9183.0)3132()|(21EsXHbitHEsXH符号)/(6887.09183.043)|()(11符号bitEsXHEQH马尔可夫信源马尔可夫信源 例:一个二元二阶马尔可夫信源,信源符号集A=0,1。信源开始时,它以概率p(0)=p(1)=
46、0.5发出随机变量X1。然后,下一单位时间输出的随机变量X2与X1有依赖关系,由条件概率p(x2|x1)表示:再下一单元时间输出随机变量X3,而X3依赖于前面变量。依赖关系由条件概率p(x3|x1x2)表示:x1x1x20100.30.410.70.6由从第四单位时间开始,任意时刻信源发出的随机变量Xi只与前面二个单位时间的随机变量有关,根据可得信源的状态转移图:x1x2x1x2x1x2x1x2X30001101100.40.20.30.410.60.80.70.621312(|)(|)(3)iiiP xxxP xx xi000110110E1E2E3E4E5E6E0E3E4E5E6E0.50
47、.50.40.80.30.60.20.70.60.4解得:3354355466463456()0.4()0.3()()0.6()0.7()()0.2()0.4()()0.8()0.6()()()()()1Q EQ EQ EQ EQ EQ EQ EQ EQ EQ EQ EQ EQ EQ EQ EQ E45()()2/9QEQE3()1/9Q E6()4/9Q E解得:0.8956(bit/符号)当马尔可夫信源达到稳定后,符号0和1的分布概率可根据下式计算 因此得:3456()(0.4,0.6)()(0.2,0.8)()(0.3,0.7)()(0.4,0.6)HQ E HQ E HQ E HQ E
48、 H1()()(/)JkikiiP aQ E P aE34563256(0)0.4()0.2()0.3()0.4()1/3(1)0.6()0.8()0.7()0.6()2/3PQ EQ EQ EQ EPQ EQ EQ EQ Em阶马尔可夫信源熵计算小结:首先要根据条件概率分布画出状态转移图接着求出信源的状态极限概率,用 元1次方程组然后求在各固定状态下信源的熵,共有 个熵需要求。最后求各特定状态下信源熵的数学期望即均值,得到马尔可夫信源的熵。mqmq离散信源总结n对离散信源,信源符号等概率分布时熵最大,其平对离散信源,信源符号等概率分布时熵最大,其平均自信息量记为均自信息量记为:H:H0 0l
49、og log q qn由于信源符号间的依赖关系使信源的熵减小,使下由于信源符号间的依赖关系使信源的熵减小,使下式成立:式成立:n信源符号之间依赖关系越强,每个符导提供的平均信源符号之间依赖关系越强,每个符导提供的平均信息量越小。信息量越小。为此,引入为此,引入信源的冗余度信源的冗余度来衡量信源的相关程度来衡量信源的相关程度(有有时也称为多余度时也称为多余度)。2.6 信源冗余度与自然语言的熵 HHHHHqm.log1210n 定义:n熵的相对率熵的相对率一个信源实际的信息熵与具有同一个信源实际的信息熵与具有同样符号集的最大熵的比值称为相对率。样符号集的最大熵的比值称为相对率。0HH011HH式
50、中:式中:H H0 0为熵的最大值,为熵的最大值,H H 为熵的实际值为熵的实际值n信源冗余度信源冗余度等于等于1 1减去熵的相对率。减去熵的相对率。l 关于冗余度 冗余度冗余度 越大越大,实际熵实际熵H H 越小。说明信源符号之越小。说明信源符号之间的依赖关系越强,即符号之间的记忆长度间的依赖关系越强,即符号之间的记忆长度越长越长。冗余度冗余度 越小越小,表明信源符号之间依赖关系越弱,即,表明信源符号之间依赖关系越弱,即符号之间的记忆长度符号之间的记忆长度越短越短。当当冗余度等于零冗余度等于零时,信源的信息熵就等于最大值时,信源的信息熵就等于最大值H H0 0 ,这表明信源符号之间这表明信源