1、第二章第二章 信息的度量信息的度量n2.12.1信息量信息量n2.22.2信息熵信息熵n2.32.3离散集的平均互信息量离散集的平均互信息量Log(xy)=logx+logyLog(x/y)=logx-logy中学数学知识2.1.1 2.1.1 自信息和条件自信息量自信息和条件自信息量1 1、自信息量、自信息量2.1 2.1 信息量信息量 设甲袋中有设甲袋中有100100个球,其中个球,其中5050个是红球,个是红球,5050个是白球,现有人从袋子中随机抽出一个球是红个是白球,现有人从袋子中随机抽出一个球是红色的,对于这次抽取的事件所携带的信息量是多色的,对于这次抽取的事件所携带的信息量是多少
2、?又如乙袋中也有少?又如乙袋中也有100100个球,其中有个球,其中有2525个红球,个红球,2525个白球,个白球,2525个蓝球,个蓝球,2525个黑球。现又有人随机个黑球。现又有人随机抽取一个球,发现时红球,针对这次抽取的事件抽取一个球,发现时红球,针对这次抽取的事件当中有具有多少信息呢?当中有具有多少信息呢?定义定义2.1 2.1 任意随机事件的自信息量定义为该事件发生任意随机事件的自信息量定义为该事件发生概率的对数的负值。概率的对数的负值。通过上面两个实例可以得知,在甲袋抽出红色球的通过上面两个实例可以得知,在甲袋抽出红色球的不确定性要比乙袋抽红色球的不确定性小。不确定不确定性要比乙
3、袋抽红色球的不确定性小。不确定性越大,就越难猜到,对于狭义信息论而言,此事性越大,就越难猜到,对于狭义信息论而言,此事件的信息量就越大。件的信息量就越大。ia)(iap设事件设事件的概率为的概率为 那么,它的自信息量定义为那么,它的自信息量定义为1 1、自信息量的单位、自信息量的单位自信息量的单位取决于对数的底;自信息量的单位取决于对数的底;底为底为2 2,单位为,单位为“比特(比特(bit)”;底为底为e,单位为,单位为“奈特(奈特(nat)”;底为底为1010,单位为,单位为“哈特(哈特(hat)”;说明:说明:bithatbitenat322.310log1433.1log122hatb
4、itnatbit301.01693.01n2 2、三个自信息量单位之间的转换、三个自信息量单位之间的转换I(ai)是非负值;是非负值;当当P(ai)=1时,时,I(ai)=0;当当P(ai)=0时,时,I(ai)=;I(ai)是是P(ai)的单调递减函数的单调递减函数n3 3、自信息量的性质、自信息量的性质注:注:I自信息自信息解释解释:小概率事件,一当出现必然使人感到意外,因小概率事件,一当出现必然使人感到意外,因此产生的信息量就大;几乎不可能事件一旦出现,此产生的信息量就大;几乎不可能事件一旦出现,将是一条爆炸性的新闻,一鸣惊人。将是一条爆炸性的新闻,一鸣惊人。大概率事件,是预料之中的,即
5、使发生,也没大概率事件,是预料之中的,即使发生,也没什么信息量,特别是当必然事件发生了,它不会什么信息量,特别是当必然事件发生了,它不会给人以任何信息量。给人以任何信息量。【例【例2.12.1】某地二月份天气的概率分布统计如下:某地二月份天气的概率分布统计如下:81814121)(4321(雪)(雨)(阴)(晴)aaaaXPX 问发生晴天的自信息量是多少?问发生晴天的自信息量是多少?21)(1apbitapaI1)(log)(121解:发生晴天的概率为解:发生晴天的概率为,则晴天的自信息量为,则晴天的自信息量为)(.)()(.)(2121nnapapapaaaXPX)(iap【例【例2.22.
6、2】设在甲袋中放入】设在甲袋中放入n n个不同阻值的电阻,如果个不同阻值的电阻,如果随机地取出一个,并对取出的电阻值进行事先猜测,随机地取出一个,并对取出的电阻值进行事先猜测,其猜测的困难程度相当于概率空间的不确定性,概率其猜测的困难程度相当于概率空间的不确定性,概率空间为空间为式中式中表示取出电阻值为表示取出电阻值为i i的电阻的概率,那么被的电阻的概率,那么被告知告知“取出的阻值为取出的阻值为i i的电阻的电阻”所获得的信息量为多少?所获得的信息量为多少?解:解:由于甲袋里的各阻值的电阻为等概分布,则由于甲袋里的各阻值的电阻为等概分布,则napaInii2122loglog)(log)(【
7、例【例2.32.3】若盒中有若盒中有6 6个电阻,阻值为个电阻,阻值为11、22、33的分别为的分别为2 2个、个、1 1个、个、3 3个,将从盒子中取出阻值为个,将从盒子中取出阻值为ii的的),3,2,1(ixi,321xxxX 电阻记为事件电阻记为事件组成事件集组成事件集,其概率分布,其概率分布216131)(321xxxXPX计算出各种事件的自信息量。计算出各种事件的自信息量。)(ixI2log21log)(6log61log)(3log31log)(321xIxIxI计算如下:计算如下:解:自信息量解:自信息量n自信息量自信息量 I(xi)的含义的含义2 2、联合自信息量、联合自信息量
8、XY601)(jiyxp某住宅区的某栋商品房,有某住宅区的某栋商品房,有5 5个单元,每个单元住有个单元,每个单元住有1212户,甲要到该住宅区找他的宅区找他的朋友乙,因户,甲要到该住宅区找他的宅区找他的朋友乙,因为每一住户的地址需要单元号和住户号,因此,每一为每一住户的地址需要单元号和住户号,因此,每一住户的地址同时由单元号和住户号唯一确定,甲找到住户的地址同时由单元号和住户号唯一确定,甲找到乙这一事件是二维联合集乙这一事件是二维联合集上的等概分布上的等概分布,他找到乙得到的信息可以用联合自信息量表示。他找到乙得到的信息可以用联合自信息量表示。XYjiyx)(jiyxI)(jiyxp定义定义
9、2.2 2.2 在二维联合集在二维联合集上元素上元素的联合自信息量的联合自信息量定义为联合概率定义为联合概率的对数的负数,即的对数的负数,即 )(log)(jijiyxpyxI当当X和和Y相互独立时,联合信息量应等于它们各自信息相互独立时,联合信息量应等于它们各自信息量之和。量之和。二维联合集二维联合集XY,XY当当和和相互独立时,有相互独立时,有 )()()(jijiypxpyxp则联合自信息量为则联合自信息量为)()()log()(log)()(log)(log)(jijijijijiyIxIpxpypxpyxpyxI3 3、条件自信息量、条件自信息量乙住的楼房有乙住的楼房有5 5个单元,
10、每个单元住有个单元,每个单元住有1212户,甲要到户,甲要到该住宅区找他的朋友乙,若甲知道乙住在第该住宅区找他的朋友乙,若甲知道乙住在第5 5单元,单元,jyix即看做为已知即看做为已知 条件,他要找到乙,记为事件条件,他要找到乙,记为事件 那那么甲找到乙得到多少信息可以用条件自信息量度量。么甲找到乙得到多少信息可以用条件自信息量度量。定义定义2.3 2.3 联合集联合集XY中,在事件中,在事件yj出现的条件下,出现的条件下,随机事件事件随机事件事件xi 发生的条件下概率为发生的条件下概率为)|(jiyxp则它的条件自信息量定义为条件概率对数的负值:则它的条件自信息量定义为条件概率对数的负值:
11、,)|(log)|(jijiyxpyxI例例:设在一正方形棋盘上共有设在一正方形棋盘上共有6464个方格,行、列各个方格,行、列各8 8个。个。如甲将一粒棋子随意放在棋盘某个方格内让乙猜测棋如甲将一粒棋子随意放在棋盘某个方格内让乙猜测棋子所在的位置,则子所在的位置,则(1 1)在乙看来,棋子落入某方格的不确定性为多少?)在乙看来,棋子落入某方格的不确定性为多少?(2 2)若甲告知乙棋子落入方格的行号,这时,在乙看)若甲告知乙棋子落入方格的行号,这时,在乙看来棋子落入某方格的不确定性为多少?来棋子落入某方格的不确定性为多少?解:由于甲是将一粒棋子随意地放在棋盘中某一方格解:由于甲是将一粒棋子随意
12、地放在棋盘中某一方格内,因此棋子在棋盘中所处位置为二维等概率分布,内,因此棋子在棋盘中所处位置为二维等概率分布,二维概率分布函数为二维概率分布函数为641)(jiyxp(1 1)在二维联合集)在二维联合集XY上的元素为上的元素为jiyx的自信息为的自信息为:bityxpyxIjiji6641log)(log)((2 2)在二维联合集)在二维联合集XY上,元素上,元素 相对相对 的条件自信息为:的条件自信息为:ixjybitypyxpyxpyxIjjijiji381641log)()(log)|(log)|(容易证明,自信息量、条件自信息量和联合自容易证明,自信息量、条件自信息量和联合自信息量之
13、间的关系如下:信息量之间的关系如下:)|()()|()(log)(ijiijijixyIxIxypxpyxI)|()()|()(log)(jijjijjiyxIyIyxpypyxI或或2.1.22.1.2互信息量和条件互信息量互信息量和条件互信息量1 1、互信息量、互信息量 众所周知,在教学过程中,老师在上课前准备众所周知,在教学过程中,老师在上课前准备教授的知识为一个集合教授的知识为一个集合,21ixxxX,课后学生,课后学生掌握掌握老师所教的内容为一个集合老师所教的内容为一个集合,21jyyyY老师在课堂中采用不同的教学方法,会使学生掌握老师在课堂中采用不同的教学方法,会使学生掌握的内容不
14、同。这一过程可以从一次通信过程模型表的内容不同。这一过程可以从一次通信过程模型表示。如下图所示,示。如下图所示,定义定义2.4 2.4 对两个离散随机事件集对两个离散随机事件集X和和Y,事件,事件yj的出现的出现能提供出关于事件能提供出关于事件xi的信息量,定义为互信息量,即的信息量,定义为互信息量,即);(jiyxI)()(logijixpyxp互信息有多重表达式互信息有多重表达式)()()()(log);(ijjjijjixyIyIypxypyxI)()()()()()(log);(jijijijijiyxIyIxIypxpyxpyxI【例【例2.52.5】某地二月份天气的概率分布统计如下
15、:】某地二月份天气的概率分布统计如下:81814121)(4321(雪)(雨)(阴)(晴)aaaaXPX某一天有人告诉你:某一天有人告诉你:“今天不是晴天。今天不是晴天。”把这句话作把这句话作为收到的消息为收到的消息1b。当收到。当收到1b后,各种天气发生的概后,各种天气发生的概率变成后验概率了。其中率变成后验概率了。其中0)|(11bap21)|(12bap41)|(13bap41)|(14bap 试计算试计算1b与各种天气之间的互信息量。与各种天气之间的互信息量。解:解:)(0410log)()|(log);(11111bitapbapbaI)(14121log)()|(log);(212
16、12bitapbapbaI)(18141log)()|(log);(31313bitapbapbaI)(18141log)()|(log);(41414bitapbapbaI 互信息量与条件自信息区别互信息量与条件自信息区别:);(jiyxI)()(logijixpyxp=)|()()|(log)(log1jiijiyxIxIbxpxp将事件互信息的概念推广至多维空间。在三维将事件互信息的概念推广至多维空间。在三维XYZ)()|(log);(ikjikjixpzyxpzyxI)()/()/()|(logijijikjixpyxpyxpzyxp)|()|(log)()/(logjikjiijiy
17、xpzyxpxpyxp)|;();(jkijiyzxIyxI2 2、互信息量的性质、互信息量的性质(1 1)互信息量的互易性,即)互信息量的互易性,即I(xi;yj)=I(yj;xi)(2 2)当)当X和和Y相互独立时,互信息为相互独立时,互信息为0 0(3 3)互信息量可为正值或负值)互信息量可为正值或负值(4 4)任何两个事件之间的互信息量不可能大于)任何两个事件之间的互信息量不可能大于之中任一事件的自信息量之中任一事件的自信息量)()();(jijiyIxIyxI自信息、条件自信息和互信息自信息、条件自信息和互信息)()()();(jkjkjkyxIyIxIyxII(xk)I(yj)I(
18、xk;yj)3 3、条件互信息量、条件互信息量定义定义2.5 2.5 三维三维XYZ联合集中,在给定条件联合集中,在给定条件zk的的情况下,情况下,xi与与yj之间的互信息量的定义为之间的互信息量的定义为另外,联合集合另外,联合集合XYZ中还存在中还存在xi与与yjzk之间之间的互信息量,其定义式的互信息量,其定义式)|()|(log)()|(log)|()|()()|(log)()|(log);(jikjiijijijiikjiikjikjiyxpzyxpxpyxpyxpyxpxpzyxpxpzyxpzyxI)/;();();(kjikikjizyxIzxIzyxI)/;();();(jki
19、jikjiyzxIyxIzyxI或将上式进一步表示为或将上式进一步表示为思考下式的证明思考下式的证明上式表明一对事件上式表明一对事件yjzk出现后提供有关出现后提供有关x xi i的信息的信息量量I I(xi;yjzk),),等于事件等于事件yj出现后所提供的有关出现后所提供的有关xi的信息量的信息量I(xi;yj)加上在给定时间加上在给定时间yj的条件下再出的条件下再出现事件现事件zk所提供的有关所提供的有关xi的信息量。的信息量。学校统计某个年级某个班级的数学期末成绩,那这个学校统计某个年级某个班级的数学期末成绩,那这个班级可以作为整体信源,而班级里的每个学生的数学班级可以作为整体信源,而
20、班级里的每个学生的数学成绩就是一个随机事件,学生个人的成绩好坏只代表成绩就是一个随机事件,学生个人的成绩好坏只代表自己,不能说明他的班级数学成绩。自己,不能说明他的班级数学成绩。2.2 2.2 信息熵信息熵2.2.12.2.1离散集的平均自信息量(熵)离散集的平均自信息量(熵)信息函数信息函数)(ixI只能表示信源发某一特定的具体符号只能表示信源发某一特定的具体符号ix所提供的信息量,不同的符号,有不同的自信息量,所提供的信息量,不同的符号,有不同的自信息量,所以它不足以作为整个信源的总体信息测度。所以它不足以作为整个信源的总体信息测度。定义定义2.6 2.6 在在X集上,随机变量集上,随机变
21、量的数学期望定义的数学期望定义为平均自信息量为平均自信息量)(ixI)(log)()(log)()(1iqiiiixpxpxpExIEXHXXXXXX集集的平均自信息又称为集的平均自信息又称为集的信息熵,简称为熵。的信息熵,简称为熵。的平均自信息量表示集的平均自信息量表示集即为了在观测之前,确定集即为了在观测之前,确定集件平均所需的信息量;或者说,在观测之后,集件平均所需的信息量;或者说,在观测之后,集中每出现一个事件平均给出的信息量。中每出现一个事件平均给出的信息量。集集中事件出现的平均不中事件出现的平均不确定性,确定性,中出现一个事中出现一个事平均自信息量的单位:平均自信息量的单位:对数底
22、是对数底是2 2,信息量的单位为比特(,信息量的单位为比特(bit););若取自然对数底,则信息量的单位为奈特(若取自然对数底,则信息量的单位为奈特(nat););若以若以1010为对数底,则信息量的单位为哈特(为对数底,则信息量的单位为哈特(hat)。)。【例【例2.62.6】一个布袋内放】一个布袋内放100100个球,其中个球,其中8080个球是红个球是红色的,色的,2020个球是白色的,若随机摸取一个球,猜测个球是白色的,若随机摸取一个球,猜测其颜色,求平均摸取一次所能获得的自信息量。其颜色,求平均摸取一次所能获得的自信息量。分析:这一随机事件的概率空间为分析:这一随机事件的概率空间为2
23、.08.0)(21xxXPX式中,式中,1x表示摸出的球为红球事件,表示摸出的球为红球事件,2x表示摸出的球是白球事件。表示摸出的球是白球事件。这是一个随机事件试验。试验结果是,当被告知摸这是一个随机事件试验。试验结果是,当被告知摸出的是红球,则获得的信息量是出的是红球,则获得的信息量是8.0log)(log)(11xpxI当被告知摸出的是白球,则获得的信息量是当被告知摸出的是白球,则获得的信息量是2.0log)(log)(11xpxI如果每次摸出一个球后又放回袋中,再进行下一次摸如果每次摸出一个球后又放回袋中,再进行下一次摸取,那么如此摸取取,那么如此摸取 次,次,n红球出现的次数为红球出现
24、的次数为 次,次,白球出现的次数为白球出现的次数为 次。次。)(1xnp)(2xnp随机摸取随机摸取n次次后总共所获得的信息量为后总共所获得的信息量为)()()()(2211xIxnpxIxnp而平均随机摸取一次所获得的信息量则为而平均随机摸取一次所获得的信息量则为)(log)()()()()()()()()(1)(2122112211iiixpxpxIxpxIxpxIxnpxIxnpnXH 熵是从整个集合的统计特性来考虑的,它是从平均意熵是从整个集合的统计特性来考虑的,它是从平均意义上来表征集合的总体特征的。义上来表征集合的总体特征的。熵表示事件集合中事件发生后,每个事件提供的熵表示事件集合
25、中事件发生后,每个事件提供的平均信息量;平均信息量;熵表示事件发生前,集合的平均不确定性;熵表示事件发生前,集合的平均不确定性;【例【例2.72.7】(1 1)信源一:)信源一:01.099.0)(1011xxXpX H(X1)=-0.99 log 0.99 0.01 log 0.01=0.08(比特(比特/符号)符号)(2 2)信源二:)信源二:5.05.0)(1022xxXpX H(X2)=-0.5 log 0.5-0.5 log 0.5=1(比特(比特/符号)符号)(3 3)信源三)信源三:25.025.025.025.0)(321033xxxxXpX H(X3)=-40.25 log
26、0.25=log4=2(比特(比特/符号)符号)(4 4)信源四:)信源四:10)(1044xxXpXH(X4)=-0 log 0 1 log 1=0计算结果说明确定事件的熵为零计算结果说明确定事件的熵为零以上四个信源熵的大小关系正好是:以上四个信源熵的大小关系正好是:)()()()(4123XHXHXHXH总括起来,信源熵有三种物理意义:总括起来,信源熵有三种物理意义:信息熵的性质:信息熵的性质:1 1、非负性、非负性:),.,(),.,(lim212110qqqqpppHpppH信息熵的非负性即为信息熵的非负性即为0)(XH2 2、对称性、对称性:当信源含有当信源含有n个离散消息时,信源熵
27、个离散消息时,信源熵 )(log)()(1niiixpxpXH,其中,其中).,2,1(1)(0nixpi,1)(1niixp熵的对称性是指熵的对称性是指)(),.,(),(2nixpxpxp的顺序任意互换时,只是求和顺序不同,熵的值不变。的顺序任意互换时,只是求和顺序不同,熵的值不变。例如,有三个不同信源的信源空间分别为:例如,有三个不同信源的信源空间分别为:216131321xxxPX312161321yyyPY612131321zzzPZ由于这三个信源的概率空间的总体结构相同,他们由于这三个信源的概率空间的总体结构相同,他们的信息熵相等,即有的信息熵相等,即有),216131(H),61
28、2131(H4592.1312161(),H=比特比特/信源符号信源符号3 3、确定性、确定性 若信源若信源X的概率空间中只要有一个的概率空间中只要有一个 )(ixp等于等于1 1时,时,其它所有概率分量均等于零,则信源其它所有概率分量均等于零,则信源X的信息熵一的信息熵一定等于定等于0 0。即即0)0,.,0,1,0,0()0,0,1,0()0,0,1()0,1(HHHH 4 4、扩展性:、扩展性:若信源若信源X中有中有n个事件,而另一个信源个事件,而另一个信源X中有中有1n个事件,信源个事件,信源 和和XX的差别知识多了一个概率接近的差别知识多了一个概率接近于零的事件,其他的概率分布相同,
29、则这两个信源于零的事件,其他的概率分布相同,则这两个信源的熵值相同。即的熵值相同。即),.,(),.,(lim212110nnnnpppHpppH,它对其他概率分布,它对其他概率分布6 6、极值性:极值性:5 5、可加性:设有两个信源可加性:设有两个信源X和和Y,它们不是相互独立它们不是相互独立的,则二维随机变量的,则二维随机变量(X,Y)的熵等于的熵等于X的无条件熵加的无条件熵加上当上当X已给定时已给定时Y的条件概率定义的熵统计平均值,的条件概率定义的熵统计平均值,即即)|()()(XYHXHXYH对任意两个消息数相同的信源对任意两个消息数相同的信源X、Y,有,有)(log)()(),.,(
30、),(121iniinypxpxpxpxpH其中其中1)()(11niiniiypxp。任一概率分布。任一概率分布)(ixp)(iyp的自信息的自信息)(1logiyp取数学期望时,必大于取数学期望时,必大于)(ixp本身的熵。本身的熵。7 7、最大熵定理:最大熵定理:8 8、上凸性:、上凸性:在离散的情况下,集合在离散的情况下,集合X中的各事件等概率发生时,中的各事件等概率发生时,熵达到最大值,即熵达到最大值,即nnnnHPPPHnlog)1,.,1,1(),.,(21 ),.,(21npppH是概率分布是概率分布),.,(21nppp的严格上凸函数,即的严格上凸函数,即)()1()()1(
31、PHPHPPH条件熵条件熵2.2.22.2.2从通信角度来看,若将从通信角度来看,若将,21ixxxX 视为信源视为信源,21jyyyY 视为信宿接收符号,视为信宿接收符号,)(jiyxI可看作信宿收到可看作信宿收到jy后,关于发送的符号是否为后,关于发送的符号是否为ix仍然存在的疑义度(不确定性),那信宿收到仍然存在的疑义度(不确定性),那信宿收到Y后后,信源,信源X仍然存在不确定度,就用条件熵度量。仍然存在不确定度,就用条件熵度量。输出符号,输出符号,定义定义2.7 2.7 联合集联合集XY上,条件自信息量上,条件自信息量I(y|x)的概率加的概率加权平均值定义为条件熵。即权平均值定义为条
32、件熵。即ijjiijjijijiyxpyxpyxIyxpYXH)|(log)()|()()|(说明:说明:1 1、当、当X,Y 统计独立时,有统计独立时,有)()()(jijiypxpyxp)()|(ijixpyxp则则 XHxpxpxpxpypYXHiiiijiij)(log)()(log)()(|2 2、当、当0|YXH,信源事件信源事件,21ixxxX 和信宿和信宿,21jyyyY 是一一对应的关系,是一一对应的关系,中的某个元素中的某个元素jy后,关于发送的符后,关于发送的符中的某个元素中的某个元素ix不再存在疑义度(不不再存在疑义度(不信宿收到信宿收到Y号是否为号是否为X确定性)。确
33、定性)。3 3、当、当,信源事件信源事件,21ixxxX 和信宿和信宿,21jyyyY 是一一对应的关系,是一一对应的关系,中的某个元素中的某个元素jy后,关于发送的符后,关于发送的符中的某个元素中的某个元素ix不再存在疑义度(不不再存在疑义度(不信宿收到信宿收到X号是否为号是否为Y确定性)。确定性)。0)|(XYH4 4、下面的推导可以说明条件熵时要用联合概率加权下面的推导可以说明条件熵时要用联合概率加权的理由。的理由。条件概率条件概率)(),()|(jjijiypyxpyxp 并且并且1)|(1 nijiyxp当已知特定事件当已知特定事件 yj 出现时,下一个出现的是出现时,下一个出现的是
34、 xi 的的不确定性为:不确定性为:)|(logjiyxp对集合对集合 X 中所有元素统计平均,其熵为:中所有元素统计平均,其熵为:nijijijyxpyxpyXH1)|(log)|()|(上述熵值再对集合上述熵值再对集合Y中的元素做统计平均,得条件熵:中的元素做统计平均,得条件熵:mjnijijimjjinijijjinijimjjmjjjyxpyxpyxpyxpypyxpyxpypyXHypYXH1111111)|(log),()|(log)|()()|(log)|()()|()()|(同理可得:同理可得:nimjijjixypyxpXYH11)|(log),()|(5 5、条件熵是一个确
35、定值,表示信宿在收到、条件熵是一个确定值,表示信宿在收到Y后,信源后,信源X仍仍然存在的不确定度。这是传输失真所造成的。有时称然存在的不确定度。这是传输失真所造成的。有时称H(X/Y)为信道疑义度,也称损失熵。称条件熵为信道疑义度,也称损失熵。称条件熵H(Y/X)为为噪声熵。噪声熵。定义定义2.8 2.8 在二维空间在二维空间XY上,对元素上,对元素xiyj的自信息量进的自信息量进行统计平均所得的值称为联合熵。行统计平均所得的值称为联合熵。2.2.3 2.2.3 联合熵联合熵)(log)()()()(21111jinimjjijinimjjiyxpyxpyxIyxpXYH联合熵也叫共熵。联合熵
36、也叫共熵。2.2.4 2.2.4 加权熵加权熵1 1、加权熵的定义、加权熵的定义香浓定义信息量和熵并没有考虑人的主观因素,只是香浓定义信息量和熵并没有考虑人的主观因素,只是信息系统概率的函数,是信息系统概率的函数,是“客观信息客观信息”。在实际中,各。在实际中,各种事件虽然已一定的概率发生,但各种事件的发生对不种事件虽然已一定的概率发生,但各种事件的发生对不同的人有不同的意义。其重要性也因人而异。在许多场同的人有不同的意义。其重要性也因人而异。在许多场合,通常很难忽略与个人目的有关的主观因素。例如,合,通常很难忽略与个人目的有关的主观因素。例如,在两个人博弈的场合,双方不仅要考虑各种不同博弈方
37、在两个人博弈的场合,双方不仅要考虑各种不同博弈方案出现的概率,更要注意这些方案给自己带来的厉害得案出现的概率,更要注意这些方案给自己带来的厉害得失。在信息论发展到基本成熟的今天,出于实际的需要失。在信息论发展到基本成熟的今天,出于实际的需要,与信源符号的概率因素统筹考虑,构建一个兼顾主观,与信源符号的概率因素统筹考虑,构建一个兼顾主观和客观两大因素的综合度量函数,和客观两大因素的综合度量函数,“加权熵加权熵”就是在这就是在这种背景下的一种探索。种背景下的一种探索。设信源设信源X的信源空间为的信源空间为nnnWWWxpxpxpxxxWPX.)(.)()(.212121式中式中10ip)2,1(n
38、i11niip0)2,1(riiW对于每一个信源符号对于每一个信源符号ix)2,1(ni根据根据ix对收信者的重要性程度,对收信者的重要性程度,有收信者确定一个非负有收信者确定一个非负0)2,1(riiW作为符号作为符号ix)2,1(ni的权重系数。的权重系数。数数定义定义2.9 2.9 离散无记忆信源离散无记忆信源WPX的加权熵定义为的加权熵定义为)1log()(1iniiiWppWXH2 2、加权熵的基本性质、加权熵的基本性质(1 1)非负性:)非负性:因为因为10ipiW)2,1(ni 0 所以所以0logwiiipp则有则有0)1log()(1iniiiWppWXH(2 2)对称性:)
39、对称性:有加法交换律率有加法交换律率WPX=543215432154321wwwwwpppppaaaaa=WPY=153241532454321bwwwwwpppppbbbb则有则有而而即有即有(3 3)均匀性)均匀性),.,;,.,(2121nnWpppwwwH=rrwrrwrrwr1log1.1log11log121rrwrrwrrwrlog.loglog21rrwwwrlog.21=(4 4)等重性:)等重性:若信源中每个符号的权重系数相等,若信源中每个符号的权重系数相等,nWWW.21)()(XWHXHW即即则则(5 5)确定性)确定性WHnrpppwww.,;,.,2121=0log
40、0log00log00log00log0121rjjwwwww=0加权熵的确定性表明,不论信源符号对收信者有多加权熵的确定性表明,不论信源符号对收信者有多么重要,只要是确定信源,不含任何不确定性,他就么重要,只要是确定信源,不含任何不确定性,他就不可能给收信者提供任何信息量。不可能给收信者提供任何信息量。(6 6)非容性)非容性WHnnnnppppwwww,.,;,.,1,21121=jJjjiiiIiippwppwloglogjJjjIiippwlog00log0jJjIiplog00log0=0 这一性质说明可能的事件是无意义或者是无效用这一性质说明可能的事件是无意义或者是无效用的,而有意
41、义或者有效用的时间是不可能的,这时的的,而有意义或者有效用的时间是不可能的,这时的香浓熵为香浓熵为0 0,但其提供的加权熵等于,但其提供的加权熵等于0 0。2.2.5 2.2.5 各种熵之间的关系各种熵之间的关系1 1、由熵、条件熵、联合熵的定义式可导出三者的关、由熵、条件熵、联合熵的定义式可导出三者的关系式系式 YXHYHXYHXHXYH|)(|XY当当,统计独立时,有统计独立时,有 )(YHXHXYH还可以推出还可以推出)|()()|()(XYHYHYXHXH2 2、共熵与信息熵的关系、共熵与信息熵的关系)()()(YHXHXYH3 3、条件熵与信息熵之间的关系、条件熵与信息熵之间的关系)
42、()|(YHXYH)()|(XHYXH或或2.3 2.3 离散集的平均互信息量离散集的平均互信息量 在前面的章节中,主要讨论的是单符号信源的情在前面的章节中,主要讨论的是单符号信源的情况,这是最简单的离散信源。实际信源输出的消息往况,这是最简单的离散信源。实际信源输出的消息往往是时间或空间上的一系列符号,如电报系统发出的往是时间或空间上的一系列符号,如电报系统发出的是一串有无脉冲的信号,可分别用是一串有无脉冲的信号,可分别用“0”0”和和“1”1”两个两个数字来表示。数字来表示。通常,在信源输出的序列中,每一位到底出现通常,在信源输出的序列中,每一位到底出现“0”0”还是还是“1”1”是随机的
43、,而且一般情况下,前后符是随机的,而且一般情况下,前后符号之间都有统计依赖关系。号之间都有统计依赖关系。以下将研究多个符号情况下的平均符号熵的问题。以下将研究多个符号情况下的平均符号熵的问题。2.3.1 2.3.1 平均互信息量平均互信息量 前面我们给出了互信息的定义,并已清楚互信息量前面我们给出了互信息的定义,并已清楚互信息量);(jiyxI是定量地研究信息流通问题的重要基础。是定量地研究信息流通问题的重要基础。是随是随);(jiyxIixjy和和的变化而变化的随机量,可见,的变化而变化的随机量,可见,互信息量还不能从整体上作为信道中信息流通的测度。互信息量还不能从整体上作为信道中信息流通的
44、测度。这种测度应该是从整体的角度出发,在平均意义上这种测度应该是从整体的角度出发,在平均意义上度量每通过一个符号流经信道的平均信息量。同时,度量每通过一个符号流经信道的平均信息量。同时,作为一个测度,他不能是随机量,而是一个确定的量。作为一个测度,他不能是随机量,而是一个确定的量。为了客观的测量信道中的流通的信息,我们定义互信为了客观的测量信道中的流通的信息,我们定义互信息量息量 在联合概率空间在联合概率空间);(jiyxI)(XYP中的统计平均值。中的统计平均值。1 1、平均互信息量定义、平均互信息量定义定义定义2.102.10iijijijijjijixpyxpyxpyxIyxpYXI)(
45、)|(log)();()(;称称);(YXI是是 对对 的平均互信息量,简称平均互信,也的平均互信息量,简称平均互信,也YX称交互熵。称交互熵。统计独立时统计独立时XY0);(jiyxI,从而,从而0;YXI说明:说明:(1)在通信系统中,若发端的符号是在通信系统中,若发端的符号是X,而收端的符,而收端的符Y);(YXI就是在接收端收到就是在接收端收到后所能获得的后所能获得的关于关于 的信息。的信息。YX号是号是 ,(2 2)若干扰很大)若干扰很大,Y基本上与基本上与X无关,或说无关,或说X与与Y相互独立,相互独立,那时就收不到任何关于那时就收不到任何关于X的信息。的信息。(3 3)若没有干扰
46、,)若没有干扰,Y是是X的确知一一对应函数,那就的确知一一对应函数,那就能完全收到能完全收到X的信息的信息H(X)。2 2、平均互信息量的物理意义、平均互信息量的物理意义 从一个事件获得另一个事件的平均互信息需从一个事件获得另一个事件的平均互信息需要消除不确定度,一旦消除了不确定度,就获得要消除不确定度,一旦消除了不确定度,就获得了信息。下面从三种不同角度具体阐述平均互信了信息。下面从三种不同角度具体阐述平均互信息量的含义。息量的含义。(1 1)nimjjijinimjijinimjijijiyxpyxpxpyxpxpyxpyxpYXI111111)|(1log)()(1log)()()|(l
47、og)();()|()(YXHXH说明:说明:信道上的干扰和噪声所造成的情况为信道上的干扰和噪声所造成的情况为收收到随机变量到随机变量Y后,对随机变量后,对随机变量X仍然存在的仍然存在的平均不确平均不确定度定度H(X|Y)。这是这是Y关于关于X的后验不确定度,通常称的后验不确定度,通常称它为信道疑义度,或简称它为信道疑义度,或简称疑义度疑义度。由于又代表了在。由于又代表了在信道中的损失的信息,也称它为信道中的损失的信息,也称它为损失熵损失熵。nimjijjinimjjjinimjjijjixypyxpypyxpypxypyxpXYI111111)|(1log)()(1log)()()|(log
48、)();()|()(XYHYH(2)(2)上式表示收到随机变量上式表示收到随机变量X后,对随机变量后,对随机变量Y仍仍然存在的不确定度,等于然存在的不确定度,等于Y的先验不确定度的先验不确定度H(Y)与与发出发出X后关于后关于Y的后验不定度的后验不定度H(Y|X)之差,即发之差,即发X前前后关于后关于Y的不确定度减少的量。这是由于信道存在的不确定度减少的量。这是由于信道存在噪声,发出噪声,发出X后不能完全确定对应的后不能完全确定对应的Y,因此,条,因此,条件熵件熵H(Y|X)常被称为常被称为噪声熵噪声熵。(3)(3)()()()()()(log)();(11XYHYHXHypxpyxpyxpY
49、XIjijijnimji 其中联合熵其中联合熵H(XY)表示输入随机变量表示输入随机变量X,经信道传,经信道传输到达信宿,输出随机变量输到达信宿,输出随机变量Y,即收、发双通信后,整,即收、发双通信后,整个系统仍然存在的不确定度。如果在通信前,我们把个系统仍然存在的不确定度。如果在通信前,我们把X和和Y看成是两个相互独立的随机变量,那么通信前整个看成是两个相互独立的随机变量,那么通信前整个系统的先验不确定度即系统的先验不确定度即X和和Y的联合熵等于的联合熵等于H(X)+H(Y);通信后,我们把信道两端出现;通信后,我们把信道两端出现X和和Y看成是由信道的看成是由信道的传递统计特性联系起来的、具
50、有一定统计关联关系的传递统计特性联系起来的、具有一定统计关联关系的两个随机变量,这时整个系统的后验不确定度由两个随机变量,这时整个系统的后验不确定度由H(XY)描述。描述。3 3、平均互信息的性质、平均互信息的性质(1)(1)对称性:对称性:(;)(;)I X YI Y X(2)(2)非负性非负性:(;)0I X Y(3)(3)极值性:极值性:)();(XHYXI)();(YHXYI(4)(4)凸函数性凸函数性:)()()(log)();(jijiijjiypxpyxpyxpYXIiiijijijiijxpxypxypxpxyp)()()(log)()(定理定理2.1 2.1 当信道给定,即信