1、信息论与编码技术主讲教师:第一章 绪 论 信息论信息论(Information Theory)是通信中的数学理论,是研究信是通信中的数学理论,是研究信息的传输、存储和处理的科学息的传输、存储和处理的科学回答两个回答两个基本问题基本问题数据压缩信息传输速率+无失真压缩无失真压缩受到受到熵熵的约的约束束限失真压缩限失真压缩受到受到信息率信息率失真函数失真函数的的约束约束信道容量信道容量主要讨论存在性存在性问题有人认为有人认为是通信理论的子集是通信理论的子集实际上实际上对统计物理、计算机科学对统计物理、计算机科学(如算法复杂如算法复杂度度)、概率与统计等学科都有贡献、概率与统计等学科都有贡献对学科发
2、展的贡献对学科发展的贡献信息论的起源1948年年香农香农-论文论文“通信中的数学问题”(A Mathematical Theory of Communication)特点特点:概率统计方法对通信系统进行了研究,成果成果:揭示了通信系统传递的对象是信息,对信息进行了科学的定量描述,提出了熵的概念。更早的研究内容更早的研究内容1924年NyquistHartley对对信息信息进行进行了定义了定义解释了信号带宽信号带宽与信息传输速率信息传输速率之间的关系1928年Hartley通信系统传输能力问题1936年Amstrong提出了增加带宽可以提高系统抗干扰能力研究进程 Cover对多用户信息理论的研究
3、做出了很大贡献。1.1信息论的形成与发展信息论的形成与发展上个世纪五上个世纪五十年代十年代在在学术界学术界引起极大反响引起极大反响六十年代六十年代扩展了研究领域点对点点对点多用户多用户信息论信息论信 道 编 码 研 究采用长码、交织技术、迭代解码技术进行编解码,从而提高了编码效率和纠错能力。1.1信息论的形成与发展信息论的形成与发展60年代信道编码(分组码)成为成为重要信息论重要信息论分支分支70年代卷积码卷积码概率译码概率译码90年代之后TurboTurbo码码LDPCLDPC1.1信息论的形成与发展信息论的形成与发展信 源 编 码 研 究1948年香农:无失真编码定理(第一定理)设计香农码
4、设计香农码1952年费罗费罗费罗码费罗码1959年香农:限失真编码定理(第三)即信息率失真理论即信息率失真理论HuffmanHuffman哈夫曼码哈夫曼码 但是一般认为远远没有达到理论极限。但是一般认为远远没有达到理论极限。1.1信息论的形成与发展信息论的形成与发展信源统计特性编码技术(尤其图像编码)快速发展快速发展图像编码图像编码小波小波比特平面编码比特平面编码算术编码算术编码信息率失真信息率失真变换变换数据分类或者数据分类或者形成集合等形成集合等熵编码熵编码码流优化码流优化作用信息论主要立足点基础:基础:研究有效性有效性信息可以度量信息可以度量可靠性可靠性信源信源编码编码信道信道编码编码提
5、高传输数据中每个码元携带的信息量,从而提高数据传输效率。使系统能够检测、纠正传输过程中的数据错误。通过通过目的目的信息论研究范围1.1信息论的形成与发展信息论的形成与发展狭义信息论信息度量信息度量信息特征信息特征信息容量信息容量干扰对信息传干扰对信息传递影响递影响广义信息论除了狭义信息论内容除了狭义信息论内容之外,还有之外,还有信号设计(如信号设计(如信号分集)信号分集)噪声噪声理论理论噪声统计噪声统计特性特性信号检测信号检测与估值与估值信息、消息、信号三者既有联系又有区别三者既有联系又有区别;1.1信息论的形成与发展信息论的形成与发展信息:信息:表示事物的运动状态和表示事物的运动状态和状态变
6、化的方式,是抽象状态变化的方式,是抽象的意识或者知识,是看不的意识或者知识,是看不见、摸不着的。见、摸不着的。比如人的想法,比如人的想法,对事物的认识等等。对事物的认识等等。消息消息是信息的载体,可以是信息的载体,可以由消息得到信息由消息得到信息指包含信息的指包含信息的语言、文字和语言、文字和图像等图像等信信息息消消息息表述表述提取提取具体的具体的抽象的抽象的信信号号不是物理性的,不能够直接在信信道中传输。道中传输。描述方法:描述方法:随机变量随机变量或者或者随随机序列机序列变化来表示消息变化来表示消息 信号信号是消息的具体物理体现是消息的具体物理体现(如声波信号,如声波信号,电信号电信号)信
7、号是消息的载体,将消息转换为信信号是消息的载体,将消息转换为信号才能够在信道中传输。号才能够在信道中传输。信号信号变化可以表示一定的消息。变化可以表示一定的消息。信息信息消息消息信号信号待传输;待传输;特点:抽象;特点:抽象;信息的表现形信息的表现形式;式;文字,图像,文字,图像,声音等;声音等;信号的变化描信号的变化描述消息;述消息;信息的基本特点1.不确定性受信者在接收到信息之前,不知道信源发送受信者在接收到信息之前,不知道信源发送的内容是什么,是未知的、不确定性事件;的内容是什么,是未知的、不确定性事件;3.3.可以产生、消失、存储,还可以进行加工、处理;4.可以度量2.2.受信者接收到
8、信息后,可以减少或者消除不确定性;1.2 通信系统的模型通信系统的模型 一般模型一般模型通信基本问题精确或者近似再现信源发出的消息。精确或者近似再现信源发出的消息。在存储或者通信等情况下,在存储或者通信等情况下,详细模型信息数据接收信息接收数据原始符号重建符号XXYZZY信道一定,数据传输错误概率一定信道一定,数据传输错误概率一定数据数据Z=Z并不是总是成立并不是总是成立差错控制编码、译码足够好差错控制编码、译码足够好信息信息Y=Y一般总是成立一般总是成立无失真编码无失真编码符号符号Z=Z限失真失真限失真失真编码编码ZZ有有效效性性可可靠靠性性信信 源源 产生消息的产生消息的来源来源,可以是文
9、字、语言、图像等;,可以是文字、语言、图像等;输出形式输出形式:符号形式表示具体消息,是信息的载体:符号形式表示具体消息,是信息的载体;分类:分类:连续的,离散的;连续的,离散的;基本特点基本特点:具有随机性。:具有随机性。主要研究其主要研究其统计规律统计规律和和信源产生的信源产生的信息速率信息速率。1.2 通信系统的模型通信系统的模型v作用:作用:将信源发出的符号将信源发出的符号转化为转化为适合信道传输的适合信道传输的信号信号;v一般包括信源编码、差错控制编码一般包括信源编码、差错控制编码(或者称为信道编或者称为信道编码码)和调制器等和调制器等。编码器编码器 信源编码 通过去除信源输出符号的
10、通过去除信源输出符号的冗冗余余,使信源编码输出的每个,使信源编码输出的每个符号携带更多的信息量,从符号携带更多的信息量,从而降低信息传递所需要的符而降低信息传递所需要的符号数量,即降低总体数据传号数量,即降低总体数据传输速率,输速率,提高传输效率提高传输效率。1.2 通信系统的模型通信系统的模型信源符号信源符号码序列码序列信源编码器信源编码器相关性减弱相关性减弱相关性强相关性强解决有效性解决有效性建立准则建立准则提高信息传输的效率提高信息传输的效率;变换变换冗余冗余相关冗余相关冗余统计冗余统计冗余生理冗余生理冗余冗冗余余变变化化统计冗余强统计冗余强统计冗余弱统计冗余弱相关冗余相关冗余信源输出前
11、后符号之间存在一定相关性信源输出前后符号之间存在一定相关性统计冗余统计冗余信源输出符号不服从等概率分布信源输出符号不服从等概率分布生理冗余生理冗余人的视觉对人的视觉对幅值失真不特别幅值失真不特别敏感敏感,但是对,但是对相位引起失真相位引起失真很敏感很敏感人的耳朵对人的耳朵对相位相位引起失真不敏感引起失真不敏感听音乐时,调节不同频率增益听音乐时,调节不同频率增益调节亮度对比调节亮度对比度(电视、图度(电视、图片)片)调音调音台台模型简化模型简化编码信道编码信道不会引入任不会引入任何错误或者何错误或者失真失真无失真编码与限失真编码 信息传输率必要小于信道容量,否则无论采取任何信息传输率必要小于信道
12、容量,否则无论采取任何信道编码技术,都会出现信息传递错误;信道编码技术,都会出现信息传递错误;在有些情况下,可以通过无失真编码即可满足上述在有些情况下,可以通过无失真编码即可满足上述要求;但是在更多情况下,必须采用限失真编码,要求;但是在更多情况下,必须采用限失真编码,才能使得信息传输率不大于信道容量。才能使得信息传输率不大于信道容量。1.2 通信系统的模型通信系统的模型 无失真编码无失真编码:信信 源源编码器编码器编编 码码信信 道道信信 源源译码器译码器信源符号信源符号(序列)(序列)x重建符号重建符号(序列)(序列)x1.2 通信系统的模型通信系统的模型重建符号重建符号与信源与信源发送符
13、号一致发送符号一致,即编码器输出码字序列与信源即编码器输出码字序列与信源发送序列一一映射;发送序列一一映射;重建符号与信源发送符号重建符号与信源发送符号不不完全一致完全一致;编码器输出码字;编码器输出码字序列与信源输出符号序列之序列与信源输出符号序列之间不是一一映射关系,出现间不是一一映射关系,出现符号合并,使得重建符号的符号合并,使得重建符号的熵减少了。熵减少了。xx限失真编码限失真编码:xxy yyy总是成立的总是成立的分别是编码输出码字和接收到的码字限失真、无失真是由于编译限失真、无失真是由于编译码器形成的码器形成的 由于信道中存在干扰,由于信道中存在干扰,数据传递过程中会出现数据传递过
14、程中会出现错误,信道编码可以错误,信道编码可以检检测或者纠正测或者纠正数据传输的数据传输的错误,从而提高数据传错误,从而提高数据传输的可靠性。输的可靠性。信道编码信道编码增加冗余增加冗余对信道干对信道干扰的抵抗扰的抵抗力力信息传输信息传输的可靠性的可靠性提高提高调制器 作用:作用:将信道编码的输出变换为适合信道传输的将信道编码的输出变换为适合信道传输的要求的信号要求的信号;l 信道编码和调制器的组合称为信道编码器,信道编码和调制器的组合称为信道编码器,主要是针对信道设计,其主要是针对信道设计,其目的目的是为了利用是为了利用信道的特性可靠地传输信息,提高信息传信道的特性可靠地传输信息,提高信息传
15、输的可靠性。输的可靠性。1.2 通信系统的模型通信系统的模型信源编码与信道编码是相互矛盾的,需要统一考虑信源编码与信道编码是相互矛盾的,需要统一考虑以提高系统的总体性能。以提高系统的总体性能。信源编码是通过信源编码是通过去除冗余去除冗余,提高系统传输的,提高系统传输的有效性有效性;而信道编码则是通过而信道编码则是通过增加冗余增加冗余提高系统传输的提高系统传输的可靠可靠性性,但是会降低系统总体有效性。,但是会降低系统总体有效性。信源信道联合编码技术:将信源编码和信道编码综信源信道联合编码技术:将信源编码和信道编码综合考虑,从而解决信源编码和信道编码之间的统筹合考虑,从而解决信源编码和信道编码之间
16、的统筹优化问题。优化问题。1.2 通信系统的模型通信系统的模型信道与干扰信道与干扰 信道是信息传输的媒质,将携带信息的信信道是信息传输的媒质,将携带信息的信号从一个地方传送到另外地方。号从一个地方传送到另外地方。l常见的信道有明线、电缆、光纤、无线电波传常见的信道有明线、电缆、光纤、无线电波传输的空间等,这些都是电信号传输的信道。输的空间等,这些都是电信号传输的信道。l在水中通信中可以采用声波传输,声波传输的在水中通信中可以采用声波传输,声波传输的媒质是水,所以水也是信道。媒质是水,所以水也是信道。l随着科学技术的发展,大量的信息需要存储,随着科学技术的发展,大量的信息需要存储,存储器也是信道
17、,而存储信息的媒质同样会收存储器也是信道,而存储信息的媒质同样会收到破坏,所以也存在干扰。到破坏,所以也存在干扰。1.2 通信系统的模型通信系统的模型信号在传输过程中会受到各种各样的干扰;u信号的类型不同,经过的信道不同,所遭受信号的类型不同,经过的信道不同,所遭受的噪声、干扰也有差异。的噪声、干扰也有差异。u根据实际情况对噪声和干扰进行统计建模和根据实际情况对噪声和干扰进行统计建模和分析,采用相应的处理方法。分析,采用相应的处理方法。如常见的无线信号为高斯白噪声信道;移动通信为衰落信道;磁盘、光盘为突发差错信道。1.2 通信系统的模型通信系统的模型译码器译码器 译码器是编码器的逆过程,其目的
18、是为了准确或者近似再现信源发出的消息。与编码器相对应,译码器一般由解调器、信道译码器和信源译码器组成。解调器解调器信道译信道译码码 器器信信 源源译码器译码器1.2 通信系统的模型通信系统的模型信宿 是消息传递的对象,即接收消息的人或机器,与信源处于不同地点或存在于不同时刻。它要对传送过来的消息提出可接受条件,即提出一定的准则,发端将以此来确定对信源处理时所要保留的最小信息量。信宿的数量可以是一个,也可以是多个,取决于具体应用需要。u单输入、单输出的单向通信系统;单输入、单输出的单向通信系统;u单输入、多输出的单向通信系统;单输入、多输出的单向通信系统;u多输入、多输出的多向通信系统。多输入、
19、多输出的多向通信系统。1.2 通信系统的模型通信系统的模型1.3信息论研究的内容信息论研究的内容通信统计理论的研究通信统计理论的研究u 主要研究如何分析信息和信息传输的统计规律。u具体内容包括信息的度量、信息速率与熵、衡量信道传输能力的信道容量等。信源统计规律的研究信源统计规律的研究u不同的信源具有不同的统计特性,如文字、字母的统计规律,语言 信号、静止图像和活动图像的统计特性。u而不同的分解工具产生的数据也具有不同的统计特性。编码理论与技术的研究编码理论与技术的研究u如信源编码理论与技术的研究,以提高信息传输效率;u信道编码理论与技术的研究,以提高信息传输的可靠性。受信者接收器官研究受信者接
20、收器官研究 如人的听觉和视觉特点的研究,为信源编码提供编码的基本原则。第2章 信源与信源熵信源与信源熵 目录l2.2 信源的数学模型和分类信源的数学模型和分类l2.3 离散信源的熵与互信息离散信源的熵与互信息 l2.4 熵的性质熵的性质 l2.5 离散信源序列的熵离散信源序列的熵 l2.6 连续信源的熵与互信息量连续信源的熵与互信息量 l2.7信源相关性与冗余度信源相关性与冗余度2.1背景知识背景知识 信源需要发出的消息数量不是一个,在任何信源需要发出的消息数量不是一个,在任何指定的时刻,信源到底发出哪个消息是不能指定的时刻,信源到底发出哪个消息是不能够事先确定的,即具有随机性;够事先确定的,
21、即具有随机性;如果信源每次发出的消息是已知的或者事先如果信源每次发出的消息是已知的或者事先确定的,则该消息不能够提供任何信息。由确定的,则该消息不能够提供任何信息。由于符号出现是随机,给观察者提供了一定的于符号出现是随机,给观察者提供了一定的信息。信息。不能够使用确定函数进行描述,应当使用统不能够使用确定函数进行描述,应当使用统计方法对其规律进行研究。计方法对其规律进行研究。背景知识背景知识 1.概率概率基础基础知识知识1212.()().()()rraaaXp ap ap ap x概率空间rirrapaEX1)(rirrrirrXEapaapEXaDX12212)()()(是随机变量围绕均值
22、分布离散程是随机变量围绕均值分布离散程度的测度,或者说是随机变量混度的测度,或者说是随机变量混乱程度的一种测度。乱程度的一种测度。(,)()()Cov X YE XEX YEY(,)()()XYCov X YEXEX YEYDXDYDXDY协方差协方差互相关互相关反应变量相关程度的指标反应变量相关程度的指标统统计计量量联合概率矩阵表联合概率矩阵表示形式示形式样本空间算术平均代替统计算术平均代替统计 平均平均Lxxx,.,21LllxLX112211()1LllSxXL样本样本方差方差EXEX未知未知22111()LllSxEXLEXEX已知已知大数定理大数定理1XEXP1SDXP)()()(Y
23、PXPXYP相互独立相互独立)|()(XYPYP)()()()()()()()()(212221212111srrrssXYbapbapbapbapbapbapbapbapbapPsjjiibapap1)()(rijijbapbp1)()(1121112222|12(|)(|)(|)(|)(|)(|)(|)(|)(|)ssY Xrrsrp bap bap bap bap bap baPp bap bap aa条件转移条件转移概率矩阵概率矩阵riabpsjij,.,2,11)|(1完备性完备性riijirijijabpapbapbp11)|()()()(riijiijijjijiabpapabp
24、apbpbapbap1)|()()|()()()()|(贝叶斯贝叶斯公式公式2平稳随机过程平稳随机过程随机过程随机过程12(),(),.,()nX tX tX t12(),(),.,()nX tX tX t具有相同联合概率具有相同联合概率分布分布12,.,nt ttT注意参数注意参数1n 任意整数任意实数严格平稳条件过于严格宽(弱、广义)随机过程宽(弱、广义)随机过程()E X t与时间与时间t t无关无关如果如果(,)()XXR s tR t s仅与时间间隔(仅与时间间隔(t-s)有关)有关mLiimLimiixxxm121)(自相关自相关12211()LmiimiXYLmLmiimiix
25、ymxy互相关互相关1 1由样本直接得到由样本直接得到2 2算术平均形式算术平均形式反映数据关联程度反映数据关联程度2.2 信源的数学模型和分类信源的数学模型和分类 产生消息的信源符号在产生消息的信源符号在幅度和时间幅度和时间上都是上都是离散的离散的(与与信号与系统中的概念不同信号与系统中的概念不同),即符号数量是,即符号数量是可数的或可数的或者是有限的者是有限的,这样的信源是离散信源。,这样的信源是离散信源。骰子只有骰子只有1,2,3,4,5,6共共6种点数,种点数,将掷一个骰子得到的点数看作是信源取值,那么这将掷一个骰子得到的点数看作是信源取值,那么这种信源就是离散信源种信源就是离散信源
26、幅度和幅度和时间时间离散信源离散信源 连续信源连续信源幅度和时间上都是离散的幅度和时间上都是离散的时间上或者在幅度上是连续的时间上或者在幅度上是连续的如果信源的符号在如果信源的符号在时间时间上或者在上或者在幅度幅度上是连续的,上是连续的,这类信源就是这类信源就是连续信源连续信源。如表示声音变化的电信号,。如表示声音变化的电信号,不仅在时间上是连续取值,而且在幅度也是连续变不仅在时间上是连续取值,而且在幅度也是连续变化的,这样的信源就是连续信源。化的,这样的信源就是连续信源。可以对信号进行取样,将之转换为时间上离散的信可以对信号进行取样,将之转换为时间上离散的信号序列,但是由于该信号序列的号序列
27、,但是由于该信号序列的幅度取值是连续的幅度取值是连续的,所以这样的信源仍然是所以这样的信源仍然是连续信源连续信源;如果对序列进行如果对序列进行量化编码量化编码,就得到数字信号序列,就得到数字信号序列,时间和幅度都是离散的信号,这样的信源就是离散时间和幅度都是离散的信号,这样的信源就是离散信源。信源。取样、量化会造成信息损失,将在后面章节取样、量化会造成信息损失,将在后面章节中进行分析、讨论。中进行分析、讨论。模拟信号模拟信号取样取样离散信号离散信号量化编码量化编码数字信号数字信号信号信号信息论信息论连续连续信源信源连续连续信源信源离散离散信源信源消息消息符号符号之间之间是否是否关联关联有记忆信
28、源有记忆信源无记忆信源无记忆信源符号序列或者矢量符号序列或者矢量描述描述方式方式单个符号单个符号也可以使用符号序列也可以使用符号序列2.1.1信源输出的消息由随机变量描信源输出的消息由随机变量描述述 离散无记忆信源离散无记忆信源可以用一个概率空间完全描述出来,可以用一个概率空间完全描述出来,即各个符号出现的概率一定,那么信源就确定了;即各个符号出现的概率一定,那么信源就确定了;信源一定,那么各个符号出现的信源一定,那么各个符号出现的概率概率就确定了,所就确定了,所以以信源的消息符号及其概率分布信源的消息符号及其概率分布完整地描述了信源完整地描述了信源的特性。的特性。定义定义2.1 如果信源输出
29、的消息数量是如果信源输出的消息数量是有限或有限或者可数的者可数的,而且每次只输出符号集中的一个,而且每次只输出符号集中的一个消息,这样的信源称为消息,这样的信源称为简单简单离散信源。离散信源。1212.()().()()rraaaXp ap ap ap x且满足且满足 1()1riip a简单离散信源而言,概率空间描述了信源的统计特性简单离散信源而言,概率空间描述了信源的统计特性 投掷骰子问题 123456111111()666666aaaaaaXp x定义定义2.2 如果信源的输出是单个符号消息,但是消如果信源的输出是单个符号消息,但是消息的数量是息的数量是不可数的不可数的,即输出消息的取值
30、是连续,即输出消息的取值是连续的,这样的信源称为简单的的,这样的信源称为简单的连续信源连续信源。如使用如使用模拟器件模拟器件万用表、示波器观测的电压、电万用表、示波器观测的电压、电流信号都是连续数据,其取值幅度都是连续的。流信号都是连续数据,其取值幅度都是连续的。6,5,4,3,2,1,1)(61iiiaap R表示实数(,)()()Xa bp xp x()()XRp xp x取值范围取值范围badxxp1)(R1)(dxxp2.1.2 信源输出的消息由随机矢量描信源输出的消息由随机矢量描述述 信号很多情况下信号很多情况下信源输出的消息符号之间具有一定的相关性;信源输出的消息符号之间具有一定的
31、相关性;简单信源模型不能够描述;简单信源模型不能够描述;或者或者消息是由一系列符号组成的消息是由一系列符号组成的简单信源模型也不能够描述这种由符号简单信源模型也不能够描述这种由符号矢量构成的消息。矢量构成的消息。比如有一个布袋,内放比如有一个布袋,内放100个球,其中白球个球,其中白球80个,个,黑球黑球20个,如果除了颜色不同之外,其它方面如手个,如果除了颜色不同之外,其它方面如手感、大小等都相同。现在从布袋中随机摸取一个球,感、大小等都相同。现在从布袋中随机摸取一个球,观察球的颜色,摸到的球要么是白色,要么是黑色。观察球的颜色,摸到的球要么是白色,要么是黑色。如果将这样一个实验视为一个信源
32、,这样的信源可如果将这样一个实验视为一个信源,这样的信源可以使用简单的离散信源加以描述,即以使用简单的离散信源加以描述,即12()0.80.2Xaap x一维形式一维形式 改变实验方法,进行两次取球实验,改变实验方法,进行两次取球实验,首先取出一个球,记录球的颜色,首先取出一个球,记录球的颜色,取出的球不放回去,然后再取一个球,记录球的颜取出的球不放回去,然后再取一个球,记录球的颜色。色。现在考察取出的两个球的颜色,只有现在考察取出的两个球的颜色,只有4种可能:白种可能:白色白色、白色黑色、黑色白色、黑色黑色色白色、白色黑色、黑色白色、黑色黑色 。a1,a2分别表示白色球和黑色球分别表示白色球
33、和黑色球 211122122(,)(,)(,)(,)80 7980 2020 8020 19()100 99100 99100 99100 99a aa aa aa aXp x二维适量二维适量 定义定义2.3 如果离散信源输出的消息是由如果离散信源输出的消息是由一系列符一系列符号号组成的,这样的信源称为组成的,这样的信源称为多维离散信源多维离散信源。使用使用N N维随机矢量描述,维随机矢量描述,N N维随机矢量也称为维随机矢量也称为N N维随维随 机序列。机序列。一般说来,随机序列的统计特性比较复杂,一般说来,随机序列的统计特性比较复杂,分析起来比较困难。分析起来比较困难。如果信源输出的随机序
34、列的统计特性与时间的推移如果信源输出的随机序列的统计特性与时间的推移 无关,那么该序列是平稳的。无关,那么该序列是平稳的。平稳随机序列分析相对简单,在实际中,为了分析问平稳随机序列分析相对简单,在实际中,为了分析问 题方便起见,假设分析的序列是平稳的。题方便起见,假设分析的序列是平稳的。11121112(,.,)(,.,).(,.,)(,.,)(,.,).(,.,)()NrrNrraaaaaaXp aap aap aap x 如果信源输出的随机序列中,如果信源输出的随机序列中,每个随机变量都是离散的;每个随机变量都是离散的;随机矢量的各维概率分布都与时间无关,即任何时刻随随机矢量的各维概率分布
35、都与时间无关,即任何时刻随机矢量的各维概率分布相同,机矢量的各维概率分布相同,那么这样的信源称为离散平稳信源;那么这样的信源称为离散平稳信源;u用用N维概率空间描述。维概率空间描述。11121112(,.,)(,.,).(,.,)(,.,)(,.,).(,.,)()NrrNrraaaaaaXp aap aap aap x1离散无记忆信源离散无记忆信源 N维联合概率分布表示为维联合概率分布表示为 11()()()iNNNikiiP Xp Xp a特点特点消息的符号之间彼此相互独立消息的符号之间彼此相互独立服从同一分布服从同一分布独立同一分布独立同一分布不仅具有相同分布类型分布类型,而且参数也相同
36、参数也相同e.Ge.G都是正态分布,且均都是正态分布,且均值、方差相等值、方差相等此时此时 例如例如:取球方式取球方式,每次从袋中取出一个球,只记录每次从袋中取出一个球,只记录球的颜色(用变量球的颜色(用变量x1表示),将球放回袋中,然后表示),将球放回袋中,然后再次取出一球,记录球的颜色(用变量表示再次取出一球,记录球的颜色(用变量表示x2),),如果将这样两次取球实验视为信源输出符号,显然如果将这样两次取球实验视为信源输出符号,显然信源输出消息构成二维随机序列,而构成消息的两信源输出消息构成二维随机序列,而构成消息的两个随机变量相互独立,所以可以用随机变量的乘积个随机变量相互独立,所以可以
37、用随机变量的乘积加以描述。加以描述。1 212()()()p x xp x p x比如比如12xa21xa2 121()()()0.2 0.80.16p a ap a p aK:编码器输入二进制数据长度编码器输入二进制数据长度N:输出二进制数据长度输出二进制数据长度。由于输送到信道编码器的数据是先经过信源编码由于输送到信道编码器的数据是先经过信源编码器编码,所以相关性很弱器编码,所以相关性很弱;分组编码器将这些比特流数据划分为长度为分组编码器将这些比特流数据划分为长度为k的的一个个码组,并对每个码组进行信道编码一个个码组,并对每个码组进行信道编码;比特数据取值只有比特数据取值只有0,1两种符号
38、,服从独立两种符号,服从独立同一分布同一分布。(n,k)分组码分组码线性分组码线性分组码:无记忆信源无记忆信源通常情况下,信源在不同时刻发出的符号之通常情况下,信源在不同时刻发出的符号之间是相互关联的。间是相互关联的。如前文所述的布袋取球实验中,如前文所述的布袋取球实验中,u先取一球不放回,然后再取一球,第二个球的颜先取一球不放回,然后再取一球,第二个球的颜色概率分布与第一个球的颜色有关。;色概率分布与第一个球的颜色有关。;u如果摸出第一球为白色,则摸取第二个球颜色的如果摸出第一球为白色,则摸取第二个球颜色的概率为概率为 1121(|)79/99,(|)20/99p a ap aau若第一个球
39、为黑色,则取第二个球颜色的概率若第一个球为黑色,则取第二个球颜色的概率 1222(|)80/99,(|)19/99p aap aa组成消息的两个球的颜色之间存在关联,这种信组成消息的两个球的颜色之间存在关联,这种信源是有记忆的源是有记忆的 离散有记忆信源用N维联合概率分布加以描述 12121121(,.)(|,.,)(,.)NNNNp x xxp xx xxp x xx1211122122(|,.)(|,.,)(,.,).NNNNNp xx xxp xx xxp x xx特点特点1 1表述的复杂程度将随序列长度表述的复杂程度将随序列长度N N的增加而增加的增加而增加 ;2 2符号之间的相关性随
40、着符号间隔的增加而减弱符号之间的相关性随着符号间隔的增加而减弱;处理处理方法方法1 1 根据实际研究的需要限制随机序列的长度根据实际研究的需要限制随机序列的长度2 2 需要考虑系统复杂程度来建立更为简单的模型需要考虑系统复杂程度来建立更为简单的模型,以达到相应的研究目的。,以达到相应的研究目的。当记忆长度为m+1时,即信源每次发出符号只与前m个符号相关,与更前面的符号无关,称这种信源为m阶马尔可夫信源。1212(|,.,.)(|,.)iiii miiii mp x xxxp x xxx如果条件概率与时间起点无关,这样的信源称如果条件概率与时间起点无关,这样的信源称为齐次马尔可夫信源为齐次马尔可
41、夫信源。12121(|,.,.)(|,.)iiii mmmmpx x xxpxx xx定义定义2.4 如果连续信源输出消息时由一系列符如果连续信源输出消息时由一系列符号组成,这样的信源称为号组成,这样的信源称为多维连续信源多维连续信源,也可,也可以用以用N维随机矢量来描述。维随机矢量来描述。2.2 离散信源的熵与互信息离散信源的熵与互信息 信源的随机性信源的随机性1.1.某时刻输出符号是随机的某时刻输出符号是随机的,接收者事先不能确定,接收者事先不能确定2.2.收到信息后可以消除或者减小这种不确定性收到信息后可以消除或者减小这种不确定性噪声,干扰存在,噪声,干扰存在,不能完全消除不能完全消除信
42、源的概率分信源的概率分布是确定的布是确定的前文已知:信源前文已知:信源可以用概率分布可以用概率分布来描述来描述信息量大小应该信息量大小应该与概率有关与概率有关2.2.1 非平均信息量非平均信息量 给定信源给定信源X,对应的概率空间为,对应的概率空间为 1212.()().()()rraaaXp ap ap ap x1.1.给定时刻,信源到底会发出什么符号,接收者事先不能确定给定时刻,信源到底会发出什么符号,接收者事先不能确定;2.2.符号出现的概率不同,它的不确定性也不同符号出现的概率不同,它的不确定性也不同;3.3.信息量定义应该遵循日常生活准则信息量定义应该遵循日常生活准则基本规则基本规则
43、(1)确定性事件,即确定性事件,即P=1时,信息量应当为时,信息量应当为0;(2)事件出现的概率事件出现的概率越小越小,信息量应当,信息量应当越大越大;反之亦反之亦 然;然;(3)自信息量为自信息量为非负的非负的(4)两个相互独立事件联合自信息量应等于它们两个相互独立事件联合自信息量应等于它们各自两个信息量各自两个信息量之之和和按照上述准则,在函数空间寻找满足要求的函数来按照上述准则,在函数空间寻找满足要求的函数来定义信息量定义信息量 定义定义2.5 给定信源的概率空间给定信源的概率空间 1212.()().()()rraaaXp ap ap ap x事件事件iaX的的自信息量自信息量定义为:
44、定义为:1()log()log()iiiI ap ap a 取底为取底为2,单位为比特,单位为比特;取自然对数,单位为奈特取自然对数,单位为奈特(nat);以);以10为底,则单位为笛特(为底,则单位为笛特(det)。)。1nat=e=1.433lb1det=10=3.322lbbitbit对数的底大于1 例例2.1 某二元信源发出符号0,1的概率分别为,p(0)=1/4,p(1)=3/4,求I(0),I(1)。解:解:根据定义知:1(0)(0)24IlbPlb 3(1)(1)0.14564IlbPlb 比特比特比特比特分析:分析:符号符号1出现概率大,它的出现给观察者提供的信出现概率大,它的
45、出现给观察者提供的信息量就小。息量就小。符号符号0出现的概率较小,因此一旦出现,给观察出现的概率较小,因此一旦出现,给观察者提供信息量大;者提供信息量大;如果二进制信源的消息如果二进制信源的消息0、1以等概率出现,以等概率出现,则则(0)(1)21IIlbbit也就是说不管是也就是说不管是0还是还是1的出现,接收者得到的出现,接收者得到的信息量均为的信息量均为1比特,即这样信源输出用比特,即这样信源输出用1比比特表示就可以了。特表示就可以了。如果信源输出的如果信源输出的m位二进制数,该数可以用位二进制数,该数可以用m位位0或者或者1组合表示,共有个等概率可能组合表示,共有个等概率可能2m组合,
46、所以每个符号的自信息量相等,都为组合,所以每个符号的自信息量相等,都为m比特。比特。不确定性讨论不确定性讨论(1)自信息量是该符号自信息量是该符号出现出现后,提供给接收者的信息量后,提供给接收者的信息量(2)表示信源符号的先验不确定性表示信源符号的先验不确定性每个符号具有一个先验概率,在信源符号发出之前,每个符号具有一个先验概率,在信源符号发出之前,存在不确定性存在不确定性一个出现概率很小的符号,接收者事先很难猜一个出现概率很小的符号,接收者事先很难猜测它是否会发生,而概率很大的符号,出现的测它是否会发生,而概率很大的符号,出现的可能性大,很容易猜测它的出现。可能性大,很容易猜测它的出现。(3
47、)符号的不确定性在数量上等于它的自信息量符号的不确定性在数量上等于它的自信息量但两者含义不一样但两者含义不一样先验不确定性先验不确定性 信源符号固有的信源符号固有的自信息量自信息量 信源发出后该符号为接收者提供的信息信源发出后该符号为接收者提供的信息量,是为了消除该符号不确定性,接收信量,是为了消除该符号不确定性,接收信息者需要获得的信息量息者需要获得的信息量 定义定义2.6 对于给定两个信源对于给定两个信源X、Y,对应概率空,对应概率空间分别为间分别为 1212.()().()()rraaaXp ap ap ap x1212.()().()()ssbbbYp bp bp bp y事件事件bj
48、Y的出现给出的关于事件的出现给出的关于事件ai X的信息量为的信息量为(|)(;)log()ijijip a bI a bp a同样定义为事件同样定义为事件ai X的出现给出的关于事件的出现给出的关于事件bjY的信息量的信息量(|)(;)log()jijijp baI b ap b事件关联性讨论事件关联性讨论在概率论中,反映两个事件关联程度,在概率论中,反映两个事件关联程度,使用条件概使用条件概率率或者或者联合概率联合概率条件(联合)概率越大,说明两者之间的依赖条件(联合)概率越大,说明两者之间的依赖性(关联性)越强性(关联性)越强使用条件概率和无条件概率的使用条件概率和无条件概率的比较,更能
49、说明依赖比较,更能说明依赖关系关系比如观察到比如观察到事件事件bjY,想知道,想知道事件事件ai事事对对bj的依赖关系,可以观察的依赖关系,可以观察 与与 大小大小(|)ijp a b()ip a(|)()ijip a bp a事件事件bj bj出现有利于出现有利于ai ai,两者关联性是,两者关联性是相容的相容的反之反之,两者之间是,两者之间是相斥相斥的的(|)1()ijip a bp a换种说法换种说法事件事件bj出现出现有利于有利于事件事件ai的的出现出现(|)1()ijip a bp a事件事件bj出现出现不不利于利于事件事件ai的的出现出现(|)1()ijip a bp a事件事件b
50、j与与事件事件ai之间之间没有关系没有关系相容相容相斥相斥不相关不相关信息论中,对两个事件概率的比值取对数,而对数信息论中,对两个事件概率的比值取对数,而对数运算是单值的;运算是单值的;所以互信息定义只不过就是将上述描述事件关联程所以互信息定义只不过就是将上述描述事件关联程度的测度,做了一个简单函数变换;本质上没有区度的测度,做了一个简单函数变换;本质上没有区别。别。这里是讨论的事件之间的关联性;而不是随机变量的关联性(不是总体特性,后面讨论)注意:注意:可以证明(;)(;)jiijI baI abv证明证明:根据定义(|)(;)log()ijijip abI a bp a分子、分母同时乘以概