单击这里展开或折叠

  数据压缩的理论基础是信息论,数据压缩的理论极限是信息熵。
单击这里展开或折叠

  1.信息
  信息是用不确定的量度定义的,
  是用不确定性的量度定义的,
  也就是说信息被假设为由一系列的随机变量所代表,它们往往用随机出现的符号来表示。我们称输出这些符号的源为"信源"。也就是要进行研究与压缩的对象。
  被假设为由一系列的随机变量所代表,它们往往用随机出现的符号来表示。

单击这里展开或折叠

  2.信息量
单击这里展开或折叠

  (1)指从N个相等的可能事件中选出一个事件所需要的信息度量和含量。辨别N个事件中特定事件所需提问"是"或"否"的最小次数。
单击这里展开或折叠

  例如:从64个数(1~64的整数)中选定某一个数
  则所需的信息量是 =6(bit)

单击这里展开或折叠

  设从N中选定任一个数X的概率为P(x),假定任选一个数的概率都相等,即P(x)=1/N,则信息量I (x)可定义为:
单击这里展开或折叠

  设底取大于1的整数α,
  α=2,相应的信息量单位为比特(bit);
  当α=e,相应的信息量单位为奈特(Nat);
  当α=10,相应的信息量单位为哈特(Hart);

单击这里展开或折叠

  P(x)大时,算出的I(x)小 必然事件的P(x)等于1, I(x)等于0。
  P(x)小时,算出的I(x)大 必然事件的P(x)等于0, I(x)等于1。
  I(x)称x发生后的自信息量,它也是一个随机变量。

单击这里展开或折叠

  3.信息熵
  信源X发出的xj(j=1,2,……n), 共n个随机事件的自信息统计平均(求数学期望),即
  H(X)在信息论中称为信源X的"熵" (Entropy) ,它的含义是信源X发出任意一个随机变量的平均信息量。

单击这里展开或折叠

  解释和理解信息熵有4种样式
  (1) 当处于事件发生之前,H(X)是不确定性的度量;
  (2) 当处于事件发生之时,是一种惊奇性的度量;
  (3) 当处于事件发生之后,是获得信息的度量;
  (4) 还可以理解为是事件随机性的度量.

单击这里展开或折叠

  例如:以信源X中有8个随机事件,即n=8。每一个随机事件的概率都相等,
  即P(x1)=P(x2)=P(x3)……P(x8)= ,计算信源X的熵。

单击这里展开或折叠

  统计编码的理论基础是什么?
单击这里展开或折叠

  此最大值与熵之间的差值,就是信源X所含的冗余度(redundancy)。
  可见:只要信源不是等概率分布,就存在着数据压缩的可能性。这就是统计编码的理论基础。
  4.熵编码的概念
单击这里展开或折叠

  如果要求在编码过程中不丢失信息量,即要求保存信息熵,这种信息保持编码又叫做熵保存编码,或者叫熵编码。
  特性:熵编码是无失真数据压缩,用这种编码结果经解码后可无失真地恢复出原图像。