可逆圧縮符号     Lossless source coding

   index   

 無記憶情報源(アルファベットを独立に出力する情報源)については、ハフマン符号が最良です。 最良の意味は、復号可能な(可逆な)符号の中で、1アルファベットあたりの平均符号長が最小ということです。 ハフマン符号を用いて、限りなく情報源のエントロピー(情報源が1アルファベット当たり出力する情報量の平均)に近い符号を設計する方針は次のようです。

    1. アルファベットを文字づつ区切り、元の無記憶情報源をn文字の単語を出力する情報源(n次拡大情報源)とみなす。
    2. この情報源について、ハフマン符号を設計する。
    3. この符号の平均符号長(1単語当たりの符号長の平均)を計算しnで割る。 これが情報源のエントロピーをまだ十分近似していなければ、n=n+1 として1へ戻る。

以上は、無記憶情報源の場合ですが、現実の情報源はマルコフ情報源です。 しかし、符号の設計方針は上とまったく同じでもかまいません。 直感的にいえば、情報源を拡大することによって長い単語(あるいは長い信号)を扱うことになり、単語間の確率的依存性が薄れてゆくという事実に基づいています(英文の情報量を参照)。 ただし、拡大を大きくすると、単語(あるいは信号)の数は爆発的に増加し、現実的ではありません。 多くの場合、可逆符号化の前に非可逆符号化を行います。 非可逆符号化を行わないとして、純粋に理論的な流れを描くと下図のようです。 極めて具体的な復号可能ということが、極めて抽象的な確率によって定義されたエントロピーと深い関係にあります。

 

img1.gif

 

注: ハフマン符号の平均符号長は n によって単調減少するとは限らない。 多くの場合、n が小さいとき急減少するが、n が大きくなると(極限に近づくと)増減を繰り返す。

   ページのトップへ