情報を測る    Metric of information

   index   

 僕たちは、毎日のようにテレビを見たり、ラジオを聞いたり、新聞を読んだりしています。 このとき、

 君はどれだけの情報を得たか、正確に答えろ!

なんて言われると困ってしまいすね。 

 ヘッ!  情報って測れんの?

と、聞き返したくなりますね。 せいぜい、「たくさん」とか「ちょっとだけね」としか表現できないのではないでしょうか。 それも、人によってずいぶん違うでしょう。 でも、世は I T 時代! ビット、ブロードバンド、インターネット、・・・・といった片仮名用語が氾濫しています。 なんだか、ものすごく工学的な匂いのする言葉ばっかりで、万事が精密に設計された世界をイメージしてしまいます。 そうです!テレビや携帯やパソコンやゲーム機やデジカメなど、すべての情報機器は、

 情報を測る尺度 : ビット

を用いて設計されているのです。 ちょうど、メートルという長さの単位を使って家を設計するように。

炎天下、町内会の草むしりがありました。 今年は、「ご苦労さん」ということで、10人の参加者に図書券をくじ引きで配ることになりました。

1等(1つ):   図書券8枚  4000円相当

2等(2つ):   図書券4枚 2000円相当

3等(3つ):   図書券2枚 1000円相当

ハズレ(4つ):   なし

ぼくは、賭け事には弱く、くじを引いて良い思いをしたことは一度もありません。 でも、引いてみるとたった一枚しかない1等だったのです。 このときのぼくの「驚き」は、2等を引くよりも、また3等を引くよりも、もちろんハズレを引くよりも、大きいはずです。 上のクジは、この「驚きの度合い」を図書券の枚数で表しているようなものです。

図書券(金額)の代わりに、もっと理にかなった「驚きの度合い」を測る物差しはないでしょうか?もっと純粋に、あるいは体系的な議論ができるように、「驚きの度合い」を測りたいというわけです。 単純に考えれば、めったに起こらないことが起こったときほど「驚きの度合い」が大きいわけですから、「驚きの度合い」を確率の単調減少関数で定義すればいいわけです。 これだけならば、無数に定義を考えることができます。 たとえば、そのことが起きる確率を で表すと、 や  (この逆数はオッズと呼ばれている。競馬で言うオッズは配当金のこと、注3) は下の赤と緑のカーブで示すように確率の単調減少関数ですから、確かに「驚きの度合い」を表現しています。

img4.gif

しかし、情報の大きさをこのような関数で表すと、後になって大きな不都合が生じます。 1940年頃、シャノン (C.E.Shannon, 1916-2001、"A Mathematical Theory of Communication"1948 ) は情報を測る物差しを次のように対数関数で定義し、ビット (BIT: binary inforamtion unit ) と名づけました。

 確率Pの事象が実際に起こったことを聞いたとき、
ぼくたちは次の情報を得る。

 ( ビット )

img5.gif

ぼくたちのまわりには、上のような対数関数を使って大きさを評価することが非常に多いはずです。 一番ポピュラーなのはデシベル(dB)という単位です。 音や電気信号などのパワーを測るのに、

で計算します。  は音波あるいは電気信号の強さを表します。 

 なぜ対数関数が便利なのでしょうか?

 対数関数で表す必然性はあるのでしょうか?

対数関数とは関係

       

を満たす関数のことです。 もし変数が3つならば、同様に、

       

であり、変数の積の関数がそれぞれの関数の和になります。 このような関数を用いると、信号パワーを増幅したり減衰させたりする掛け算のプロセスを、積ではなく和で計算することができます。 このことが、広くデシベルが用いられている理由の一つです。

シャノンが情報量を測る尺度として対数関数を用いた理由はもっと必然です。 例として、A、B、C の3文字をランダムに出力している情報源を考えてみよう。 ランダムとは、A,B,C のどれが出力されるかは過去に出力された文字に依らないということです。 このような情報源のことを無記憶情報源と呼んでいます(過去の出力に影響を受けるような情報源はマルコフ情報源と呼びます)。 もし、の出力頻度に偏りがあり、仮に

       

とします。 シャノンの定義によれば、この情報源から が出力されたことを知ったぼくは

の情報を得ます。 ならば

ならば

の情報を得ます。 では、綴り

CBCA

を読んだとき、ぼくはどれだけの情報を得るでしょうか? 情報源が無記憶だから、上の4文字の綴りが出力される確率は、それぞれの確率の積 で計算されます。 したがって、この綴りを読んだときの情報量は、

であり、各アルファベットの情報量の和になります。 すなわち、長い綴りを読んだときの総情報量は、一つの文字を読むごとに、加算で蓄積された情報量に等しいことを表しています。 このように、

 互いになんの関係もない情報を聞くたびに、
加算のルールで知識が蓄えられる

という原理はごく自然に理解できることです。

注1:「確率ってな〜に?」と聞くと、その答えは十人十色ですね。 「サイコロを600回振ったら一の目が120回出たので、一の目の出る確率は 120/600 だ」 とか、「どの目も同じ可能性があるから 1/6 だ」とか、「サイコロの角が欠けるかもしれないから、確率なんて意味ないじゃん」とか・・・。 ぼくも、改めて質問されると大変困ります。 そういえば、ちゃんとしたサイコロは、重心を真ん中に置くために、目の彫りこみが微妙にちがっているよね。
Shannon の情報理論は先見的に確率が与えられるとして体系化されています。 そして多くの場合、事象が起こる確率的メカニズムが不変(定常)としています。 Shannon の情報理論があらゆる情報機器の設計基盤になっている理由は、実際に計測されたもろもろの頻度(たとえば、単語の発生頻度や画像パターンの頻度など)を確率と見做しても、その実用的有効性に与える疑念を無視できるという前提に立っているからです。 また、ディジタル通信ではスクランブラーという回路で送信データをランダム化します。 もちろん完全にランダム化するわけではなく、元に戻すことができるように擬似的にランダム化します。 これで十分に、硬貨投げと同じような等確率かつ独立な試行と見做すことができるというわけです。
それでは、我々の手元には非常に少ないサンプルから得た頻度分布しかないとしましょう。 このとき、頻度=確率 で情報機器を設計するには大きなリスクがあります。 このような前提での Shannon 理論の拡張は大変意義のあることと思われますが、これは統計学(あるいは推計学)の導入という事態になり、時には恣意的ですらある統計学そのものを問題にしなくてはなりません。

注2:Shannon の情報量は情報の意味づけ(主観性)を排除しています。 このお陰で、可逆情報圧縮ディジタル通信の最高速度といった実用的に極めて有用な結果を生み出しました。 しかし、いわゆる情報学(DNA解析や経済学や地震学などの複雑系において、人間にとって意義のある情報理論を体系化しようとする試み)では、実際に世の中で起こっている事柄から、その裏にある確率的構造を解き明かすことになります。 「逆問題」というやっかいな話になっていきます。 この問題は、未知情報源と未知観測系の両者が確率的自由度を含んでいるので、いかに観測データを積み重ねても、情報源に隠された確率構造に関する恣意性が最後までぬぐえません。 このような場合の常套手段は、隠された確率構造を有限個のパラメーターを使ってモデル化しようということになります。 この時点で主観性が入り込みますが、対象とモデルがマッチすれば、有用な結果を得ることが期待されます。 この観点からさまざまな情報量が定義されています。

注3:下図は競馬の18頭単勝の時系列オッズ(配当金の時間変化)です。横軸は時間(分)、縦軸は配当金を表しています。この配当金は、JRAが総売り上げの一定率を差し引き、残額を各馬の投票数の逆数に比例して配分した額です。この配当金は、「勝てない」度合いを表しているので、「勝ったときの驚きの度合い」といえます。

上のグラフで、人気馬(オッズの小さい馬)のオッズは非常に小さく、下にへばりついて判別できません。そこで、各馬のオッズの逆数のパーセント(投票数のパーセント)を描いてみると、今度は人気馬の時間変化が表れ、不人気馬は下にへばりついてしまいます。このグラフは「人気の度合い」を表しているから、「勝つ確率」を表しているともいえます。ただ、馬券を買う行為はギャンブルなので、「勝つ確率」をどの程度反映しているかは疑わしいですね。

上のグラフから、投票累積の時間変化を推定することもでき、次のようになります。

この累積カーブから分かるように、締め切りの1時間前から投票が急速に増えることが分かります。締め切り時間に向かって、人間の欲望がどのように揺れ動くかを、これらのグラフから読み取れればおもしろい!

  ページのトップへ