数理工学

フィッシャー情報量

この情報量は、パラメータを持つ確率モデルがあったとき、与えられたデータ(情報)を用いて、どこまで真のパラメータを推定できるかを表現したものである。つまり、パラメータを正確に推定できるデータが、大きな情報量を持つと考える。

  • 出典:津田宏治、「機械学習における情報の捉え方」、URL、産業技術総合研究所
  • この考え方を提唱したのは、遺伝学者で統計学者の Sir Ronald Aylmer Fisher(1890年2月17日-1962年7月29日)
  • 20世紀前半にFisherによって考案された、統計学的な推定理論において重要な役割を担う Fisher情報行列は、幾何学における Riemann 計量であることは、統計学者C.Raoが1945年に「Fisher情報量をRiemann計量として考察することは重要ではないか」との指摘から明らかになった。

次のような統計モデルが与えられた時、 \[f_{X}(x,\theta)\]

\[{X}\]

フィッシャーの情報行列(the Fisher information matrix)は

\[I\]

スコア関数の分散(variance of the score function)として表せる。

\[ I=Var[U]\]

この時、もし、パラメータ(parameter)が一つしかないならば、この式はフィッシャー情報量と呼ばれる。

\[I=f_{X}(x,\theta)\]

もし、フィッシャー情報量が指数分布族(exponential family)であるならば、

\[f_{X}(x,\theta)\]

\[I=E[U^{T}U]\]

\[I=-E[\frac{\partial U}{\partial{\theta}}]\]

例えば、正規分布(the normal distribution)の場合は、

\[N(\mu,\sigma^2)\]

は指数分布族(exponential family)であり、その尤度関数(log-likelihood function)は

\[\ell(\theta,x)\] \[-\frac{1}{2}ln(2\pi\sigma^2)-\frac{(x-\mu)^2}{2\sigma^2}\]

\[\theta=(\mu,\sigma^2)\]

ここで、θに関して微分すると、 \[ \frac{\partial U}{\partial{\theta}}=\pmatrix{ \frac{\partial U_{1}}{\partial \mu} & \frac{\partial U_{2}}{\partial \mu} \cr \frac{\partial{U_1}}{\partial{\sigma^2}} & \frac{\partial{U_2}}{\partial \sigma^{2}} } \]



トップ   差分 バックアップ リロード   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2009-09-18 (金) 15:15:03 (5331d)