[[数理工学>Operations Research]] **フィッシャー情報量 この情報量は、パラメータを持つ確率モデルがあったとき、与えられたデータ(情報)を用いて、どこまで真のパラメータを推定できるかを表現したものである。つまり、パラメータを正確に推定できるデータが、大きな情報量を持つと考える。 -出典:津田宏治、「機械学習における情報の捉え方」、[[URL:http://www.aist.go.jp/aist_j/research/honkaku/symposium/johogaku/w_tsuda.html]]、産業技術総合研究所 -この考え方を提唱したのは、遺伝学者で統計学者の Sir Ronald Aylmer Fisher(1890年2月17日-1962年7月29日) -20世紀前半にFisherによって考案された、統計学的な推定理論において重要な役割を担う Fisher情報行列は、幾何学における Riemann 計量であることは、統計学者C.Raoが1945年に「Fisher情報量をRiemann計量として考察することは重要ではないか」との指摘から明らかになった。 次のような統計モデルが与えられた時、 \[f_{X}(x,\theta)\] \[{X}\] フィッシャーの情報行列(the Fisher information matrix)は \[I\] スコア関数の分散(variance of the score function)として表せる。 \[ I=Var[U]\] この時、もし、パラメータ(parameter)が一つしかないならば、この式はフィッシャー情報量と呼ばれる。 \[I=f_{X}(x,\theta)\] もし、フィッシャー情報量が指数分布族(exponential family)であるならば、 \[f_{X}(x,\theta)\] \[I=E[U^{T}U]\] \[I=-E[\frac{\partial U}{\partial{\theta}}]\] 例えば、正規分布(the normal distribution)の場合は、 \[N(\mu,\sigma^2)\] は指数分布族(exponential family)であり、その尤度関数(log-likelihood function)は \[\ell(\theta,x)\] \[-\frac{1}{2}ln(2\pi\sigma^2)-\frac{(x-\mu)^2}{2\sigma^2}\] \[\theta=(\mu,\sigma^2)\] ここで、θに関して微分すると、 \[ \frac{\partial U}{\partial{\theta}}=\pmatrix{ \frac{\partial U_{1}}{\partial \mu} & \frac{\partial U_{2}}{\partial \mu} \cr \frac{\partial U_{1}}{\partial \mu} & \frac{\partial U_{2}}{\partial \mu} } \] \[ \frac{\partial U}{\partial{\theta}}=\pmatrix{ \frac{\partial U_{1}}{\partial \mu} & \frac{\partial U_{2}}{\partial \mu} \cr \frac{\partial{U_1}}{\partial{\sigma^2}} & \frac{\partial{U_2}}{\partial \sigma^{2}} } \]