分散(variance)とは、標準偏差と並んである一群のデータ(e.g.身長や所得)が平均値からどれだけバラついているかを示す指標であります。
数式に慣れていない人は初めて数式をみるとビビってしまうことがありますが、初学者はそんなところから始まるものです。基本は四則演算で理解できますので、トライしてみましょう。
期待値/平均についての記事はこちら
分散の計算方法
分散を]とすると、分散は以下のように定義できる
\begin{eqnarray} V[X] &=& \frac{1}{n} \left( (x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots + (x_n - \bar{x} )^2 \right) \\ &=& \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x} )^2 \end{eqnarray}
ここで、は平均を表す。
積分で分散を計算する
確率密度関数のヒストグラムをイメージするとわかりやすいかもしれない。
をサンプル数、
を階級値、
をヒストグラムの棒の高さとする、連続型確率変数の分散を求めてみる。
\begin{eqnarray} V[X] &=& \frac{1}{N} \sum_i (x_i - \bar{x})^2 f_i \\ &=& \frac{1}{N \Delta x} \sum_i (x_i - \bar{x})^2 f_i \Delta x \\ &=& \sum_i (x_i - \bar{x})^2 \frac{f_i}{N \Delta x} \Delta x \\ &=& \sum_i (x_i - \bar{x})^2 f_i^{'} \Delta x \\ \end{eqnarray}
ここで、以下のことに注意する。
(すなわち、刻み幅を0とすると)
連続型確率変数の分散の定義
\begin{eqnarray} V[X] = \int_{-\infty}^{\infty} (x - E[X])^2 f(x) dx \end{eqnarray}
となる。
また、標準偏差はこの分散にルートをとった形であるである。
分散の公式
分散の公式
\begin{eqnarray} V[X] &=& \underbrace {E[X^2]}_{2乗の平均} - \underbrace {(E[X])^2}_{平均の2乗} \\ &=& E[X^2] - \mu^2 ,{\space} (E[X] = \mu {\space}より)
\end{eqnarray}
この公式の証明をしてみよう。
上で紹介した連続型確率変数の分散の定義より、
\begin{eqnarray} V[X] &=& \int_{-\infty}^{\infty} (x -\mu)^2 f(x) dx \\ &=& \int (x^2 - 2 \mu\ x + \mu^2){\space} f(x) dx \\ &=& \int x^2 f(x) dx - 2 \mu \int x f(x) dx + \mu^2 \int f(x) dx \\ \end{eqnarray}
最後の式の第一項は]、第二項は、
= \mu] より
で、第三項は
である。
よって、
\begin{eqnarray}
&=& E[X^2] - 2 \mu^2 + \mu^2 \\
&=& E[X^2] - \mu^2
\end{eqnarray}
となり、上の公式と同じになった。
さいごに
最後まで読んでいただきありがとうございました。
何か誤値などありましたら、コメント欄にて教えていただけると幸いです。
この記事が参考になったと思う方は最後にポチッと☆+をお願いします!
参考文献
です!基本統計学は良書ですので、興味のある人はCheck It Out!!