朝が苦手な人間が綴るブログ (限界大学院生編)

基礎こそ物の上手なれ. 人間万事塞翁が馬. を大切にしている経済学徒.

統計学における分散の説明と簡単な証明

分散(variance)とは、標準偏差と並んである一群のデータ(e.g.身長や所得)が平均値からどれだけバラついているかを示す指標であります。

数式に慣れていない人は初めて数式をみるとビビってしまうことがありますが、初学者はそんなところから始まるものです。基本は四則演算で理解できますので、トライしてみましょう。

f:id:econgrad:20180228202636j:plain

期待値/平均についての記事はこちら

econgrad.hatenablog.com

 

分散の計算方法

分散を V[X]とすると、分散は以下のように定義できる

\begin{eqnarray} V[X] &=& \frac{1}{n} \left( (x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots + (x_n - \bar{x} )^2 \right) \\ &=& \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x} )^2 \end{eqnarray}

ここで、 \bar{x}は平均を表す。

積分で分散を計算する

確率密度関数ヒストグラムをイメージするとわかりやすいかもしれない。
 Nをサンプル数、 x_iを階級値、 f_iヒストグラムの棒の高さとする、連続型確率変数の分散を求めてみる。

\begin{eqnarray} V[X] &=& \frac{1}{N} \sum_i (x_i - \bar{x})^2 f_i \\ &=& \frac{1}{N \Delta x} \sum_i (x_i - \bar{x})^2 f_i \Delta x \\ &=& \sum_i (x_i - \bar{x})^2 \frac{f_i}{N \Delta x} \Delta x \\ &=& \sum_i (x_i - \bar{x})^2 f_i^{'} \Delta x \\ \end{eqnarray}

ここで、以下のことに注意する。

  •  f_i^{'}という個々のヒストグラムの棒の高さは、 f(x)となる
  •  \Delta x \to 0だから、個々の階級の階級値は横軸の値 xとみなせる
  •  \Delta xは、積分したときの dxに対応する

 N \to \infty,{\space} \Delta x \to 0(すなわち、刻み幅を0とすると)

連続型確率変数の分散の定義
\begin{eqnarray} V[X] = \int_{-\infty}^{\infty} (x - E[X])^2 f(x) dx \end{eqnarray}

となる。

また、標準偏差はこの分散にルートをとった形である \sqrt{V(X)}である。

分散の公式

分散の公式
\begin{eqnarray} V[X] &=& \underbrace {E[X^2]}_{2乗の平均} - \underbrace {(E[X])^2}_{平均の2乗} \\ &=& E[X^2] - \mu^2 ,{\space} (E[X] = \mu {\space}より)
\end{eqnarray}

この公式の証明をしてみよう。
上で紹介した連続型確率変数の分散の定義より、

\begin{eqnarray} V[X] &=& \int_{-\infty}^{\infty} (x -\mu)^2 f(x) dx \\ &=& \int (x^2 - 2 \mu\ x + \mu^2){\space} f(x) dx \\ &=& \int x^2 f(x) dx - 2 \mu \int x f(x) dx + \mu^2 \int f(x) dx \\ \end{eqnarray}

最後の式の第一項は E[X^2]、第二項は、 E[X = \mu] より  \muで、第三項は \int f(x) dx =1である。
よって、 \begin{eqnarray} &=& E[X^2] - 2 \mu^2 + \mu^2 \\ &=& E[X^2] - \mu^2 \end{eqnarray}

となり、上の公式と同じになった。

さいごに

最後まで読んでいただきありがとうございました。
何か誤値などありましたら、コメント欄にて教えていただけると幸いです。
この記事が参考になったと思う方は最後にポチッと☆+をお願いします!

参考文献

です!基本統計学は良書ですので、興味のある人はCheck It Out!!