分散と共分散の簡易な計算方法を数学的に導く

分散と共分散の簡便法による計算方法の手順をみてきました。ここでは、なぜ簡便法で正しい数値が計算できるのか掘り下げます。

分散

まず、分散、共分散について、次の用語を使います。

用語 記号 意味
データ数 $n$ 確率変数$x,y$のデータの数
変数x,yの平均 $\bar{x}$ $\bar{y}$ 説明変数$x$と被説明変数$y$の平均
偏差平方和 $T_{xx}$ $T_{yy}$ 変数が全体としてどれくらいばらついているか
分散 $S_{xx}$ $S_{yy}$ データ1つあたりのばらつき度合い 偏差平方和/データの個数で計算
標準偏差 $S_{x}$ $S_{y}$ 分散の平方根。記号では添え字$x$,$y$の数が分散より少ない

分散の定義通りの式と簡便法は次にように数式化できます。一見すると、全く違う数式に見えますが、実は全く同じ計算をしています。前にもみたように、簡便法の方が簡単に計算することができます。

分散の定義通りの計算

$\displaystyle分散=(x-xの平均)^2の合計=\sum_{i=1}^n{(x_i - \bar{x})^2}$

分散の簡便法による計算

$\displaystyle分散=x^2の合計-\frac{1}{n}(xの合計)^2=x^2の合計-n(xの平均)^2$
$\displaystyle=\sum_{i=1}^n{x_i^2}-\frac{1}{n}\left(\sum_{i=1}^n{x_i}\right)^2=\sum_{i=1}^n{x_i^2}-n\bar{x}^2$

それでは、なぜそうなるのかを数式を使って確認します。

簡便法で正しく分散の計算ができるできる理由

$\displaystyle T_{xx}= \sum_{i=1}^n(x_i-\bar{x})^2\tag{1}$
$\displaystyle = \sum_{i=1}^n({x_i}^2-2x_i\bar{x} +\bar{x}^2)\tag{2}$
$\displaystyle = \sum_{i=1}^n{x_i}^2-\sum_{i=1}^n2x_i\bar{x}+\sum_{i=1}^n\bar{x}^2\tag{3}$
$\displaystyle =\sum_{i=1}^n{x_i}^2-2\bar{x}\sum_{i=1}^nx_i+n\bar{x}^2\tag{4}$
$\displaystyle = \sum_{i=1}^n{x_i}^2-2n\bar{x}\bar{x}+n\bar{x}^2\tag{5}$
$\displaystyle = \sum_{i=1}^n{x_i}^2-n\bar{x}^2\tag{6}$
$\displaystyle =\sum_{i=1}^n{x_i}^2-\frac{1}{n}(\sum_{i=1}^n{x_i})^2\tag{7}$

(3)には3つの$\sum$がありますが、(4)を計算するにあたり2つめの$\sum$では、$2\bar{x}$は定数なので$\sum$の外に出すことができます。同様に、3つ目の$\sum$では、$\bar{x}$:平均の2乗は定数で、これを1からnまで足し上げていくだけなので$n\bar{x}$と書くことができます。

また、(4)から(5)を計算するにあたり、2つ目の$\sum$の項で$\sum x_i$は$x_i$の合計なので、$n\bar{x}$:データ個数×平均と書くことができます。2つ目と3つ目の$\sum$が$n\bar{x}$でくくることができるのが興味深いところです。

最後に念のため、分散と標準偏差の計算の式を示しておきます。

$\displaystyle S_{xx}=\frac{T_{xx}}{n}\quad S_{x}=\sqrt{\mathstrut S_{xx}}$

共分散

共分散も同様に簡便法により、計算を楽にすることができます。

共分散の定義通りの計算

$積和=(x-xの平均)(y-yの平均)=\displaystyle \sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})$

共分散の簡便法による計算

$\displaystyle積和=x×y-\frac{1}{n}×xの合計×yの合計=$
$=\displaystyle\sum_{i=1}^nx_iy_i-\frac{1}{n}\left(\sum_{i=1}^n{x_i}\right)\left(\sum_{i=1}^n{y_i}\right)=\sum_{i=1}^nx_iy_i-n\bar{x} \bar{y}$

簡便法により共分散が計算できることは、次の通り導くことができます。

共分散が簡便法で計算できる理由

$\displaystyle T_{xy}=\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})\tag{1}$
$\displaystyle=\sum_{i=1}^n(x_iy_i-x_i\bar{y}-y_i\bar{x} +\bar{x}\bar{y})\tag{2}$
$\displaystyle=\sum_{i=1}^n{x_i}y_i-\bar{y}\sum_{i=1}^nx_i-\bar{x}\sum_{i=1}^ny_i+n\bar{x}\bar{y}\tag{3}$
$\displaystyle=\sum_{i=1}^n{x_i}y_i-\frac{1}{n}\sum_{i=1}^ny_i\sum_{i=1}^nx_i-\frac{1}{n}\sum_{i=1}^nx_i\sum_{i=1}^ny_i+n\frac{1}{n}\sum_{i=1}^nx_i\frac{1}{n}\sum_{i=1}^ny_i\tag{4}$
$\displaystyle=\sum_{i=1}^nx_iy_i-\frac{1}{n}\left(\sum_{i=1}^n{x_i}\right)\left(\sum_{i=1}^n{y_i}\right)\tag{5}$

定義による計算方法と簡便法は別の式に見えますが、数式で確認すると確かに等しいことがわかります。

最後に念のため、共分散の計算式を示しておきます。

$\displaystyle S_{xy}=\frac{T_{xy}}{n}$

まとめ

今はパソコンで分散、共分散は簡単に計算できるので、あえて簡便法を取り上げる必要はないと思われるかもしれません。ところが、今後、回帰分析のいろいろな手法について数式を使って証明するときに、分散や共分散を簡便法でとらえる方がうまくいく場合が多くあります。その意味では簡便法についても知っておくことは有意義であると考えられます。例えば、回帰直線の式の計算方法を考える場合にも、簡便法が大活躍します。