分散と共分散の考え方と計算の手順

回帰分析において、避けて通れないことばとして、分散、共分散があります。とりわけ、共分散についてはイメージがつかみづらいので、実例を挙げながら深堀りしてみます。

分散と標準偏差

はじめに分散について振り返ります。例としてA,B2つのグループ各5人にテストを行い、得点が次の通りであったとします。比較するうえで、全体で均してみてどれくらいの得点という平均だけでなく、全体で均してみてどれくらい平均からはばらついているかを示す分散、標準偏差を計算する必要があります。分散、標準偏差は次の手順で計算します。

簡単な分散の計算
簡単な分散の計算

 得点の合計と平均を計算
 得点と平均の差である偏差を計算。偏差の合計が0になることを確認してください。
 ばらつきの大きさを測るため偏差の2乗を計算。偏差は合計すると0になるので、2乗した数字を合計することによりばらつきの度合いを測ることができるため
 3を合計して偏差平方和を計算
 偏差平方和を人数で割り、1人あたりのばらつきの度合いである分散を計算
 分散の平方根である標準偏差を計算。3で2乗したものをもとに戻すため

この結果、AグループとBグループの得点を比較すると、平均はいずれも3で同じですが、分散はAグループが2、Bグループが0.4となり、前者のばらつきが大きいことがわかります。

共分散の計算

共分散は広告件数と新規顧客数のように2つの量の関係を測ります。$x$と$y$の各データにつき偏差(値$-$平均)の積を計算し、合計したものを積和といいます。さらに、積和をデータの個数nで割って共分散を求めます。

共分散の計算
共分散の計算
 $x$と$y$の平均を求めます。
 $x$と$y$のデータにつき偏差を計算します。
 2で求めた偏差を合計して積和を計算します。
 積和をnで割り、共分散を計算します。

計算方法はこれだけですが、共分散は何をあらわしているのかイメージしづらい概念なので、例を挙げて詳しく見てみます。

共分散の意味

$x$が増加するに従い$y$も増加する正の相関

$x$と$y$の関係を表にします。

正の相関関係の例
正の相関関係の例

表だけではイメージがつかめないのでグラフにします。

正の相関関係のグラフ
正の相関関係のグラフ

$x$が増加するに従い、$y$も増加しています。しかも、ここでの例は4つの点がきれいに直線の上に並んでいます。このような関係を正の相関関係といい、共分散の値はプラスになります。なおかつ、共分散の値は$x$や$y$の分散と同じ大きさになっていること注目してください。

$x$が増加するに従い$y$が減少する負の相関

次に、逆の例を見てみます。

負の相関関係
負の相関関係

グラフにすると次の通りになります。

負の相関関係
負の相関関係

こんどは反対に$x$が増加するに従い、$y$が減少しています。しかも、やはり$x$と$y$がきれいに一直線に並んでいます。このような関係を負の相関関係といい、共分散は$x$や$y$の分散をマイナスした値になります。

相関がみられない場合

もう一つ、こんなケースも考えられます。

無相関
無相関

図にすると次の通りです。

無相関
無相関

回帰直線を引くにも引きようがなく、$x$と$y$の間に相関関係を見ることができません。このような場合、($x$の偏差)×($y$の偏差)は+と-が打ち消し合い、共分散は0になります。

現実的な数値

これまで非常に極端な例を挙げてきましたが、最後に少し現実的な例を挙げます。

現実的な相関関係
現実的な相関関係

グラフにすると次の通りです。

現実的な相関関係
現実的な相関関係

$x$と$y$は正の相関関係にはありますが、キレイに直線上に並んでいません。この場合には共分散はプラスになりますが、$x$や$y$の分散に比べると小さな値となっています。このことから共分散は、次のような数字であると考えられます。

共分散

$x$の分散 $×$ $y$の分散 × $x$と$y$の相関の強さ

$x$と$y$の分散が大きれば、共分散はそれにつられて大きくなります。しかし、$x$と$y$の間に相関関係が小さいと、その分だけ共分散は小さくなります。つまり共分散は、2つの量がどれくらい相関関係を持ちながらばらついているかということをあらわしています。

まとめ

分散や共分散の計算方法についてご紹介しました。ここでの計算は一度平均を求めてから、再度各データと平均との差を求めるなど複雑です。実はもっと簡易な方法で計算することができます。

共分散の考え方を使うと、回帰直線の傾きと切片(回帰係数)を簡単に計算することができます。