回帰分析の特徴を数式で確認する

回帰分析の前提

回帰分析で使うデータを整理します。

用語	記号	意味
データ数	n	回帰分析をするにあたり測定したサンプルの数
測定値	$x_i$	サンプルの測定の結果、得られたi番目のデータ
予測値	$\hat{y_i}$	サンプルから導かれた回帰直線の式によって、$x_i$から計算された$y_i$の値
平均	$\bar{x},\bar{y}$	平均　$\bar{x}=\sum x_i / n$、$\bar{y}=\sum y_i / n$で計算
傾き	$\hat{\beta}$	回帰分析によって導かれた回帰直線の式の傾き
切片	$\hat{\alpha}$	回帰分析によって導かれた回帰直線の式の傾き $x_i$が0のときの$y_i$の値
回帰係数	$\alpha,\beta$	回帰直線に式を表す切片と傾き
残差	$e_i$	測定値$y_i$と予測値$\hat{y_i}$の差
残差平方和	$S(\hat{\alpha}, \hat{\beta})$	残差の2乗を合計した値。英語でSSR（sum of squared residuals）と表現するのでSの文字を使う。

回帰分析では一次式$y=\alpha+\beta x$を想定しており、説明変数を$x_i$、目的変数を$y_i$として、回帰係数である傾きの予測値を$\hat{\beta}$、切片の予測値を$\hat{\alpha}$とします。このため、回帰直線の式は次のとおりになります。

$\hat{y_i}=\hat{\alpha}+\hat{\beta}x_i$

しかし、測定値と予測値の間で残差が生じるのはやむをえないので、残差を次の通り定義します。

$e_i=y_i-\hat{y_i}=y_i−(\hat{\alpha}+\hat{\beta}x_i)=y_i−\hat{\alpha} -\hat{\beta}x_i$

回帰係数を計算するため、残差の2乗をあらわす残差平方和$S(\hat{\alpha},\hat{\beta})$を次の通り定義します。

$S(\hat{\alpha},\hat{\beta})=\displaystyle\sum_{i=1}^n{e_i}^2=\sum_{i=1}^n(y_i-\hat{y_i})^2=\sum_{i=1}^n\{(y_i-\hat{\alpha}-\hat{\beta}x_i)^2\}$

$S(\hat{\alpha},\hat{\beta})$を最小にするため、$\hat{\alpha},\hat{\beta}$について偏微分した式が0となるような連立方程式を立てます。

$\displaystyle\frac{\partial S}{\partial\hat{\alpha}}=-2\sum_{i=1}^n(y_i-\hat{\alpha}-\hat{\beta}x_i)=0$

$\displaystyle\frac{\partial S}{\partial\hat{\beta}}=-2\sum_{i=1}^n(y_i-\hat{\alpha}-\hat{\beta}x_i)x_i=0$

この式を整理すると次の通りになります。なお、以下、見やすさのためΣのi,nの表記を省略します。また、式の中で$y_i-\hat{\alpha}-\hat{\beta}x_i=e_i$となることに注目してください。結局、最小二乗法は$\sum e_i=0$、$\sum e_ix_i=0$となるような$\hat{\alpha} $、$\hat{\beta}$を求めることと同じことになります。

$\sum(y_i-\hat{\alpha}-\hat{\beta}x_i)=\sum e_i=0$

$\sum(y_i-\hat{\alpha}-\hat{\beta}x_i)x_i=\sum e_ix_i=0$

次に、$\sum\hat{\alpha}=n\hat{\alpha}$、$\hat{\beta}\sum x_i=\sum\hat{\beta}x_i$なので、式は次の通り変形することができます。

$\sum(y_i-\hat{\alpha}-\hat{\beta}x_i)=\sum y_i-\sum\hat{\alpha}-\sum\hat{\beta}x_i=\sum y_i-n\hat{\alpha}-\hat{\beta}\sum x_i=0$

$n\hat{\alpha}=\sum y_i-\hat{\beta}\sum x_i$

この式の両辺をnで割ると、$\bar{y}=\sum y_i/n,\bar{x}=\sum x_i/n$であることから$\hat{\alpha}$は次の式で計算されます。

$\hat{\alpha}=\bar{y}-\hat{\beta} \bar{x}$

回帰分析の特徴

ここから、回帰分析の特徴を確認します。

予測値の平均と測定値の平均が等しい。

$y$の測定値$y_i$は、$y$の予測値$\hat{y_i}$に残差$e_i$を加えた値になります。これらを合計すると、残差の合計$\sum e_i=0$なので、$y$の測定値$y_i$と$y$の予測値$\hat{y}$の一つ一つは異なっていても合計は等しくなります。このため、両辺をデータ数nで割って平均を求めると、予測値の平均と測定値の平均が等しいことがわかります。

$y_i=\hat{y_i}+e_i$

$\sum y_i=\sum\hat{y_i}+\sum e_i= \sum\hat{y_i}$

$\bar{y_i}=\bar{\hat{y_i}}$

回帰直線は$x$と$y$の平均値の座標、点($\bar{x}$,$\bar{y}$）を通る。

$\hat{\alpha}=\bar{y}-\hat{\beta} \bar{x}$を$y=\hat{\alpha}+\hat{\beta}x$に代入します。

$y=\hat{\alpha}+\hat{\beta} x=(\bar{y}-\hat{\beta} \bar{x})+\hat{\beta} x=\bar{y}+\hat{\beta}(x-\bar{x})$

このことから式に$x=\bar{x}$を代入すると、$y=\bar{y}$になるので回帰直線は点($\bar{x}$,$\bar{y}$）を通ることがわかります。

$x$とeの共分散=0

$x$と$e$の共分散を求めると次の通り０になります。なお、この式を導くために、$\sum e_i=0$、$\bar{e}=\frac{1}{n}\sum e_i=0$、$\sum x_i e_i=0$であることを使います。

$\displaystyle s_{xe}=\frac{1}{n} \sum (x_{i}-\bar{x})(e_{i}-\bar{e})=\frac{1}{n} \sum (x_{i}-\bar{x})e_{i}=\frac{1}{n}(\sum x_i e_i-\bar{x}\sum e_i) $

$\bar{e}=\sum e_i=\sum x_i e_i=0$

$y$の予測値$\hat{ｙ}$と$e$の共分散=0

$\hat{ｙ}$と$e$の共分散を求めると次の通り０になります。

$\displaystyle s_{\hat{y} e}=\frac{1}{n} \sum\left(\hat{y}_{i}-\bar{y}\right)\left(e_{i}-\bar{e}\right)$

$\displaystyle =\frac{1}{n}\sum\left(\hat{y}_{i}-\bar{y}\right)e_{i}$

$\displaystyle =\frac{1}{n}\sum\left((\hat{\alpha}+\hat{\beta}x_i)-(\hat{\alpha}+\hat{\beta}\bar{x})\right)\left(e_{i}-\bar{e}\right)$

$\displaystyle =\frac{1}{n} \sum \hat{\beta}\left(x_{i}-\bar{x}\right)(e_{i}-\bar{e})$

$\displaystyle =\frac{1}{n}\hat{\beta}(\sum x_{i}e_{i}-\bar{x}\sum e_i)=0$

$ｙ$の分散＝回帰による平方和＋残差平方和

次の通り計算できます。

$\displaystyle\sum\left(y_{i}-\bar{y}\right)^{2}$

$ =\displaystyle\sum\left\{\left(y_{i}-\hat{y}_{i}\right)+\left(\hat{y}_{i}-\bar{y}\right)\right\}^{2} $

$=\displaystyle\sum\left(y_{i}-\hat{y}_{i}\right)^{2}+\sum\left(\hat{y}_{i}-\bar{y}\right)^{2}+2 \sum\left(y_{i}-\hat{y}_{i}\right)\left(\hat{y}_{i}-\bar{y}\right)$

$=\displaystyle\sum\left(y_{i}-\hat{y}_{i}\right)^{2}+\sum\left(\hat{y}_{i}-\bar{y}\right)^{2}$

このうち、最後の第3項は$\hat{y}$と$e$の共分散が0であることから0になります。