回帰分析の特徴を数式で確認する

用語 記号 意味
データ数 n 回帰分析をするにあたり測定したサンプルの数
測定値 $x_i,y_i$ サンプルの測定の結果、得られたi番目のデータ
予測値 $\hat{y_i}$ サンプルから導かれた回帰直線の式によって、$x_i$から計算された$y_i$の値
平均 $\bar{x},\bar{y}$ 平均 $\bar{x}=\sum x_i / n$、$\bar{y}=\sum y_i / n$で計算
傾き $\hat{\beta}$ 回帰分析によって導かれた回帰直線の式の傾き
切片 $\hat{\alpha}$ 回帰分析によって導かれた回帰直線の式の傾き $x_i$が0のときの$y_i$の値
残差 $e_i$ 測定値$y_i$と予測値$\hat{y_i}$の差 
残差平方和 $S(\hat{\alpha}, \hat{\beta})$ 残差の2乗を合計した値。英語でSSR(sum of squared residuals)と表現するのでSの文字を使う。
回帰係数 $\alpha,\beta$ 回帰直線に式を表す切片と傾き

回帰分析の前提

回帰分析では一次式$y=\alpha+\beta x$を想定しており、説明変数を$x_i$、目的変数を$y_i$として、回帰係数である傾きの予測値を$\hat{\beta}$、切片の予測値を$\hat{\alpha}$とします。このため、回帰直線の式は次のとおりになります。

$\hat{y_i}=\hat{\alpha}+\hat{\beta}x_i$

しかし、測定値と予測値の間で残差が生じるのはやむをえないので、残差を次の通り定義します。

$e_i=y_i-\hat{y_i}=y_i−(\hat{\alpha}+\hat{\beta}x_i)=y_i−\hat{\alpha} -\hat{\beta}x_i$

回帰係数を計算するため、残差の2乗をあらわす関数$S(\hat{\alpha},\hat{\beta})$を次の通り定義します。

$S(\hat{\alpha},\hat{\beta})=\displaystyle\sum_{i=1}^n{e_i}^2=\sum_{i=1}^n(y_i-\hat{y_i})^2=\sum_{i=1}^n\{(y_i-\hat{\alpha}-\hat{\beta}x_i)^2\}$

$S(\hat{\alpha},\hat{\beta})$を最小にするため、$\hat{\alpha},\hat{\beta}$について偏微分した式が0となるような連立方程式を立てます。

$\displaystyle\frac{\partial S}{\partial\hat{\alpha}}=-2\sum_{i=1}^n(y_i-\hat{\alpha}-\hat{\beta}x_i)=0$
$\displaystyle\frac{\partial S}{\partial\hat{\beta}}=-2\sum_{i=1}^n(y_i-\hat{\alpha}-\hat{\beta}x_i)x_i=0$

この式を整理すると次の通りになります。なお、以下、見やすさのためΣのi,nの表記を省略します。また、式の中で$y_i-\hat{\alpha}-\hat{\beta}x_i=e_i$となることに注目してください。結局、最小二乗法は$\sum e_i=0$、$\sum e_ix_i=0$となるような$\hat{\alpha} $、$\hat{\beta}$を求めることと同じことになります。

$\sum(y_i-\hat{\alpha}-\hat{\beta}x_i)=\sum e_i=0$
$\sum(y_i-\hat{\alpha}-\hat{\beta}x_i)x_i=\sum e_ix_i=0$

次に、$\sum\hat{\alpha}=n\hat{\alpha}$、$\hat{\beta}\sum x_i=\sum\hat{\beta}x_i$なので、式は次の通り変形することができます。

$\sum(y_i-\hat{\alpha}-\hat{\beta}x_i)=\sum y_i-\sum\hat{\alpha}-\sum\hat{\beta}x_i=\sum y_i-n\hat{\alpha}-\hat{\beta}\sum x_i=0$
$n\hat{\alpha}=\sum y_i-\hat{\beta}\sum x_i$

この式の両辺をnで割ると、$\bar{y}=\sum y_i/n,\bar{x}=\sum x_i/n$であることから$\hat{\alpha}$は次の式で計算されます。

$\hat{\alpha}=\bar{y}-\beta \bar{x}$

回帰分析の特徴

ここから、回帰分析の特徴を確認します。

予測値の平均と測定値の平均が等しい。

$y$の測定値$y_i$は、$y$の予測値$\hat{y_i}$に残差$e_i$を加えた値になります。これらを合計すると、残差の合計$\sum e_i=0$なので、$y$の測定値$y_i$と$y$の予測値$\hat{y}$の一つ一つは異なっていても合計は等しくなります。このため、両辺をデータ数nで割って平均を求めると、予測値の平均と測定値の平均が等しいことがわかります。

$y_i=\hat{y_i}+e_i$
$\sum y_i=\sum\hat{y_i}+\sum e_i= \sum\hat{y_i}$
$\bar{y_i}=\bar{\hat{y_i}}$

回帰直線は$x$と$y$の平均値の座標、点($\bar{x}$,$\bar{y}$)を通る。

$\hat{\alpha}=\bar{y}-\beta \bar{x}$を$y=\hat{\alpha}+\hat{\beta}x$に代入します。

$y=\hat{\alpha}+\hat{\beta} x=(\bar{y}-\hat{\beta} \bar{x})+\hat{\beta} x=\bar{y}+\hat{\beta}(x-\bar{x})$

このことから式に$x=\bar{x}$を代入すると、$y=\bar{y}$になるので回帰直線は点($\bar{x}$,$\bar{y}$)を通ることがわかります。

$x$とeの共分散=0

$x$と$e$の共分散を求めると次の通り0になります。なお、この式を導くために、$\sum e_i=0$、$\bar{e}=\frac{1}{n}\sum e_i=0$、$\sum x_i e_i=0$であることを使います。

$\displaystyle s_{xe}=\frac{1}{n} \sum (x_{i}-\bar{x})(e_{i}-\bar{e})=\frac{1}{n} \sum (x_{i}-\bar{x})e_{i}=\frac{1}{n}(\sum x_i e_i-\bar{x}\sum e_i) $
$\bar{e}=\sum e_i=\sum x_i e_i=0$

$y$の予測値$\hat{y}$と$e$の共分散=0

$\hat{y}$とeの共分散を求めると次の通り0になります。

$\displaystyle s_{\hat{y} e}=\frac{1}{n} \sum\left(\hat{y}_{i}-\bar{y}\right)\left(e_{i}-\bar{e}\right)$
$\displaystyle =\frac{1}{n}\sum\left(\hat{y}_{i}-\bar{y}\right)e_{i}$
$\displaystyle =\frac{1}{n}\sum\left((\hat{\alpha}+\hat{\beta}x_i)-(\hat{\alpha}+\hat{\beta}\bar{x})\right)\left(e_{i}-\bar{e}\right)$
$\displaystyle =\frac{1}{n} \sum \hat{\beta}\left(x_{i}-\bar{x}\right)(e_{i}-\bar{e})$
$\displaystyle =\frac{1}{n}\hat{\beta}(\sum x_{i}e_{i}-\bar{x}\sum e_i)=0$

$y$の分散=回帰による平方和+残差平方和

次の通り計算できます。

$\displaystyle\sum\left(y_{i}-\bar{y}\right)^{2}$
$ =\displaystyle\sum\left\{\left(y_{i}-\hat{y}_{i}\right)+\left(\hat{y}_{i}-\bar{y}\right)\right\}^{2} $
$=\displaystyle\sum\left(y_{i}-\hat{y}_{i}\right)^{2}+\sum\left(\hat{y}_{i}-\bar{y}\right)^{2}+2 \sum\left(y_{i}-\hat{y}_{i}\right)\left(\hat{y}_{i}-\bar{y}\right)$
$=\displaystyle\sum\left(y_{i}-\hat{y}_{i}\right)^{2}+\sum\left(\hat{y}_{i}-\bar{y}\right)^{2}$

このうち、最後の第3項は\hat{y}とeの共分散が0であることから0になります。