回帰分析の特徴を数式で確認する
回帰分析の前提
回帰分析で使うデータを整理します。
用語 | 記号 | 意味 |
---|---|---|
データ数 | n | 回帰分析をするにあたり測定したサンプルの数 |
測定値 | $x_i$ | サンプルの測定の結果、得られたi番目のデータ |
予測値 | $\hat{y_i}$ | サンプルから導かれた回帰直線の式によって、$x_i$から計算された$y_i$の値 |
平均 | $\bar{x},\bar{y}$ | 平均 $\bar{x}=\sum x_i / n$、$\bar{y}=\sum y_i / n$で計算 |
傾き | $\hat{\beta}$ | 回帰分析によって導かれた回帰直線の式の傾き |
切片 | $\hat{\alpha}$ | 回帰分析によって導かれた回帰直線の式の傾き $x_i$が0のときの$y_i$の値 |
回帰係数 | $\alpha,\beta$ | 回帰直線に式を表す切片と傾き |
残差 | $e_i$ | 測定値$y_i$と予測値$\hat{y_i}$の差 |
残差平方和 | $S(\hat{\alpha}, \hat{\beta})$ | 残差の2乗を合計した値。英語でSSR(sum of squared residuals)と表現するのでSの文字を使う。 |
回帰分析では一次式$y=\alpha+\beta x$を想定しており、説明変数を$x_i$、目的変数を$y_i$として、回帰係数である傾きの予測値を$\hat{\beta}$、切片の予測値を$\hat{\alpha}$とします。このため、回帰直線の式は次のとおりになります。
しかし、測定値と予測値の間で残差が生じるのはやむをえないので、残差を次の通り定義します。
回帰係数を計算するため、残差の2乗をあらわす残差平方和$S(\hat{\alpha},\hat{\beta})$を次の通り定義します。
$S(\hat{\alpha},\hat{\beta})$を最小にするため、$\hat{\alpha},\hat{\beta}$について偏微分した式が0となるような連立方程式を立てます。
この式を整理すると次の通りになります。なお、以下、見やすさのためΣのi,nの表記を省略します。また、式の中で$y_i-\hat{\alpha}-\hat{\beta}x_i=e_i$となることに注目してください。結局、最小二乗法は$\sum e_i=0$、$\sum e_ix_i=0$となるような$\hat{\alpha} $、$\hat{\beta}$を求めることと同じことになります。
次に、$\sum\hat{\alpha}=n\hat{\alpha}$、$\hat{\beta}\sum x_i=\sum\hat{\beta}x_i$なので、式は次の通り変形することができます。
この式の両辺をnで割ると、$\bar{y}=\sum y_i/n,\bar{x}=\sum x_i/n$であることから$\hat{\alpha}$は次の式で計算されます。
回帰分析の特徴
ここから、回帰分析の特徴を確認します。
予測値の平均と測定値の平均が等しい。
$y$の測定値$y_i$は、$y$の予測値$\hat{y_i}$に残差$e_i$を加えた値になります。これらを合計すると、残差の合計$\sum e_i=0$なので、$y$の測定値$y_i$と$y$の予測値$\hat{y}$の一つ一つは異なっていても合計は等しくなります。このため、両辺をデータ数nで割って平均を求めると、予測値の平均と測定値の平均が等しいことがわかります。
回帰直線は$x$と$y$の平均値の座標、点($\bar{x}$,$\bar{y}$)を通る。
$\hat{\alpha}=\bar{y}-\hat{\beta} \bar{x}$を$y=\hat{\alpha}+\hat{\beta}x$に代入します。
このことから式に$x=\bar{x}$を代入すると、$y=\bar{y}$になるので回帰直線は点($\bar{x}$,$\bar{y}$)を通ることがわかります。
$x$とeの共分散=0
$x$と$e$の共分散を求めると次の通り0になります。なお、この式を導くために、$\sum e_i=0$、$\bar{e}=\frac{1}{n}\sum e_i=0$、$\sum x_i e_i=0$であることを使います。
$y$の予測値$\hat{y}$と$e$の共分散=0
$\hat{y}$と$e$の共分散を求めると次の通り0になります。
$y$の分散=回帰による平方和+残差平方和
次の通り計算できます。
このうち、最後の第3項は$\hat{y}$と$e$の共分散が0であることから0になります。