線形回帰モデルとは

線形回帰モデルは、1 つの "従属変数" y と 1 つ以上の "独立変数" X の関係を記述します。従属変数は、"応答変数" とも呼ばれます。独立変数は、"説明変数" または "予測子変数"とも呼ばれます。連続予測子変数は、"共変量" とも呼ばれ、カテゴリカル予測子変数は "因子" とも呼ばれます。予測子変数に関する観測値の行列 X は通常 "計画行列" と呼ばれます。

多重線形回帰モデルは次のようになります。

$y_{i} = β_{0} + β_{1} X_{i 1} + β_{2} X_{i 2} + \dots + β_{p} X_{i p} + ε_{i}, i = 1, \dots, n,$

ここで、

n は、観測数です。
y_i は i 番目の応答です。
β_k は k 番目の係数で、β₀ はモデルの定数項です。計画行列には、定数項に関する情報が含まれる場合があります。ただし、fitlm または stepwiselm には既定でモデルの定数項が含まれるため、計画行列 X に 1 の列を入力しないでください。
X_ij は、j 番目の予測子変数 j = 1, ..., p の i 番目の観測値です。
ε_i は i 番目のノイズ項、つまり確率的誤差です。

モデルに含まれている予測子変数が 1 つだけ (p = 1) である場合、そのモデルは単純な線形回帰モデルと呼ばれます。

通常、線形回帰モデルは次の形式のモデルになります。

$y_{i} = β_{0} + \sum_{k = 1}^{K} β_{k} f_{k} (X_{i 1}, X_{i 2}, \dots, X_{i p}) + ε_{i}, i = 1, \dots, n,$

ここで、f(.) は独立変数 X_ij のスカラー値関数です。関数 f(X) の形式に制限はなく、非線形関数や多項式になることもあります。線形回帰モデルにおける線形性は、係数 β_k の線形性を意味します。つまり、応答変数 y は、係数 β_k の線形関数を表します。

以下に、線形モデルの例をいくつか示します。

$\begin{array}{l} y_{i} = β_{0} + β_{1} X_{i 1} + β_{2} X_{i 2} + β_{3} X_{i 3} + ε_{i} \\ y_{i} = β_{0} + β_{1} X_{i 1} + β_{2} X_{i 2} + β_{3} X_{i 1}^{3} + β_{4} X_{i 2}^{2} + ε_{i} \\ y_{i} = β_{0} + β_{1} X_{i 1} + β_{2} X_{i 2} + β_{3} X_{i 1} X_{i 2} + β_{4} \log X_{i 3} + ε_{i} \end{array}$

しかし、次のモデルは未知係数 β_k に対して線形になっていないので、線形モデルではありません。

$\begin{array}{l} \log y_{i} = β_{0} + β_{1} X_{i 1} + β_{2} X_{i 2} + ε_{i} \\ y_{i} = β_{0} + β_{1} X_{i 1} + \frac{1}{β_{2} X_{i 2}} + e^{β_{3} X_{i 1} X_{i 2}} + ε_{i} \end{array}$

線形回帰モデルの通常の仮定は以下のとおりです。

ノイズ項 ε_i は無相関です。
ノイズ項 ε_i は、平均 0 と一定分散 σ² をもつ独立した同一の正規分布となります。したがって、
$\begin{array}{l} E (y_{i}) = E (\sum_{k = 0}^{K} β_{k} f_{k} (X_{i 1}, X_{i 2}, \dots, X_{i p}) + ε_{i}) \\ = \sum_{k = 0}^{K} β_{k} f_{k} (X_{i 1}, X_{i 2}, \dots, X_{i p}) + E (ε_{i}) \\ = \sum_{k = 0}^{K} β_{k} f_{k} (X_{i 1}, X_{i 2}, \dots, X_{i p}) \end{array}$
および
$V (y_{i}) = V (\sum_{k = 0}^{K} β_{k} f_{k} (X_{i 1}, X_{i 2}, \dots, X_{i p}) + ε_{i}) = V (ε_{i}) = σ^{2}$
y_i の分散は、X_ij のすべてのレベルで同じになります。
応答 y_i は無相関です。

当てはめた線形関数は次のようになります。

${\hat{y}}_{i} = \sum_{k = 0}^{K} b_{k} f_{k} (X_{i 1}, X_{i 2}, \dots, X_{i p}), i = 1, \dots, n,$

ここで、 ${\hat{y}}_{i}$ は推定応答、b_k は当てはめた係数です。係数は、予測ベクトル $\hat{y}$ と真の応答ベクトル $y$ の平均二乗誤差、つまり $\hat{y} - y$ が最小になるように推定されます。この方法は、"最小二乗法" と呼ばれます。ノイズ項に関する仮定のもとでは、これらの係数もまた予測ベクトルの尤度を最大化します。

y = β₁X₁ + β₂X₂ + ... + β_pX_p という形式の線形回帰モデルにおいて、他の予測子変数がすべて一定である場合、係数 β_k は予測子変数 X_j における 1 単位の変化が応答値の平均 E(y) に与える影響を表します。係数の符号は影響の方向を示します。たとえば、線形モデルが E(y) = 1.8 – 2.35X₁ + X₂ の場合、–2.35 は、X₂ が一定であることを前提に、X₁ で 1 単位増加すると平均応答値が 2.35 単位減少することを示します。モデルが E(y) = 1.1 + 1.5X₁² + X₂ の場合、X₁² の係数は、他がすべて一定であることを前提に、X₁² で 1 単位増加すると Y の平均値が 1.5 単位増加することを示します。ただし、E(y) = 1.1 + 2.1X₁ + 1.5X₁² の場合は、係数を同様に解釈することが難しくなります。これは、X₁² が変更された場合 X₁ を一定にすることができなくなるためです (またはその逆の場合もあります)。

参照

[1] Neter, J., M. H. Kutner, C. J. Nachtsheim, and W. Wasserman. Applied Linear Statistical Models. IRWIN, The McGraw-Hill Companies, Inc., 1996.

[2] Seber, G. A. F. Linear Regression Analysis. Wiley Series in Probability and Mathematical Statistics. John Wiley and Sons, Inc., 1977.

参考

LinearModel | fitlm | stepwiselm

線形回帰モデルとは

参照

参考

トピック