ノミナル応答の多項モデル
応答変数の結果は、指定可能な値が制限されたセットの 1 つになる場合もあります。質問に対する回答が yes または no であるなど、可能な結果が 2 つしかない場合、これらの応答は二項反応と呼ばれます。複数の結果がある場合、これらの応答は多値応答と呼ばれます。この例として、病気の症状の程度 (軽症、中等症、重症)、都市内で人気のある居住区などがあります。応答変数が "ノミナル" の場合は、応答変数カテゴリ間に自然な順序がありません。ノミナル応答モデルでは、観測値がカテゴリカル応答変数の各カテゴリ内含まれる確率を説明および予測します。
ノミナル応答モデルは、バイナリ ロジット モデルの自然な拡張の 1 つで、"多項ロジット" モデルとも呼ばれます。多項ロジット モデルでは、予測子変数の線形結合を使用して、観測値が特定のカテゴリに含まれる場合と基準カテゴリ k に含まれる場合の相対リスクを説明します。その結果、各結果の確率は、p 予測子変数の非線形関数として表されます。このノミナル応答の多項モデルは関数 fitmnr
で指定します。既定では、fitmnr
はカテゴリ間で異なる切片と勾配を指定し、リンク関数 logit
を使用して MultinomialRegression
モデル オブジェクトを作成します。ノミナル応答に別のリンク関数を指定することはできません。
多項ロジット モデルは次のようになります。
ここで、πj = P(y = j) は結果がカテゴリ j に含まれる確率、k は応答カテゴリの数、p は予測子変数の数です。理論上、どのカテゴリでも基準カテゴリにすることができますが、fitmnr
では最後のカテゴリ k を基準カテゴリとして選択します。したがって、fitmnr
では、k 番目のカテゴリの係数がゼロと仮定されます。合計 j – 1 件の方程式を同時に解くことで係数が推定されます。fitmnr
では、反復重み付き最小二乗アルゴリズムを使用して最尤推定を検出します。
モデルの係数は、カテゴリ j に含まれる場合と基準カテゴリ (ここでは k) に含まれる場合の相対リスクまたは対数オッズに関する予測子変数の影響を表します。たとえば、係数 β23 は、他がすべて一定であるとすると、応答変数がカテゴリ k に含まれる確率と比較されたカテゴリ 2 に含まれる確率が、X3 で単位が増えるたびに、exp(β23) 倍に増えることを示します。または、他がすべて同等であるとすると、応答変数がカテゴリ 2 に含まれる場合とカテゴリ k に含まれる場合の相対的な対数オッズは、X3 で 1 単位増加すると β23 倍に増加することを示します。
ノミナル応答モデルに基づき、最後のカテゴリの係数がゼロであると仮定すると、各カテゴリに含まれる確率は次のようになります。
k 番目のカテゴリの確率は次のようになります。
これを単純に表すと次のようになります。1 – π1 – π2 – ... – πk–1.
fitmnr
を使用して MultinomialRegression
モデル オブジェクトを作成してモデル係数を推定した後、predict
を使用してカテゴリ確率を推定できます。この関数は、fitmnr
で返される MultinomialRegression
モデル オブジェクトを受け入れ、カテゴリ ラベル、カテゴリカル確率、および各カテゴリカル確率の信頼限界を推定します。predict
でカテゴリ、累積、または条件付きのいずれの確率を返すかについては、名前と値の引数 ProbabilityType
を使用して指定できます。
参照
[1] McCullagh, P., and J. A. Nelder. Generalized Linear Models. New York: Chapman & Hall, 1990.
[2] Long, J. S. Regression Models for Categorical and Limited Dependent Variables. Sage Publications, 1997.
[3] Dobson, A. J., and A. G. Barnett. An Introduction to Generalized Linear Models. Chapman and Hall/CRC. Taylor & Francis Group, 2008.
参考
fitglm
| fitmnr
| predict
| glmfit
| glmval