順序応答の多項モデル
応答変数の結果は、指定可能な値が制限されたセットの 1 つになる場合もあります。性別を表す男性または女性など、可能な結果が 2 つしかない場合、これらの応答は二項反応と呼ばれます。複数の結果がある場合、これらの応答は多値応答と呼ばれます。多値応答の例として、病気の症状の程度 (軽症、中等症、重症)、都市内で人気のある居住区、特定の花の種類などがあります。応答カテゴリ間に自然な順序がある場合があります。これらの応答は、"順序応答" と呼ばれます。
この順序とは、オンライン カスタマー サービスについて満足しなかった人、満足した人、非常に満足した人など、カテゴリの選択肢に固有である場合があります。この順序は潜在的 (連続) 変数のカテゴリ化によって導入される場合もあります。たとえば、血圧などの量的な医療計測に基づき、特定の疾病の発症に関するリスクが低いグループ、中リスクのグループ、高リスクのグループに個人が属する場合などです。
応答カテゴリ間で自然な順序を使用する多項回帰モデルを指定できます。この順序モデルでは、カテゴリの累積確率と予測子変数の関係を説明します。
この関係はさまざまなリンク関数で表すことができますが、ロジットおよびプロビットが最もよく使用されます。
ロジット:
mnrfit
が順序カテゴリに使用する既定のリンク関数は "ロジット" リンク関数です。この関数では、"対数累積オッズ" をモデル化します。mnrfit
の'link','logit'
名前と値のペアでこれを指定します。対数累積オッズは、応答がカテゴリ j の P(y ≤ cj) 以下の値をもつカテゴリに属する確率と、応答がカテゴリ j の P(y >cj) を超える値をもつカテゴリに属する確率との比率を表す対数です。通常、順序モデルは、予測子変数の影響が対数スケールのすべてのカテゴリで同一であるという仮定に基づいています。つまり、このモデルでは、カテゴリ間の切片は異なりますが、勾配 (係数) が共通しています。このモデルは、"並列回帰" モデルまたは "比例オッズ" モデルと呼ばれています。これは順序応答の既定値で、
mnrfit
の'interactions','off'
名前と値のペアでこのモデルを指定します。比例オッズ モデルは以下のようになります。
ここで πj, j = 1, 2, ..., k はカテゴリの確率です。
たとえば、3 つのカテゴリがある応答変数について、次のような 3 - 1 = 2 個の方程式があるとします。
比例オッズの仮定のもとで、予測子変数 X の部分的な影響は、応答変数カテゴリ j の選択肢に対して不変です。たとえば、3 つのカテゴリが存在する場合、係数は、応答値がカテゴリ 1 とカテゴリ 2 またはカテゴリ 3 に含まれる場合とカテゴリ 1 またはカテゴリ 2 とカテゴリ 3 に含まれる場合の相対リスクまたは対数オッズに対する予測子変数の影響を比較して表します。
したがって、変数 X2 の単位変更は、他がすべて同等であることを前提に、応答値がカテゴリ 1 とカテゴリ 2 またはカテゴリ 3 に含まれる場合と、カテゴリ 1 またはカテゴリ 2 とカテゴリ 3 に含まれる場合の累積オッズの exp(β2) 倍の変更を意味します。
または、名前と値のペアの
'interactions','on'
引数を使用してカテゴリ間で異なる切片と勾配を使用するモデルをあてはめることもできます。ただし、勾配の等しいモデルが true の場合、順序モデルにこのオプションを使用すると効率が低下する可能性があります (少数のパラメーターで推定する利点が失われます)。プロビット: 名前と値のペアの引数
'link','probit'
を指定すると、正規分布の潜在的変数が存在するという仮定に基づく "プロビット" リンク関数が使用されます。順序応答変数の場合、これは "順序 probit" モデルとも呼ばれます。順序プロセスの潜在的変数 y* と予測子変数 X のベクトルの関係を説明する回帰モデルについて考えます。ここで、誤差項 ε は標準正規分布に従います。潜在的変数 y* と観測された変数 y との間に次の関係があるとします。
ここで、α0 = – ∞ および αk = ∞ です。この場合、y がカテゴリ j、つまり前述のカテゴリの 1 つ P(y ≤ cj) に含まれる累積確率は次と等しくなります。
ここで、Φ は標準正規累積分布関数です。したがって、次のようになります。
ここで、αj は潜在的変数の切り取り点および回帰モデルの切片に対応します。これは、正規の潜在的変数と並列回帰の仮定にのみ基づいています。さらに一般的には、k カテゴリと複数の予測子をもつ応答変数の場合、順序 probit モデルは次のようになります。
ここでは次のようになります。P(y ≤ cj) = π1 + π2 + ... + πj。
係数は、状態の尤度に関して、予測子変数での単位変更の影響を示します。たとえば、正の係数 β1 は、対応する予測子変数 X1 の増加により、基になる潜在的変数の増加を示します。したがって、この場合は P(y ≤ c1) が減少し、P(y ≤ ck) が増加します。
mnrfit
を使用してモデル係数を推定した後に、mnrval
と名前と値のペアのオプション 'type','cumulative'
を使用して、各カテゴリの累積確率または累積数を推定することができます。mnrval
では係数推定値と、mnrfit
が返すモデルの統計量を受け入れ、カテゴリカル確率および各カテゴリの数とその信頼区間を推定します。名前と値のペアの引数 'type'
の値を変更して、推定するカテゴリまたは条件付きの確率あるいは数を指定できます。
参照
[1] McCullagh, P., and J. A. Nelder. Generalized Linear Models. New York: Chapman & Hall, 1990.
[2] Long, J. S. Regression Models for Categorical and Limited Dependent Variables. Sage Publications, 1997.
[3] Dobson, A. J., and A. G. Barnett. An Introduction to Generalized Linear Models. Chapman and Hall/CRC. Taylor & Francis Group, 2008.
参考
fitglm
| mnrfit
| mnrval
| glmfit
| glmval