disparateImpactRemover
説明
バイナリ分類の公平性を確立するために、関数 disparateImpactRemover を使用してセンシティブ属性による差異の影響を除去または軽減できます。モデルに学習させる前に、センシティブ属性を使用して学習データ セット内の連続予測子を変換します。変換されたデータ セットと変換が格納された disparateImpactRemover オブジェクトが関数から返されます。変換されたデータ セットを fitcsvm などの適切な学習関数に渡し、オブジェクトをオブジェクト関数 transform に渡して、テスト データ セットなどの新しいデータ セットに変換を適用します。
メモ
テスト データなどの新しいデータは、モデルに学習させた後に disparateImpactRemover を使用して変換しなければなりません。そうしないと、予測結果が不正確になります。
作成
構文
説明
は、table remover = disparateImpactRemover(Tbl,AttributeName)Tbl 内のセンシティブ属性 AttributeName による差異の影響をデータ セット Tbl 内の連続予測子を変換することで除去します。返される disparateImpactRemover オブジェクト (remover) には、新しいデータに適用できる変換が格納されます。詳細については、アルゴリズムを参照してください。
[ は、remover,transformedData] = disparateImpactRemover(Tbl,AttributeName)Tbl のデータに対応する変換後の予測子データ transformedData も返します。
この構文では、transformedData にセンシティブ属性が含まれることに注意してください。disparateImpactRemover を使用した後は、モデルに学習させるときにセンシティブ属性を個別の予測子として使用しないようにしてください。
[ は、数値予測子データ remover,transformedData] = disparateImpactRemover(X,attribute)X と attribute で指定されたセンシティブ属性を使用して予測子を変換します。
[ では、前の構文におけるいずれかの入力引数の組み合わせに加えて、1 つ以上の名前と値の引数を使用してオプションを指定します。たとえば、名前と値の引数 remover,transformedData] = disparateImpactRemover(___,Name=Value)RepairFraction を使用してデータ変換の範囲を指定できます。値 1 は完全な変換を示し、値 0 は変換なしを示します。
入力引数
名前と値の引数
出力引数
プロパティ
オブジェクト関数
transform | 新しい予測子データを変換して差異の影響を除去 |
例
詳細
ヒント
アルゴリズム
disparateImpactRemover は、Tbl または X の連続予測子を次のように変換します。
センシティブ属性のグループを使用して予測子の値を分割します。それぞれのグループ g について、関数
quantileを使用して予測子の値の分位数 q を計算します。分位数 q は、100 か、センシティブ属性の全グループで観測値が最も少ないグループの観測値数の、いずれか小さい方になります。関数discretizeを使用して、対応するビン化関数 Fg を作成します。分位数の値がビンのエッジとして使用されます。次に、センシティブ属性の全グループの分位数の中央値を求め、関連する分位数関数 Fm-1 を形成します。この計算では欠損値 (
NaN) は省略されます。最後に、変換 λFm-1(Fg(x)) + (1 – λ)x を使用して、センシティブ属性のグループ g の予測子の値 x を変換します。ここで、λ は修復率
RepairFractionです。予測子の欠損値 (NaN) は保持されます。
新しい予測子データに適用できる変換が関数によって格納されます。
詳細については、[1]を参照してください。
参照
[1] Feldman, Michael, Sorelle A. Friedler, John Moeller, Carlos Scheidegger, and Suresh Venkatasubramanian. “Certifying and Removing Disparate Impact.” In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 259–68. Sydney NSW Australia: ACM, 2015. https://doi.org/10.1145/2783258.2783311.
バージョン履歴
R2022b で導入



