第 4 章
教師あり学習の適用
どんな時に教師あり学習を検討するべきか
教師あり学習アルゴリズムは、既知の入力データセット (学習用データセット) と、そのデータに対する既知の応答 (出力) を利用してモデルの学習を行い、新たな入力データに対する応答としてモデルが合理的な予測を導き出せるようにします。予測しようとする事象について、既存の応答 (出力) データがある場合は、教師あり学習を使用します。
教師あり学習はすべて、分類または回帰の形態をとります。
分類手法では、離散的な応答を予測します。たとえば、電子メールが本物のメールかスパムメールか、腫瘍の大きさが大・中・小のどれに当てはまるか、といった場合です。分類モデルの学習は、データをカテゴリに分類するために行われます。用途としては、医用画像処理、音声認識、信用スコアリングなどが挙げられます。
回帰手法では、連続的な応答を予測します。たとえば、温度変化や電力需要の変動などを予測する場合に使用します。用途としては、株価予測、手書き文字認識、音響信号処理などが挙げられます。
適切なアルゴリズムの選択
第 1 章でご覧いただいたように、機械学習アルゴリズムの選択は試行錯誤のプロセスです。また、それぞれのアルゴリズムが持つ以下のような特徴の間でトレードオフを探る過程でもあります。
- 学習速度
- メモリ使用量
- 新しいデータに対する予測精度
- 透明性または解釈可能性 (アルゴリズムが予測を行う理由をどれだけ簡単に理解できるか)
一般的な分類アルゴリズム
ロジスティック回帰
仕組み
一方のクラスに属するのか、もう一方のクラスに属するのかという二項応答の確率を予測できるモデルを当てはめます。ロジスティック回帰はシンプルなので、ニ項分類の問題に取り組む際に最初によく用いられます。最適な用途
- データを単一の線形境界によって明確に区分できる場合
- より複雑な分類方法を評価するための基準として
k 最近傍法 (kNN)
仕組み
kNN は、データセット内の最近傍点のクラスに基づいてオブジェクトをカテゴリ化します。kNN による予測では、互いに距離が近い対象物同士は類似していると仮定しています。ユークリッド距離、市街地距離、コサイン距離、チェビシェフ距離などの距離測度を用いて最近傍点を見つけます。最適な用途
- ベンチマークとなる学習規則を確立するために、シンプルなアルゴリズムが必要な場合
- 学習済みモデルのメモリ使用量があまり問題にならない場合
- 学習済みモデルの予測速度があまり問題にならない場合
サポートベクターマシン (SVM)
仕組み
すべてのデータ点をあるクラスと別のクラスとに分ける線形の決定境界 (超平面) を特定することによってデータを分類します。データが線形分離可能な場合、SVM に最適な超平面は 2 つのクラス間のマージンが最大となるものです。データが線形分離できない場合は、損失関数を用いて、超平面の間違った側にある点にペナルティを与えます。SVMでは、カーネル変換を用いて、非線形分離可能なデータをより高次元に変換することにより、線形の決定境界を見つけることもあります。最適な用途
- 完全に 2 つのクラスに分かれるデータの場合 (誤り訂正出力符号と呼ばれる手法を用いることで、マルチクラス分類にも使用できます)
- 高次元の非線形分離可能なデータの場合
- シンプルで解釈しやすく、精度の高い分類器が必要な場合
ニューラル ネットワーク
仕組み
人間の脳にヒントを得たニューラル ネットワークは、互いに密接に結びついたニューロンのネットワークから成り、このネットワークを介することで、入力データを望ましい出力へと関連づけます。ニューロン間の結びつきの強さを繰り返し修正することによってネットワークの学習が行われ、与えられた入力データに対して正しい応答を出力するようになります。最適な用途
- 高い非線形性をもつシステムをモデル化する場合
- 利用できるデータが増加していく場合で、モデルを絶えずアップデートしたい場合
- 入力データに予期せぬ変化が生じる可能性がある場合
- モデルの解釈可能性がそれほど重要でない場合
単純ベイズ
仕組み
単純ベイズ分類器では、1 つのクラス内において特定の特徴量がその他の特徴量とは無関係であるものと仮定します。新しいデータを分類する場合には、いくつかのクラスのうち所属の確率が最も高いクラスへ分類します。最適な用途
- 多くのパラメーターを含む小さなデータセットの場合
- 解釈しやすい分類器が必要な場合
- 学習用データには含まれていなかったシナリオにモデルが遭遇する場合 (多くの金融や医療における用途が当てはまります)
判別分析
仕組み
判別分析は、特徴量の線形結合を見つけることによって、データを分類します。判別分析では、さまざまなクラスがガウス分布に基づいてデータを生成すると仮定しています。判別分析モデルの学習には、各クラスのガウス分布のパラメータを見つけることも含まれます。その分布パラメータを用いて、境界 (線形関数または二次関数) を計算します。これらの境界を使用して、新しいデータのクラスを決定します。最適な用途
- 解釈が容易でシンプルなモデルが必要な場合
- 学習中のメモリ使用量が問題になる場合
- 予測速度が速いモデルが必要な場合
決定木
仕組み
決定木は、木に沿ってルートノード (開始点) から葉ノードまでの決定をたどることで、データに対する応答を予測します。決定木は分岐条件によって構成され、その各分岐において、学習によって決定された重みに照らして予測子の値を比較します。分岐の数と重みの値は、学習プロセスにおいて決定されます。モデルを簡略化するために、さらなる修正 (枝刈り) が行われる場合もあります。最適な用途
- 解釈が容易で、短時間で適用できるアルゴリズムが必要な場合
- メモリ使用量を最小化したい場合
- 高い予測精度が必須でない場合
バギングされた決定木とブースティングされた決定木
仕組み
これらのアンサンブル学習法では、いくつかの "より弱い" 決定木を組み合わせ、1 つの ”より強い” アンサンブルを作成します。バギングされた決定木は、入力データからブートストラップ法で生成されたデータセットを使って、個別に学習をさせた複数の決定木から構成されます。
ブースティングには、弱学習器を繰り返し追加したり、誤分類された例に注目してそれぞれの弱学習器の重みを調整したりすることで、強学習器として構成することが含まれます。
最適な用途
- 予測子がカテゴリ化できる (離散的な) 場合、または、予測子の挙動が非線形的な場合
- モデルの学習に必要な時間があまり問題にならない場合
一般的な回帰アルゴリズム
線形回帰
仕組み
線形回帰は、連続的な応答変数を 1 つ以上の予測子変数の線形関数として表現するために用いる統計的モデリング手法です。線形回帰モデルは解釈が簡単で学習させやすいため、新たなデータセットに適用する最初のモデルとしてよく用いられます。最適な用途
- 解釈が容易で、短時間で適用できるアルゴリズムが必要な場合
- より複雑な他の回帰モデルを評価するための基準として
非線形回帰
仕組み
非線形回帰は、実験データの非線形な関係を表現する上で役立つ統計的モデリング手法です。非線形回帰モデルは通常パラメトリックであると想定され、非線形方程式で表されます。“非線形” とは、近似関数がパラメータの非線形関数であるることを指しています。たとえば、近似パラメーターが b0、b1、および b2 である場合、方程式 y = b0+b1x+b2x2 は近似パラメーターの線形関数であるのに対し、y = (b0xb1)/(x+b2) は近似パラメーターの非線形関数です。
最適な用途
- データに強い非線形傾向があり、線形空間に簡単に変換できない場合
- カスタムモデルをデータに当てはめる場合
ガウス過程回帰モデル
仕組み
ガウス過程回帰 (GPR) モデルは、連続的な応答変数の値を予測するために用いるノンパラメトリックモデルです。空間分析の分野において、不確かさが存在する場合の内挿方法として広く用いられています。GPR はクリギングとも呼ばれます。最適な用途
- 地下水の分布に関する水文地質学的なデータなど、空間データを内挿する場合
- 自動車エンジンなど、複雑な設計の最適化を促進するサロゲートモデルとして
SVM 回帰
仕組み
SVM 回帰アルゴリズムは、SVM 分類アルゴリズムに似ていますが、連続的な応答を予測できるように改変されています。データを区分する超平面を特定する代わりに、SVM 回帰アルゴリズムは、(誤差に対する感度を最小化するため) 可能な限り小さなパラメータ値を用いて測定データからの逸脱が小さい (ある小さな値を上回らない) モデルを見つけます。最適な用途
- 高次元データ (予測子変数が多数存在する場合)
一般化線形モデル
仕組み
一般化線形モデルは、線形手法を使用する非線形モデルの特殊なケースです。これには、入力の線形結合を出力の非線形関数 (リンク関数) に当てはめることも含まれます。最適な用途
- 常に正であることが想定される応答変数など、応答変数に非正規分布がある場合
回帰木
仕組み
回帰のための決定木は、分類のための決定木に似ていますが、連続的な応答を予測できるように改変されています。最適な用途
- 予測子がカテゴリ化できる (離散的な) 場合、または、予測子の挙動が非線形的な場合
おすすめする次のステップ
Web サイトの選択
Web サイトを選択すると、翻訳されたコンテンツにアクセスし、地域のイベントやサービスを確認できます。現在の位置情報に基づき、次のサイトの選択を推奨します:
また、以下のリストから Web サイトを選択することもできます。
最適なサイトパフォーマンスの取得方法
中国のサイト (中国語または英語) を選択することで、最適なサイトパフォーマンスが得られます。その他の国の MathWorks のサイトは、お客様の地域からのアクセスが最適化されていません。
南北アメリカ
- América Latina (Español)
- Canada (English)
- United States (English)
ヨーロッパ
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)