第 1 章

機械学習入門


より多くのデータ、もっと多くの質問、そして、より良い回答

機械学習のさまざまなアルゴリズムは、データに潜む自然なパターンを見つけ出し、そこから洞察を導き、あなたがよりよい意思決定や未来予測をするのを助けてくれます。これらは、医療診断、株式取引、エネルギー需要予測など、さまざまな場面での重要な意思決定に日々使用されています。音楽・動画配信サイトでは、何百万もの選択肢の中から個々のユーザーに合った曲や映画を推薦するために機械学習はなくてはならないものになっています。小売業者も顧客の購買行動を深く理解するために機械学習を活用しています。

自動車および製造業での予知保全

金融工学での信用スコアリングおよびアルゴリズム取引

画像処理およびコンピューター ビジョンでの顔認識とオブジェクト検出

情報生命科学での腫瘍検出、創薬、DNA シーケンシング

エネルギー生産での価格および電力需要予測

自然言語処理

実世界の用途:

ビデオの長さ 3:51

機械学習のしくみ

機械学習には、2 種類の手法があります。ひとつは「教師あり学習」で、すでにある入出力データを用いてモデルを訓練し、将来の出力を予測できるようにします。もうひとつは「教師なし学習」と呼ばれ、入力データに内在する隠れたパターンや固有の構造を発見するものです。

分類手法では、電子メールが迷惑メールか否か、腫瘍ががんか良性かといった離散的な応答を予測します。分類モデルは、入力データを複数のカテゴリーに分類します。典型的な用途としては、画像診断、音声認識、信用スコアリングなどが挙げられます

回帰手法では、温度変化や電力需要の変動など、連続的な応答を予測します。典型的な用途としては、電力需要予測やアルゴリズム取引などが挙げられます。

教師なし学習は、データに内在する隠れたパターンや固有の構造を見いだすものです。ラベル付けされた応答を持たない一連の入力データから推論を導き出すために用いられます。

クラスタリングは、最も一般的な教師なし学習の手法です。これは、探索的データ分析により、データ内の隠れたパターンやグループ構造を発見するために用いるものです。

クラスタリングの用途には、遺伝子配列解析、市場調査、オブジェクト認識などがあります。

使用するアルゴリズムの決定方法

適切なアルゴリズムを選択するのは、手に負えない難題に思えることもあります。教師あり、教師なしの機械学習アルゴリズムは何十種類もあり、学習方法もそれぞれ異なるからです。最も優れた手法や、何にでも使える手法というものはありません。適切なアルゴリズムを探すには、試行錯誤に頼らざるを得ない部分があります。極めて経験豊富なデータサイエンティストでも、あるアルゴリズムがうまく機能するかどうかは、結局のところ試してみないと分からないのです。ただし、アルゴリズムの選択は、扱うデータのサイズや種類、データから導き出したい見解、その見解の活用方法によって決まってくる部分もあります。

  • サポートベクターマシン
  • 判別分析
  • 単純ベイズ
  • 最近傍法

  • 線形回帰、一般化線形モデル (GLM)
  • サポートベクター回帰 (SVR)、ガウス過程回帰 (GPR)
  • アンサンブル法
  • 決定木
  • ニューラル ネットワーク

  • K-means、K-medoids
  • ファジィ C-means
  • 階層クラスタリング
  • 混合ガウスモデル
  • ニューラル ネットワーク
  • 隠れマルコフモデル

いつ機械学習を使うべきか

大量のデータや多くの変数が関与する複雑なタスクや問題を抱えていて、それを処理するための既存の数式や方程式がないときは、機械学習の活用を検討してみてください。たとえば、以下のような状況に対処する必要がある場合、機械学習は適切な選択肢のひとつとなります。

手書きのルールや方程式が複雑すぎる (顔認識や音声認識など)。

データの性質が常に変化し続けていて、プログラムを適応させていく必要がある (自動取引、エネルギー需要予測、購買動向の予測など)。

作業ルールが絶えず変化している (取引記録からの不正検出など)。