第 2 章
機械学習入門
一直線に進めることは稀である
機械学習においては、最初から最後まで迷わず一直線に進めることはめったにありません。常にさまざまなアイデアや方法を繰り返し試すことになるでしょう。この節では、いくつかの重要な決定ポイントに注目しつつ、機械学習の体系的なワークフローについて説明します。
実世界のデータセットは、乱雑かつ不完全で、形式もさまざまです。シンプルな数値データのみの場合もあるかもしれません。しかし、センサー信号、テキスト、カメラからのストリーミング画像など、さまざまな種類のデータを組み合わせる場合もあるでしょう。
たとえば、特徴量を抽出してオブジェクト検出アルゴリズムの学習を行うためには、画像処理の専門知識が必要です。データの種類によって必要な前処理の方法も異なります。
適切なモデルを選択するためには、バランスを取る必要があります。柔軟性が高いモデルは、データに過適合し、ノイズの可能性がある些細な差異をモデル化してしまう傾向があります。一方で、シンプルなモデルとすると、単純化の仮定が多くなり過ぎている可能性があります。モデルの実行速度、精度、複雑さは、常にトレードオフの関係にあるのです。
機械学習のワークフローは、必ず次の 3 つの点を明らかにするところから始まります。
- どのような種類のデータを扱うのか。
- そのデータから、どのような洞察を導き出したいのか。
- 導き出した洞察をどこで、どのように活用するのか。
これらの質問に対する答えが、教師あり学習と教師なし学習のどちらを使用するかを決定するのに役立ちます。
予測 (たとえば、気温や株価などの連続型変数の将来値の推定) や分類 (たとえば、Web カメラの動画に映っている自動車の型式の特定) を行うモデルの学習が必要な場合は、教師あり学習を選択します。
入力データを詳しく調べる必要がある場合や、データをクラスターに分けるなど、データの適切な内部表現を見出すモデルの学習が必要な場合は、教師なし学習を選択します。
ワークフローの概要
完全版 PDF をダウンロードすると、健康管理アプリの例を用いた詳細な手順をご覧いただけます。このワークフローはすべて MATLAB® 内で完結します。
- データにアクセスして読み込む
- データの前処理を行う
- 前処理済みデータを使用して特徴量を抽出する
- 手順 3 で抽出した特徴量を用いてモデルの学習を行う
- 最適なモデルが見つかるまで反復する
- 最適な学習済みモデルを運用システムに統合する