回帰用のデータの選択または保存したアプリセッションを開く

回帰学習器アプリの初回起動時に、データをインポートするか、前に保存したアプリセッションを開くかを選択できます。データをインポートするには、ワークスペースからのデータの選択とファイルからのデータのインポートを参照してください。保存したセッションを開くには、アプリセッションを保存して開くを参照してください。

ワークスペースからのデータの選択

ヒント

数値データとラベルデータを格納できるので、table は回帰学習器でデータを処理するための最も簡単な方法です。インポートツールを使用してデータを MATLAB^® のワークスペースに table として読み込むか、table 関数を使用してワークスペース変数から table 変数を作成します。tableを参照してください。

データを MATLAB のワークスペースに読み込みます。
予測子変数は、数値ベクトル、categorical ベクトル、string ベクトル、logical ベクトル、文字ベクトルの cell 配列、または文字配列が可能です。応答変数は浮動小数点ベクトル (単精度または倍精度) でなければなりません。
予測子データを 1 つの変数 (table または行列) に結合します。予測子データと応答変数は、結合することも、別個のままにしておくこともできます。
データセットの例については、回帰のサンプルデータを参照してください。
[アプリ] タブの [回帰学習器] をクリックしてアプリを開きます。
[学習] タブの [ファイル] セクションで、[新規セッション]、[ワークスペースから] をクリックします。
[ワークスペースからの新規セッション] ダイアログボックスの [データセット変数] で、table または行列をワークスペース変数から選択します。
行列を選択した場合は、オプションのボタンをクリックすることにより、行と列のどちらを観測値として使用するか選択します。
[応答] で、既定の応答変数を観測します。このアプリでは、データセット変数から適切な応答変数を選択し、他のすべての変数を予測子として扱おうとします。
異なる応答変数を使用する場合は次のようにします。
- リストを使用して、データセット変数から別の変数を選択します。
- [ワークスペースから] オプションボタンをクリックして個別のワークスペース変数を選択した後、リストから変数を選択します。
[予測子] でチェックボックスを使用して予測子を追加または削除します。すべての予測子を追加または削除するには、[すべて追加] または [すべて削除] をクリックします。table 内の予測子を選択してから [N の追加] または [N の削除] をクリックすることにより、複数の予測子を追加または削除することもできます。ここで N は選択した予測子の個数です。複数の予測子を選択すると、[すべて追加] ボタンおよび [すべて削除] ボタンは [N の追加] および [N の削除] に変化します。
既定の検証方式をそのまま使用して続行するため、[セッションの開始] をクリックします。既定の検証オプションは 5 分割交差検証であるため、過適合が防止されます。
ヒント
データセットが大きい場合は、ホールドアウト検証に切り替えることが考えられます。詳細については、検証方式の選択を参照してください。

メモ

データをアプリにコマンドラインから直接読み込む場合は、回帰学習器で使用する予測子データ、応答変数、および検証タイプをコマンドラインの regressionLearner の呼び出しで指定できます。詳細については、回帰学習器を参照してください。

以後の手順については、回帰学習器アプリにより回帰モデルに学習をさせるを参照してください。

ファイルからのデータのインポート

[学習] タブの [ファイル] セクションで、[新規セッション] 、 [ファイルから] を選択します。
スプレッドシート、テキストファイル、コンマ区切り値 (.csv) などのファイルタイプをリストから選択するか、[すべてのファイル] を選択して .dat など他のファイルタイプを参照します。

回帰のサンプルデータ

はじめて回帰学習器を使用する場合は、以下のサンプルデータセットを試してください。

名前	サイズ	説明
自動車	予測子の数: 7 観測値の数: 406 応答: `MPG` (ガロンあたりの走行マイル数)	1970 ～ 1982 年のさまざまな自動車モデルに関するデータ。燃費 (ガロンあたりの走行マイル数単位) または他のいずれかの特性を予測します。詳しい手順の例については、回帰学習器アプリを使用して回帰木に学習をさせるを参照してください。
自動車	`carbig` データセットの変数から table を作成します。 load carbig cartable = table(Acceleration,Cylinders,Displacement, ... Horsepower,Model_Year,Weight,Origin,MPG);
病院	予測子の数: 5 観測値の数: 100 応答: `Diastolic`	シミュレートされた病院のデータ。患者の拡張期血圧を予測します。
病院	`patients` データセットの変数から table を作成します。 load patients hospitaltable = table(Gender,Age,Weight,Smoker,Systolic, ... Diastolic);

その他のデータセットの例については、Statistics and Machine Learning Toolbox のサンプルデータセットおよびMATLAB のサンプルデータセットを参照してください。

検証方式の選択

当てはめたモデルの予測精度を確認するための検証方式を選択します。検証を行うと、新しいデータに対するモデルの性能が推定されるので、最適なモデルの選択に役立ちます。検証を行うと過適合を防止できます。柔軟すぎて過適合になるモデルでは、検証精度が低下します。モデルに学習をさせる前に検証方式を選択すると、同じ検証方式を使用してセッション内のすべてのモデルを比較できます。

ヒント

既定の検証方式を選択し、[セッションの開始] をクリックして続行してください。既定のオプションは、過適合を防ぐ 5 分割の交差検証です。

データセットが大規模で、交差検証を使用するとモデルの学習に時間がかかりすぎる場合は、データを再インポートして、より高速なホールドアウト検証を代わりに試してください。

テスト用に確保されたデータがない (既定で true) と仮定します。

交差検証: データセットの分割数を選択します。
分割数として k を選択すると、次の処理が行われます。
1. データを k 個の互いに素な集合に分割する。
2. 各検証分割について
  1. 学習分割観測値 (検証分割外の観測値) を使用してモデルを学習させる
  2. 検証分割データを使用してモデルの性能を評価する
3. すべての分割について平均の検証誤差を計算する
このようにすると、データセット全体を使用して学習をさせた最終的なモデルの予測精度を適切に推定できます。複数の当てはめが必要ですが、すべてのデータを効率的に使用するので、小規模なデータセットに適しています。
ホールドアウト検証: 検証セットとして使用するデータのパーセンテージを選択します。このアプリでは、学習セットをモデルに学習させ、検証セットで性能を評価します。検証用のモデルは一部のデータのみに基づいているので、ホールドアウト検証は大規模なデータセットのみに適しています。最終的なモデルの学習には、データセット全体が使用されます。
再代入検証: 過適合の防止が行われません。すべてのデータが学習に使用され、同じデータについて誤差率が計算されます。検証データを別途用意しないと、新しいデータに対するモデルの性能の推定が非現実的になります。つまり、学習標本の精度が非現実的に高くなり、予測精度が低くなると考えられます。
学習データに対する過適合を回避するには、別の検証方式を選択してください。

メモ

検証スキームは、回帰学習器による検証メトリックの計算方法にのみ影響を与えます。最終的なモデルの学習には、常にテスト用に確保されたデータを除くデータセット全体が使用されます。

このダイアログボックスで選択した検証方式は、データの選択後に学習をさせるすべてのモデルで使用されます。同じ検証方式を使用して、セッション内のすべてのモデルを比較できます。

もう一度データを選択すると、検証方式の選択を変更して新しいモデルを学習させることができますが、学習済みのモデルは失われます。データをインポートすると新しいセッションが始まることが警告されます。保持する必要がある学習済みのモデルをワークスペースに保存してからデータをインポートしてください。

モデルに学習をさせる次のステップについては、回帰学習器アプリにより回帰モデルに学習をさせるを参照してください。

(オプション) テスト用のデータの確保

回帰学習器にデータをインポートするときに、一定の割合のデータをテスト用に確保するように指定できます。[新規セッション] ダイアログボックスの [テスト] セクションで、[テストデータセットの確保] チェックボックスをクリックします。テストセットとして使用するインポートデータの割合を指定します。必要に応じて、アプリセッションを開始した後に別のテストデータセットをインポートすることもできます。

テストセットを使用して、学習済みモデルの性能を評価できます。特に、新しいデータにおけるモデルの性能が検証メトリクスで適切に推定されるかどうかを確認できます。詳細については、テストセットにおけるモデルの性能の評価を参照してください。たとえば、回帰学習器アプリのハイパーパラメーターの最適化を使用した回帰モデルの学習を参照してください。

メモ

アプリによるモデルの学習にテストデータは使用されません。アプリからエクスポートされるモデルは、テスト用に確保されたデータを除く学習データと検証データ全体で学習させたものです。

アプリセッションを保存して開く

回帰学習器で、現在のアプリセッションを保存し、前に保存したアプリセッションを開くことができます。

現在のアプリセッションを保存するには、[学習] タブの [ファイル] セクションで [保存] をクリックします。現在のセッションを最初に保存するときに、セッションファイルの名前と場所を指定する必要があります。[セッションの保存] オプションでは現在のセッションが保存され、[セッションに名前を付けて保存] オプションでは現在のセッションが新しいファイルに保存されます。[コンパクトなセッションに名前を付けて保存] オプションでは、現在のアプリセッションのコンパクトなバージョンが保存され、保存されるセッションのファイルサイズが小さくなります。[コンパクトなセッションに名前を付けて保存] オプションでは、現在のセッションのすべての学習済みモデルから学習データが完全に削除されることに注意してください。
保存したアプリセッションを開くには、[ファイル] セクションで [開く] をクリックします。[開くファイルを選択] ダイアログボックスで、開く保存済みセッションを選択します。