データ クリーナー
列方向データの前処理と整理
データ クリーナー アプリを開く
MATLAB ツールストリップ: [アプリ] タブの [MATLAB] で、[データ クリーナー] アイコン
をクリックします。
MATLAB コマンド ウィンドウ:「
dataCleaner
」と入力します。
例
パラメーター
欠損データの削除インジケーターの選択
— 欠損として扱う値
標準インジケーターのみを使用
| 非標準のインジケーターの指定
以下の値のいずれかを選択して、欠損値インジケーターを指定します。
インジケーター | インジケーター パラメーター | 説明 |
---|---|---|
標準インジケーターのみを使用 | 該当なし | 標準インジケーターのみを使用して欠損値を検出します。 標準の欠損値はデータ型によって異なります。
|
非標準のインジケーターの指定 | Indicators | 単一引用符内に、欠損として扱う非標準インジケーター値をコンマ区切りでリストします。例: '–99, "N/A" ' |
クリーニング メソッド
— 欠損データを処理するメソッド
欠損を埋める
| 欠損の削除
以下のメソッドの値のいずれか、および必要に応じて追加のメソッド パラメーターを選択して、欠損データを処理する方法を指定します。
メソッド | メソッド パラメーター | 説明 |
---|---|---|
欠損を埋める | Max gap to fill | 欠損値を埋めます。この指定値よりも大きいデータのギャップは埋められません (正のスカラー)。Fill method パラメーターを参照してください。 |
Units | 欠損値を埋めます。ギャップ サイズの単位のタイプを指定します。 | |
欠損の削除 | 該当なし | 欠損エントリが入っているデータ行を削除します。 |
埋め込みメソッド
— 欠損データを置き換えるメソッド
定数値
| 前の値
| 次の値
| ...
以下のメソッドの値のいずれか、および必要に応じて追加のメソッド パラメーターを選択して、欠損データを埋める方法を指定します。
メソッド | メソッド パラメーター | 説明 |
---|---|---|
定数値 | Constant value | 定数スカラー値を使用します。 |
前の値 | 該当なし | 前の非欠損値を使用します。 |
次の値 | 該当なし | 次の非欠損値を使用します。 |
最も近い値 | 該当なし | 最も近い非欠損値を使用します。 |
線形内挿 | 該当なし | 隣接する非欠損値の線形内挿を使用します。 |
スプライン内挿 | 該当なし | 区分的 3 次スプライン内挿を使用します。 |
形状保持 3 次内挿 (PCHIP) | 該当なし | 形状維持区分的 3 次スプライン内挿を使用します。 |
修正 Akima 3 次内挿 | 該当なし | 修正 Akima 3 次エルミート内挿を使用します。 |
移動中央値 | Moving window type | 現在の要素について移動ウィンドウをセンタリングするか、非対称的に配置します。 |
Window length | 移動ウィンドウの長さを指定します (正のスカラー)。 | |
Right half window length (移動ウィンドウのタイプが [非対称] の場合) | 現在の要素の後のウィンドウ単位の数を指定して、ウィンドウの配置を定義します (正のスカラー)。 | |
Units | 移動ウィンドウ単位のタイプを指定します。 | |
移動平均値 | Moving window type | 現在の要素について移動ウィンドウをセンタリングするか、非対称的に配置します。 |
Window length | 移動ウィンドウの長さを指定します (正のスカラー)。 | |
Right half window length (移動ウィンドウのタイプが [非対称] の場合) | 現在の要素の後のウィンドウ単位の数を指定して、ウィンドウの配置を定義します (正のスカラー)。 | |
Units | 移動ウィンドウ単位のタイプを指定します。 |
クリーニング メソッド
— 外れ値データを処理するメソッド
外れ値の埋め込み
| 外れ値の削除
以下のメソッドの値のいずれかを選択して、外れ値データを処理する方法を指定します。
メソッド | 説明 |
---|---|
外れ値の埋め込み | 外れ値を埋めます。Fill method パラメーターを参照してください。 |
外れ値の削除 | 外れ値が入っているデータ行を削除します。 |
埋め込みメソッド
— 外れ値データを置き換えるメソッド
定数値
| 中心値
| しきい値までクリップ
| ...
以下のメソッドの値のいずれかを選択して、外れ値データを置き換える埋め込みメソッドを指定します。
メソッド | 説明 |
---|---|
定数値 | 指定した定数スカラー値を使用します。 |
中心値 | find メソッドで求めた中心値を使用します。 |
しきい値までクリップ | find メソッドで求めた下限しきい値よりも小さい要素の下限しきい値を使用します。find メソッドで求めた上限しきい値よりも大きい要素の上限しきい値を使用します。 |
前の値 | 前の非外れ値を使用します。 |
次の値 | 次の非外れ値を使用します。 |
最も近い値 | 最も近い非外れ値を使用します。 |
線形内挿 | 隣接する非外れ値の線形内挿を使用します。 |
スプライン内挿 | 区分的 3 次スプライン内挿を使用します。 |
形状保持 3 次内挿 (PCHIP) | 形状維持区分的 3 次スプライン内挿を使用します。 |
修正 Akima 3 次内挿 | 修正 Akima 3 次エルミート内挿を使用します。 |
検出メソッド
— 外れ値データを特定するメソッド
中央値
| 平均値
| 四分位数
| ...
以下のメソッドの値のいずれか、および追加のメソッド パラメーターを選択して、外れ値データを特定する検出メソッドを指定します。
メソッド | メソッド パラメーター | 説明 |
---|---|---|
中央値 | Threshold factor | 外れ値は、スケーリングされた中央絶対偏差 (MAD) の指定したしきい値を超えて中央値から離れている要素と定義されます。入力データ A の場合、スケーリングされた MAD は c*median(abs(A-median(A))) と定義されます。ここで、c=-1/(sqrt(2)*erfcinv(3/2)) です。 |
平均値 | Threshold factor | 外れ値は、標準偏差の指定したしきい値を超えて平均値から離れている要素と定義されます。このメソッドは [中央値] より高速ですが、ロバスト性は低下します。 |
四分位数 | Threshold factor | 外れ値は、上位四分位数 (75%) から上に、または下位四分位数 (25%) から下に、四分位範囲の指定したしきい値を超えて離れている要素と定義されます。このメソッドは、入力データが正規分布でない場合に便利です。 |
Grubbs | Threshold factor | 外れ値の検出にグラブス検定を使用します。これにより、仮説検定に基づいて反復ごとに 1 つの外れ値が除去されます。このメソッドは、入力データが正規分布していることを前提としています。 |
一般化極値スチューデント化偏差 (GESD) | Threshold factor | 外れ値に対して一般化 ESD 検定を使用して、外れ値を検出します。この反復メソッドは [Grubbs] に似ていますが、複数の外れ値が相互にマスキングしている場合に、より効果的に機能します。 |
移動中央値 | Threshold factor | 外れ値は、指定したウィンドウでの局所中央値から、スケーリングされた局所 MAD の指定したしきい値を超えて離れている要素と定義されます。 |
Moving window type | 現在の要素について移動ウィンドウをセンタリングするか、非対称的に配置します。 | |
Window length | 移動ウィンドウの長さを指定します (正のスカラー)。 | |
Right half window length (移動ウィンドウのタイプが [非対称] の場合) | 現在の要素の後のウィンドウ単位の数を指定して、ウィンドウの配置を定義します (正のスカラー)。 | |
Units | 移動ウィンドウ単位のタイプを指定します。 | |
移動平均値 | Threshold factor | 外れ値は、指定したウィンドウでの局所平均値から、局所標準偏差の指定したしきい値を超えて離れている要素と定義されます。 |
Moving window type | 現在の要素について移動ウィンドウをセンタリングするか、非対称的に配置します。 | |
Window length | 移動ウィンドウの長さを指定します (正のスカラー)。 | |
Right half window length (移動ウィンドウのタイプが [非対称] の場合) | 現在の要素の後のウィンドウ単位の数を指定して、ウィンドウの配置を定義します (正のスカラー)。 | |
Units | 移動ウィンドウ単位のタイプを指定します。 | |
百分位数 | Lower threshold | 外れ値は、上限および下限しきい値により指定される百分位数範囲外の要素として定義されます。 |
Upper threshold | 外れ値は、上限および下限しきい値により指定される百分位数範囲外の要素として定義されます。 |
正規化メソッド
— データを正規化するメソッド
Z スコア
| ノルム
| 範囲
| ...
以下のメソッドの値のいずれか、および必要に応じて追加のメソッド パラメーターを選択して、データを正規化するメソッドを指定します。
メソッド | メソッド パラメーター | 説明 |
---|---|---|
Z スコア | Z-score type |
|
ノルム | P-Norm | p ノルム (正のスカラー、または無限大ノルムの場合 Inf ) でデータをスケーリング。 |
範囲 | Left limit | 左と右の範囲制限のあるデータの範囲を [a b] の形式の区間 (ただし、a < b ) に再スケーリング。 |
Right limit | 左と右の範囲制限のあるデータの範囲を [a b] の形式の区間 (ただし、a < b ) に再スケーリング。 | |
中央値 IQR | 該当なし | 中央値が 0、四分位数間範囲が 1 となるようにデータをセンタリングおよびスケーリング。 |
Center | Center Type |
|
スケール | Scale type |
|
センタリングとスケーリング | Center Type |
|
Scale type |
|
平滑化法
— ノイズの多いデータを平滑化するメソッド
移動平均値
| 移動中央値
| ガウス フィルター
| ...
以下のメソッドの値のいずれかを選択して、ノイズの多いデータの平滑化メソッドを指定します。
メソッド | 説明 |
---|---|
移動平均値 | 移動平均値を使用します。この方法は、データの周期的なトレンドを低減するのに便利です。 |
移動中央値 | 移動中央値を使用します。この方法は、外れ値が存在する場合にデータの周期的なトレンドを低減するのに便利です。 |
ガウス フィルター | ガウス加重移動平均値を使用します。 |
局所線形回帰 (Lowess) | 線形回帰を使用します。この方法は計算量の多くなる場合がありますが、不連続点は少なくなります。 |
局所二次回帰 (Loess) | 2 次回帰を使用します。この方法は局所線形回帰より計算量がやや多くなります。 |
ロバストな Lowess | ロバスト線形回帰を使用します。この方法は、計算量の多い局所線形回帰のバージョンですが、外れ値に対してよりロバストになります。 |
ロバストな Loess | ロバスト 2 次回帰を使用します。この方法は、計算量の多い局所二次回帰のバージョンですが、外れ値に対してよりロバストになります。 |
Savitzky-Golay 多項式フィルター | Savitzky-Golay 多項式フィルターを使用します。指定された多項式の次数に従って平滑化し、各ウィンドウで近似します。この方法は、データが急速に変動する場合に他の方法より効果的です。 |
平滑化パラメーター
— データ平滑化のオプション
平滑化係数
| 移動ウィンドウ
以下のパラメーターの値のいずれか、および追加のパラメーター オプションを選択して、データ平滑化のオプションを指定します。
パラメーター | パラメーター オプション | 説明 |
---|---|---|
平滑化係数 | Smoothing factor | 平滑化の量 (正のスカラー) を指定します。 |
移動ウィンドウ | Moving window type | 現在の要素について移動ウィンドウをセンタリングするか、非対称的に配置します。 |
Window length | 移動ウィンドウの長さを指定します (正のスカラー)。 | |
Right half window length (移動ウィンドウのタイプが [非対称] の場合) | 現在の要素の後のウィンドウ単位の数を指定して、ウィンドウの配置を定義します (正のスカラー)。 | |
Units | 移動ウィンドウ単位のタイプを指定します。 |
選択方法
— 行時間を指定する方法
タイム ステップ
| サンプル レート
以下のメソッドの値のいずれか、および追加のメソッド パラメーターを選択して、時間再調整された行時間の選択方法を指定します。
メソッド | メソッド パラメーター | 説明 |
---|---|---|
タイム ステップ | Time step | 出力テーブル内の連続する等間隔の行時間の間の時間の長さを指定します (正のスカラー)。 |
Time step units | タイム ステップの単位を指定します。 | |
サンプル レート | Sample rate | 時間単位あたりの出力テーブル内のサンプル数を指定します (正のスカラー)。 |
Sample rate units | サンプル レートの単位を指定します。 |
メソッド
— 時間再調整のメソッド
欠損値で埋める
| 定数で埋める
| 前の値で埋める
| ...
以下のメソッドの値のいずれかを選択して、時間再調整メソッドを指定します。
メソッド | 説明 |
---|---|
欠損値で埋める | 欠損データ インジケーター (たとえば数値変数の場合は NaN ) を使用します。 |
定数で埋める | 指定された定数値を使用します。既定値は 0 です。 |
前の値で埋める | 行時間のベクトルの末尾から開始して、入力 timetable 内で先行する最近傍からデータをコピーします。重複する行時間がある場合、重複の最後のものを使用します。 |
次の値で埋める | 行時間のベクトルの先頭から開始して、入力 timetable 内で後続の最近傍からデータをコピーします。重複する行時間がある場合、重複の最初のものを使用します。 |
最も近い値で埋める | 入力 timetable の最近傍からデータをコピーします。 |
線形内挿 | 線形内挿を使用します。 |
スプライン内挿 | 区分的 3 次スプライン内挿を使用します。 |
形状保持 3 次内挿 (PCHIP) | 形状維持区分的 3 次内挿を使用します。 |
修正 Akima 3 次内挿 | 修正 Akima 3 次エルミート内挿を使用します。 |
総和 | 各時間ビン内の値の合計を使用します。 |
平均値 | 各時間ビン内の平均値を使用します。 |
積 | 各時間ビン内の値の積を使用します。 |
最小値 | 各時間ビン内の最小値を使用します。 |
最大値 | 各時間ビン内の最大値を使用します。 |
値の数 | 各時間ビン内の値の数を使用します。 |
ビンの最初の値 | 各時間ビン内の最初の値を使用します。 |
ビンの最後の値 | 各時間ビン内の最後の値を使用します。 |
カスタム | 関数ハンドルによって指定された関数を使用します。 |
スタックする変数
— 結合する変数
table 変数
結合する 1 つ以上の table 変数を選択します。
新しい table 変数の名前
— 新しい table 変数の名前が格納される変数
table 変数
新しい table 変数の名前が格納される table 変数を選択します。
新しい table 変数の値
— 複数の変数にスタック解除する変数
table 変数
複数の table 変数にスタック解除する table 変数を選択します。
グループ化
— 行のグループを定義する変数
table 変数
行のグループを定義する 1 つ以上の table 変数を選択します。
新しい table 変数値の集計
— データ値を単一値に集計する関数
総和
| 平均値
| 中央値
| ...
以下の値のいずれかを選択して、データ値を単一値に集計する関数を指定します。
関数 | 説明 |
---|---|
総和 | 各値グループの合計を使用します。 |
平均値 | 各値グループの平均値を使用します。 |
中央値 | 各値グループの中央値を使用します。 |
最頻値 | 各値グループの最頻値を使用します。 |
最大値 | 各値グループの最大値を使用します。 |
最小値 | 各値グループの最小値を使用します。 |
First | 各値グループの最初の値を使用します。 |
固有 | 各値グループ内の固有の値の数を使用します。 |
カウント | 各値グループ内の値の数を使用します。 |
カスタム | 関数ハンドルによって指定された関数を使用します。 |
ヒント
データ変数で対話的に並べ替えるには、[データ] タブの変数ヘッダー内の矢印
をクリックして、並べ替えオプションにアクセスします。[クリーニング ステップ] パネルに並べ替えがステップとして表示されます。
データの変数を対話的に名前変更するには、[変数] パネル内の変数名をダブルクリックします。[クリーニング ステップ] パネルに名前変更がステップとして表示されます。
データから変数を対話的に削除するには、[変数] パネル内の変数名を右クリックし、[削除] を選択します。[クリーニング ステップ] パネルに削除がステップとして表示されます。
前に実行したクリーニング ステップを変更するには、次のいずれかの操作を実行します。
[クリーニング ステップ] パネルで特定のステップをクリックして、クリーニング パラメーターを表示または編集する。
[クリーニング ステップ] パネルで特定のステップを新しい場所にドラッグして、クリーニング ステップが実行される順序を変更する。
[クリーニング ステップ] パネルで特定のクリーニング ステップをクリアするか、特定のステップを右クリックして [下のステップを無効にする] を選択して、クリーニング ステップを無効にする。
入力データまたはクリーニングされたデータのみを表示するには、[可視化] タブでプロットの凡例内の要素を選択またはクリアします。