Main Content

診断特徴デザイナーでの特徴ヒストグラムの解釈

効果的な特徴とは、異なる状態変数ラベルをもつデータ グループを明確に分離する特徴です。診断特徴デザイナーはさまざまな特徴のオプションを提供しますが、最も効果的な特徴はデータと、データが表すシステムおよび状態によって異なります。

特徴がどの程度効果的かの予備評価を行うために、特徴ヒストグラムを評価することができます。ヒストグラム プロットは、ラベル付けされたグループ間の分離を可視化します。これを行うため、ヒストグラムはデータの分布をビンに分け、色を使って各ビン内のラベル グループを識別します。ヒストグラムをカスタマイズして可視化を改善し、関心のある特徴での情報を強調表示することができます。グループ分布間の分離に関する数値情報を表示することもできます。

ヒストグラムによって、特徴の有効度を早期に把握することができます。専用の統計的手法を使用してより厳密な定量的評価を行うには、診断特徴デザイナーを使用したアンサンブル データの調査と特徴の比較の「特徴のランク付け」で説明されているように、ランク付けを使用します。特徴のランク付けの計算は、ヒストグラム解析の間に行う可視化の選択とは独立しています。

次の図では分離が可視化されています。これらの例は比較的サンプル サイズが小さく、違いが誇張されています。

どちらのプロットでも、2 状態の条件コードは faultCode です。0 の値 (青) は健全状態のシステムを、1 の値 (オレンジ) は故障状態のシステムを示します。ヒストグラムは Vibration 信号のクレスト ファクターと尖度を表します。

クレスト ファクターのヒストグラムには以下が示されています。

  • 健全状態のシステムの特徴値はすべて最初のビンの範囲内に入る。

  • 故障状態のシステムの値は、ほとんどが残り 3 つのビンに入る。

  • 最初のビンには故障状態のシステムからのデータもいくつか含まれるが、健全状態のシステムのデータに比べると少ない。

この場合、クレスト ファクターの特徴は健全な動作と故障動作をよく区別しているものの、完全ではないことがヒストグラムに示されています。

これとは対照的に、尖度のヒストグラムには以下が示されています。

  • 最初のビンの範囲内の値をもつデータは、常に故障状態にある。

  • 他のビンの範囲内にあるデータは、健全状態と故障状態の両方のグループに属する。これらの領域において故障状態はあいまいです。

これら 2 つのヒストグラムから、クレスト ファクターの特徴の方が尖度の特徴よりも効果的であると推測できます。

アプリにはヒストグラムをカスタマイズするための対話型ツールが用意されています。たとえば、ビンの幅の変更、グループを指定する状態変数の変更、またはヒストグラムが適用する正規化の修正などを行うことで、ヒストグラムの分解能を高めることができます。アプリでのヒストグラムのカスタマイズの詳細については、特徴のヒストグラムの生成とカスタマイズを参照してください。

マルチクラス状態変数の特徴ヒストグラムの解釈

状態変数に 3 つ以上の状態またはクラスがある場合、追加の色の組み合わせが原因で、結果のヒストグラムを独自に解釈するのは難しいことがあります。たとえば、健全な状態に加えて 2 つの独立した故障状態 fault1 および fault2 を故障コードで表現できるとします。次の図は、前のヒストグラムに似ていますが、このような 3 クラスの状態変数に対応しています。

数値のグループ距離を確認して、特徴の有効度に関する追加の情報を入手します。[グループ距離の表示] オプションは、状態変数クラスの各組み合わせについて "KS 統計量" という値を提供します。KS 統計量は、2 標本コルモゴロフ・スミルノフ検定を使用して、2 つのクラスの分布の累積分布関数がどの程度よく分離されているかを示します。

次の表は、前のヒストグラムに対応するグループ距離を示しています。

KS 統計量は faultCode 値の各ペア間の分離を示します。統計値の範囲は 0 ~ 1 であり、0 では分布間に分離がなく、1 では完全に分離しています。

クレスト ファクターの特徴では、2 クラスの faultCode の場合と同様、健全状態の fault0 と故障状態の fault1 のデータ間の差別化が強く、KS 統計量は 1 です。差別化は fault1fault2 のデータ間でも強くなっています。しかし、fault0fault2 のデータ間の差別化は比較的弱くなっています。

尖度の特徴では、すべての組み合わせにおいてペア間の差別化が比較的弱くなっています。

KS 統計量の詳細については、kstest2 を参照してください。

特徴のヒストグラムの生成とカスタマイズ

特徴テーブルから一連の特徴ヒストグラムを生成するには、次のようにします。

  • データ ブラウザーの [特徴テーブル] セクションで特徴テーブルを選択。

  • プロット ギャラリーの [ヒストグラム] アイコンをクリック。

分離の可視化を最適化するには、ヒストグラムをカスタマイズします。[ヒストグラム] タブに、ヒストグラムを変更して解釈を強化できるパラメーターがあります。

特徴の選択

既定では、アプリはすべての特徴のヒストグラムをプロットし、それらをアルファベットの降順に表示します。少数の特徴のセットに焦点を当てるには、[特徴の選択] をクリックします。

状態変数によるデータのグループ化

インポートした任意の状態変数についてヒストグラム セット内のデータをグループ化できます。この状態変数はシステムの健全性を示すことがあります。また、変数は温度やマシンのモードといった動作状態の場合もあります。カラー コードでグループ化する状態変数を選択するには、[グループ化] から変数を選択します。

グループの分離距離の表示

マルチクラス状態変数の特徴ヒストグラムの解釈で説明したグループの分離距離、つまり KS 統計量を表示するには、[グループ距離の表示] をクリックします。このオプションは、グループの分離値を示すテーブルを状態変数値の各組み合わせについて表示します。ウィンドウで、確認する特徴を選択します。

ビンの設定の変更

既定では、アプリは自動的にビンのサイズを決定します。ビンの幅に別の値を入力するか、代替のビン化方法を選択して、自動設定をオーバーライドします。ビンの設定は特徴テーブルのすべてのヒストグラムに適用されます。

ビンの幅、ビン化の方法、およびビン数の各ビン設定は独立ではありません。アルゴリズムは優先順位を利用して、何を使用するかを決定します。

  • 既定では [ビン化方法] がビンの幅を決定する。

  • [ビンの幅] の指定が [ビン化方法] をオーバーライドする。

  • ビンの幅および独立した [ビンの範囲] がビン数を決定する。[ビン数] の指定が有効なのは、データのグループ化がない場合のみです。

ビン化のアルゴリズムの変更

既定では、診断特徴デザイナーは均一なビン幅をもつビンを返す、自動ビン化アルゴリズムを使用します。アルゴリズムは、データ範囲をカバーし、基となる分布の形状が明らかになるビンの設定を選択します。ビン化のアルゴリズムを変更するには、[ビン化方法] メニューから選択します。

ビン化のアルゴリズムの詳細については、histogram‘BinMethod’ の説明を参照してください。

ビン幅の指定による分解能の増加

調べている特徴に対して [自動] の設定で提供されるよりも狭い幅を指定することで、データの分解能を高めます。たとえば、次の図は前出のヒストグラムを繰り返したもので、2 つの故障コード値と 2 つの特徴についてデータの分離を示しています。クレスト ファクターでは、最初のビンに健全状態のデータと劣化状態のデータが混在しています。

クレスト ファクターの特徴のビン幅は 0.1 です。ビン幅を 0.05 に減らすと、ヒストグラムは次に示されるように変わります。

ここでは健全状態のクレスト ファクター データが最初のビンに分離され、残りのビンには健全状態以外のデータのみが含まれています。しかし、指定したビン幅はすべての特徴に適用されるため、尖度のヒストグラムの分解能が失われます。

ビン範囲の変更による外れ値データの除外

特徴の分布の一部のみに関心がある場合は、[ビンの範囲] を使用して関心領域の外のデータを除外します。必要な範囲を [lower upper] の形式で入力します。この選択は、グループ距離テーブルの KS 統計量の計算には影響しません。

正規化方式の変更

既定のヒストグラムでは y 軸に確率を使用し、対応する範囲をすべての特徴について 0 ~ 1 とします。複数のヒストグラムを同じスケールで表示すると、視覚的に比較しやすくなります。他の軸設定は [正規化] メニューから選択します。これらの方式には生のカウント数や CDF などの統計メトリクスが含まれます。

参考

| |

関連するトピック