ebook

第 3 章

学習データの品質と量の向上


データにノイズが入っていた方が良いのは、どのような場合でしょうか?実世界の状況を正確に反映している場合です。

音声アプリケーションでは、一般的な既存の大規模データセットが、実際のアプリケーション シナリオとは異なる方法で記録されます。アプリケーションが音声のトリガーワードを認識するよう設定されている場合は、低性能のマイク、特定のタイプの残響、背景のノイズに対処する必要があります。

これらの効果やその他の効果は、学習データセットを拡張するために、次のような確立された信号処理手法やドメイン固有のアプリケーションを使用して、人為的に追加することができます。

  • データ拡張
  • データ合成

信号を一貫して測定したり、大規模なデータセットを構築するために観察したりするのは難しい場合があります。本章ではより多くの学習データを作成する手法を取り上げます。データ合成は、モデルやシミュレーションから新しい信号を作成するのに役立ちます。

データ拡張は、既存のデータの新しいバリエーションを作成する特定の種類のデータ合成です。

章

データ拡張

既存のラベルが付けられたサンプルから、次のようなデータ拡張を生成します。

  • 高品質な検証データに類似した学習データ
  • 実世界のシナリオでシステムで起こり得る、使用可能なデータのバリエーション

拡張効果は、多くの場合、ドメイン固有のものです。一般的な 音声、音響データの拡張効果には、ストレッチタイム、シフトピッチ、ボリューム コントロールなどがあります。

キッチンの残響

データ拡張に MATLAB コードを使用したキッチンの残響信号。

洗濯機のノイズ

データ拡張に MATLAB コードを使用した洗濯機のノイズ信号。
章

合成

データ合成には、AI 生成モデルやシミュレーションを組み合わせてゼロから学習データを生成することが含まれます。

ドメイン固有のデータ合成の例には、以下のようなものがあります。

 

MATLAB の 関数 text2speech は、IBM®、Microsoft®、または Google® のクラウドベースのサービスを使用して、Google のよく知られた Wavenet ネットワークを経由して、高品質の合成音声信号を生成するのに役立ちます。

MathWorks Audio Toolbox チームによる text2speech アプリの MATLAB Central File Exchange エントリ。

この例では、ディープラーニング ネットワークと時間周波数解析を使用して、マイクロドップラー特性に基づく 歩行者と自転車に乗る人の分類方法を示しています。レーダーの前に置かれたオブジェクトのさまざまな部分の動きは、オブジェクトの特定に使用できるマイクロドップラー信号を生成します。

2 つのグラフ: 一方は自転車に乗った人の軌跡のプロットで、自転車に乗った人の形をドットで表現。他方は、x 軸に時間をとり、y 軸に速度をとったプロット。

通信信号を受信して記録し、ラベル付けするのは非常に難しいことです。 WLAN ルーターのなりすまし検出の例では、RF フィンガープリントに関する現実的な信号をシミュレーションします。アルゴリズムが整備されている場合は、ソフトウェア定義の無線機から収集したデータを使用して学習を行い、実際のデータを使って同じシステムのテストを行うことができます。

3 つの既知のルーターと、非高スループット (非 HT) ビーコン信号と未知のルーターデータを収集するオブザーバーを示す図。

理解度の確認