製品・サービス

Audio Toolbox と Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries を利用することで、事前学習済み AI モデルによるオーディオ・音声信号の高度な信号処理と解析が可能になります。

ディープラーニングの専門知識がなくても、個別の関数呼び出しを使用して、以下を行うことができます。

  • speech-to-text (STT) パイプラインを利用した自動音声認識 (ASR) による音声の書き起こし
  • text-to-speech (TTS) パイプラインを利用した音声の合成
  • 音声区間検出 (VAD) による音声検出、話されている言語の特定、音声の分類
  • 話者認識ディープラーニング モデルや機械学習パイプラインを利用した話者の登録と識別
  • カクテルパーティ問題の音源分離、音声信号の強調やノイズ除去
  • 音楽のピッチ推定や、オーディオ・音声・音楽信号からの埋め込み特徴量の抽出

呼び出された関数は、事前学習済みの機械学習モデルとディープラーニング モデルを利用し、MATLAB、Python®、PyTorch® の組み合わせで実行されます。

ヘッドセット内のネットワークを利用して音声とテキストの相互変換を行う様子を示したピクトグラム。

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries を利用することで、Audio Toolbox の関数を使って、事前学習済みの AI モデルによる信号処理や信号解析が可能になります。

このインターフェイスは、Python と PyTorch のインストールを自動化して SpeechBrain/Torchaudio ライブラリから選択したディープラーニング モデルのダウンロードを可能にします。インストールが完了すると、ユーザーが意識しなくても、ローカルにインストールされた AI モデルを通じて、以下の関数を実行できます。

  • speech2text は、ローカルの wav2vec モデルだけでなく、emformerwhisper をモデルに設定した speechClient オブジェクト、さらに  GoogleIBMMicrosoftAmazon などのクラウドサービスも指定できます。whisper を使用する場合は、別途モデルの重みをダウンロードする必要があります。詳細は、Whisper Speech-to-Text モデルのダウンロードを参照してください。
  • text2speech は、モデルが hifigan に設定された speechClient オブジェクトのほか、GoogleIBMMicrosoftAmazon などのクラウド サービスも指定できます。

speech2text 関数と text2speech 関数は、テキスト文字列や音声サンプルを入力として受け取り、出力として返します。これらの関数を利用する際は、信号の前処理、特徴量抽出、モデル予測、出力後処理などのコーディングは必要ありません。

音声クライアント オブジェクトとモデルの選択リスト
翻訳モードの Whisper モデルに、既定以外の speechClient オブジェクトを用いた speech2text 関数のコード例。

Whisper 使用した多言語音声の翻訳と書き起こし

テキストから合成音声を生成するための text2speech 関数のコード例。

ローカルモデルによるテキストからの音声合成

ラベル付き音声信号と波形オーバーレイが表示された信号ラベラーアプリ。識別・書き起こしされた言葉が表示されています。

信号ラベラーで Speech-to-Tex を使用して音声記録にラベルを付ける

即戦力となる音声・オーディオ AI - その他の関数

Audio Toolbox には、classifySoundseparateSpeakersenhanceSpeechdetectspeechnnpitchnnidentifyLanguage など、その他の関数も含まれています。これらの関数を使うことで、AIの専門知識がなくても高度なディープラーニングモデルを用いて音声・オーディオ信号の処理や解析を行うことができます。これらのモデルは、Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries を必要としません。

タグ付けされたセグメントごとに特定のサウンドクラスが強調表示された音声信号のプロット。

classifySound を使用した音声分類

4 つのプロット - 元の音声ミックス、分離された 2 つの音声成分、振幅が微小な残差信号が表示されています。

separateSpeakers を使用した音源分離

2 種類の信号とその時間-周波数スペクトログラムが表示されている 2×2 のプロットグリッド。元の録音と強調処理後のバージョンの違いが強調されています。

enhanceSpeech を使用した音声強調

MATLAB と PyTorch を活用したディープラーニングモデル開発

ディープラーニングに精通した MATLAB/PyTorch ユーザーであれば、両方の言語を組み合わせて AI モデルの開発と学習を行うことができます。協調実行やモデル交換のワークフローにも対応しています。

関連情報: