即戦力となるオーディオ・音声 AI

事前学習済み AI でオーディオ・音声信号を処理して解析

Audio Toolbox と Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries を利用することで、事前学習済み AI モデルによるオーディオ・音声信号の高度な信号処理と解析が可能になります。

ディープラーニングの専門知識がなくても、個別の関数呼び出しを使用して、以下を行うことができます。

speech-to-text (STT) パイプラインを利用した自動音声認識 (ASR) による音声の書き起こし
text-to-speech (TTS) パイプラインを利用した音声の合成
音声区間検出 (VAD) による音声検出、話されている言語の特定、音声の分類
話者認識ディープラーニングモデルや機械学習パイプラインを利用した話者の登録と識別
カクテルパーティ問題の音源分離、音声信号の強調やノイズ除去
音楽のピッチ推定や、オーディオ・音声・音楽信号からの埋め込み特徴量の抽出

呼び出された関数は、事前学習済みの機械学習モデルとディープラーニングモデルを利用し、MATLAB、Python^®、PyTorch^® の組み合わせで実行されます。

ヘッドセット内のネットワークを利用して音声とテキストの相互変換を行う様子を示したピクトグラム。

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries を利用することで、Audio Toolbox の関数を使って、事前学習済みの AI モデルによる信号処理や信号解析が可能になります。

このインターフェイスは、Python と PyTorch のインストールを自動化して SpeechBrain/Torchaudio ライブラリから選択したディープラーニングモデルのダウンロードを可能にします。インストールが完了すると、ユーザーが意識しなくても、ローカルにインストールされた AI モデルを通じて、以下の関数を実行できます。

speech2text は、ローカルの wav2vec モデルだけでなく、emformer や whisper をモデルに設定した speechClient オブジェクト、さらに Google、IBM、Microsoft、Amazon などのクラウドサービスも指定できます。whisper を使用する場合は、別途モデルの重みをダウンロードする必要があります。詳細は、Whisper Speech-to-Text モデルのダウンロードを参照してください。
text2speech は、モデルが hifigan に設定された speechClient オブジェクトのほか、Google、IBM、Microsoft、Amazon などのクラウドサービスも指定できます。

speech2text 関数と text2speech 関数は、テキスト文字列や音声サンプルを入力として受け取り、出力として返します。これらの関数を利用する際は、信号の前処理、特徴量抽出、モデル予測、出力後処理などのコーディングは必要ありません。

翻訳モードの Whisper モデルに、既定以外の speechClient オブジェクトを用いた speech2text 関数のコード例。

即戦力となる音声・オーディオ AI - その他の関数

Audio Toolbox には、classifySound、separateSpeakers、enhanceSpeech、detectspeechnn、pitchnn、identifyLanguage など、その他の関数も含まれています。これらの関数を使うことで、AIの専門知識がなくても高度なディープラーニングモデルを用いて音声・オーディオ信号の処理や解析を行うことができます。これらのモデルは、Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries を必要としません。