Audio Toolbox と Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries を利用することで、事前学習済み AI モデルによるオーディオ・音声信号の高度な信号処理と解析が可能になります。
ディープラーニングの専門知識がなくても、個別の関数呼び出しを使用して、以下を行うことができます。
- speech-to-text (STT) パイプラインを利用した自動音声認識 (ASR) による音声の書き起こし
- text-to-speech (TTS) パイプラインを利用した音声の合成
- 音声区間検出 (VAD) による音声検出、話されている言語の特定、音声の分類
- 話者認識ディープラーニング モデルや機械学習パイプラインを利用した話者の登録と識別
- カクテルパーティ問題の音源分離、音声信号の強調やノイズ除去
- 音楽のピッチ推定や、オーディオ・音声・音楽信号からの埋め込み特徴量の抽出
呼び出された関数は、事前学習済みの機械学習モデルとディープラーニング モデルを利用し、MATLAB、Python®、PyTorch® の組み合わせで実行されます。
Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries
Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries を利用することで、Audio Toolbox の関数を使って、事前学習済みの AI モデルによる信号処理や信号解析が可能になります。
このインターフェイスは、Python と PyTorch のインストールを自動化して SpeechBrain/Torchaudio ライブラリから選択したディープラーニング モデルのダウンロードを可能にします。インストールが完了すると、ユーザーが意識しなくても、ローカルにインストールされた AI モデルを通じて、以下の関数を実行できます。
speech2textは、ローカルのwav2vecモデルだけでなく、emformerやwhisperをモデルに設定したspeechClientオブジェクト、さらにGoogle、IBM、Microsoft、Amazonなどのクラウドサービスも指定できます。whisperを使用する場合は、別途モデルの重みをダウンロードする必要があります。詳細は、Whisper Speech-to-Text モデルのダウンロードを参照してください。text2speechは、モデルがhifiganに設定されたspeechClientオブジェクトのほか、Google、IBM、Microsoft、Amazonなどのクラウド サービスも指定できます。
speech2text 関数と text2speech 関数は、テキスト文字列や音声サンプルを入力として受け取り、出力として返します。これらの関数を利用する際は、信号の前処理、特徴量抽出、モデル予測、出力後処理などのコーディングは必要ありません。
即戦力となる音声・オーディオ AI - その他の関数
Audio Toolbox には、classifySound、separateSpeakers、enhanceSpeech、detectspeechnn、pitchnn、identifyLanguage など、その他の関数も含まれています。これらの関数を使うことで、AIの専門知識がなくても高度なディープラーニングモデルを用いて音声・オーディオ信号の処理や解析を行うことができます。これらのモデルは、Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries を必要としません。
MATLAB と PyTorch を活用したディープラーニングモデル開発
ディープラーニングに精通した MATLAB/PyTorch ユーザーであれば、両方の言語を組み合わせて AI モデルの開発と学習を行うことができます。協調実行やモデル交換のワークフローにも対応しています。
関連情報: