Main Content

このページの内容は最新ではありません。最新版の英語を参照するには、ここをクリックします。

オーディオ処理

オーディオ処理および音声処理アプリケーションにおける深層学習のワークフローの拡張

Deep Learning Toolbox™ を Audio Toolbox™ と共に使用して、オーディオ処理および音声処理アプリケーションに深層学習を適用します。信号処理アプリケーションについては、信号処理を参照してください。無線通信アプリケーションについては、無線通信を参照してください。

アプリ

信号ラベラー対象となる信号の属性、領域および点へのラベル付けまたは特徴の抽出

関数

すべて展開する

audioDatastoreDatastore for collection of audio files
audioDataAugmenterAugment audio data (R2019b 以降)
audioFeatureExtractorStreamline audio feature extraction (R2019b 以降)
openl3EmbeddingsExtract OpenL3 feature embeddings (R2022a 以降)
pitchnnEstimate pitch with deep learning neural network (R2021a 以降)
vggishEmbeddingsExtract VGGish feature embeddings (R2022a 以降)
yamnet(Not recommended) YAMNet neural network (R2020b 以降)
classifySoundClassify sounds in audio signal (R2020b 以降)
crepe(Not recommended) CREPE neural network (R2021a 以降)
pitchnnEstimate pitch with deep learning neural network (R2021a 以降)
vggish(Not recommended) VGGish neural network (R2020b 以降)
vggishEmbeddingsExtract VGGish feature embeddings (R2022a 以降)
openl3(Not recommended) OpenL3 neural network (R2021a 以降)
openl3EmbeddingsExtract OpenL3 feature embeddings (R2022a 以降)
vadnet(Not recommended) Voice activity detection (VAD) neural network (R2023a 以降)
detectspeechnnDetect boundaries of speech in audio signal using AI (R2023a 以降)
separateSpeakersSeparate signal by speakers (R2023b 以降)

ブロック

すべて展開する

VGGishVGGish embeddings extraction network (R2022a 以降)
VGGish EmbeddingsExtract VGGish embeddings (R2022a 以降)
YAMNetYAMNet sound classification network (R2021b 以降)
Sound ClassifierClassify sounds in audio signal (R2021b 以降)
OpenL3OpenL3 embeddings extraction network (R2022b 以降)
OpenL3 EmbeddingsExtract OpenL3 embeddings (R2022b 以降)
CREPECREPE deep pitch estimation neural network (R2023a 以降)
Deep Pitch EstimatorEstimate pitch with CREPE deep learning neural network (R2023a 以降)

トピック