テキサス大学オースティン校の研究者、ウェーブレットとディープラーニングを使って脳信号を単語やフレーズに変換

「MATLAB は業界標準として使用されている、信頼性の高いツールです。他の言語に比べて習得しやすく、付属のツールボックスを使用すればゼロから始める必要がないため、新しい分野に着手する際に役立ちます。」

課題

ALS 患者が具体的なフレーズを話す動作を頭に思い浮かべることでコミュニケーションを取れるようにする、音声駆動型のブレイン コンピューター インターフェイスの開発

ソリューション

MEG 信号のウェーブレット スカログラムを使用したディープ ニューラル ネットワークの学習

結果

  • 96% の分類精度を達成
  • ウェーブレットとディープラーニング ネットワークを素早く結合
  • 学習時間を 10 分の 1 に短縮
特徴量抽出とディープ ニューラル ネットワークを使用して、頭に思い浮かべた言葉「さようなら」に対応する脳信号を分類します。

特徴量抽出とディープ ニューラル ネットワークを使用して、頭に思い浮かべた言葉「さようなら」に対応する脳信号を分類。

筋萎縮性側索硬化症 (ALS) の患者は、病気が進行するにつれてコミュニケーションが難しくなります。多くの場合、ALS (別名ルー・ゲーリッグ病) は、閉じ込め症候群を引き起こします。閉じ込め症候群は、運動機能が完全に麻痺しているにもかかわらず、認知機能が維持されている状態を指します。ALS 患者は、視線追跡装置のほか、最近では、脳波 (EEG) を利用したブレイン コンピューター インターフェイス (BCI) を使用してフレーズを一文字ずつ指定することでコミュニケーションを取ることができるようになりました。ただし、簡単なメッセージを伝えるのにさえ数分かかることもあります。

脳磁図 (MEG) は、脳内で自然に発生する電気信号によって生じる磁気活動を検出する非​侵襲性の技術です。テキサス大学オースティン校の研究者は、ウェーブレットとディープ ニューラル ネットワークを使用して MEG 信号を復号化し、患者が話すことを思い浮かべると、そのフレーズ全体が検出される非​侵襲性の技術を開発しました。MATLAB® によって、ウェーブレットベースの信号処理の手法と、さまざまな機械学習やディープラーニングの技術を組み合わせることが可能になりました。

テキサス大学オースティン校 Speech Disorders and Technology Lab の博士課程の学生である Debadatta Dash 氏は次のように話します。「ある手法を試して、その結果を可視化し、うまくいかない場合はその手順を遡って調べたり、新しい手法を試したりする必要があります。他のプログラミング言語でこのような反復作業を行うには時間がかかりますが、MATLAB では豊富な信号処理ライブラリやツールボックスを使用して新しいアイデアを迅速に評価することができ、その効果がすぐに分かります。」

課題

このプロジェクトの目的は、思い浮かべたフレーズや、話されたフレーズに対応する脳信号を分類することでした。デル チルドレンズ メディカル センター MEG 研究所の神経科学者兼研究部長である Paul Ferrari 博士をはじめ、テキサス大学オースティン校のチームは、MEG が EEG よりも空間分解能が高く、機能的磁気共鳴画像法 (fMRI) よりも時間分解能が高いことから、MEG 神経画像モダリティを使用して、脳信号を取得することを考えました。MEG 信号全体の品質を向上させるには、信号全体の特性を維持しながらノイズを除去する必要がありました。1000 回以上のテストで得られた何百もの信号の前処理とノイズ除去に加え、信号を解析し、可視化する必要がありました。

新しい種類のデータを扱うため、研究者はディープラーニングを含むさまざまな手法を迅速に評価できるツールを必要としていました。

ソリューション

テキサス大学オースティン校の研究者は、ALS 患者のコミュニケーションを可能にするブレイン コンピューター インターフェイスの開発に向けた第一歩として、MATLAB を使用して、MEG 信号からフレーズ全体を導き出しました。

Wavelet Toolbox™ でウェーブレット多重解像度解析手法を使用して、MEG 信号のノイズを除去し、特定の神経振動バンド (高ガンマ波、ガンマ波、アルファ波、ベータ波、シータ波、デルタ脳波) に分解しました。

次に、ノイズ除去および分解が行われた信号から特徴量を抽出しました。研究者は、Statistics and Machine Learning Toolbox™ を使用して、平均値、中央値、標準偏差、四分位数、平方根平均二乗など、さまざまな統計的特徴量を計算しました。特徴量抽出によって、サポート ベクター マシン (SVM) 分類器と浅い人工ニューラル ネットワーク (ANN) 分類器の学習を行い、5 つのフレーズに対応する神経信号を分類して精度のベースラインを得ることができました。

MEG 信号の豊富な特徴量を時間-周波数領域で取得して表現するために、MEG 信号のウェーブレット スカログラムを畳み込みニューラル ネットワークの入力として使用しました。(ウェーブレット スカログラムは、信号のスペクトル成分が時間とともに変化する様子を表します。)研究チームは、MEG 信号の音声復号化に使用できるように、事前学習済みの 3 つの深層畳み込みニューラル ネットワーク (AlexNet、ResNet、Inception-ResNet) をカスタマイズしました。いずれも、複数の被験者に対して、全体的に高い精度が得られました。研究チームは、学習を高速化するために、Parallel Computing Toolbox™ を使用して、7 個の GPU を搭載した並列計算サーバーで学習を実施しました。

テキサス大学オースティン校の研究者は、今回の研究結果を発表しました。次のステップとして、現在は、分類されたフレーズの数を 5 から数百に増やし、音声を音素レベルで復号化し、MEG 信号を直接合成音声に変換するという研究を進めています。

結果

  • 96% の分類精度を達成。テキサス大学オースティン校のコミュニケーション障害学、神経学の准教授であり、Speech Disorders and Technology Lab のディレクターである Jun Wang 博士は、次のように話します。「私たちが試した SVM と ANN の手法では、分類精度は 80% ほどに留まりましたが、ウェーブレットとディープラーニングを組み合わせたところ、96% 以上に上昇しました。
  • ウェーブレット技術とディープラーニング ネットワークを素早く融合。MATLAB では、わずか数分でディープラーニング ネットワークに入力するためのスカログラム作成を実装することができました。もちろん、学習や結果の解釈にはさらに時間がかかりますが、たとえば AlexNet はわずか数分で実装することができ、他のプログラミング言語を使用した場合よりもはるかに短い時間で済みました。」
  • 学習時間を 10 分の 1 に短縮。Dash 氏は次のように続けます。「単一のワーカーでの学習から、複数の GPU での学習に切り替えるのに、MATLAB コードを 1 行変更するだけで済みました。Parallel Computing Toolbox と、7 個の GPU を搭載したサーバーを使用し、このわずかな変更を行っただけで、ネットワークの学習速度は約 10 倍向上しました。」