このページの翻訳は最新ではありません。ここをクリックして、英語の最新版を参照してください。
非定常ガボール フレームと定 Q 変換
非定常ガボール フレームを使用すると、信号の時間適応解析または周波数適応解析を実施できます。関数 cqt
および icqt
は、非定常ガボール フレームを使用して信号の定 Q (周波数適応) 変換 (CQT) を求めます。非定常ガボール フレームの重要な強みは、安定した逆変換の構成が有効になり、完全再構成を生成できるということです。
非定常ガボール フレームの理論とその実装のための効率的なアルゴリズムは、Dörfler、Holighaus、Grill、および Velasco の [1] と [2] によるものです。[1]と[2]に記載されているアルゴリズムは、単純畳み込みで得られる同じ位相を保持しない、位相固定バージョンの CQT を実装します。[3] の中で、Schörkhuber、Klapuri、Holighaus、および Dörfler は、単純畳み込みによって得られる係数を再現する、CQT および逆 CQT の効率的なアルゴリズムを開発しています。The Large Time-Frequency Analysis Toolbox ([4]) は、非定常ガボール解析と合成のためのさまざまなアルゴリズムを提供します。
標準的なガボール解析では、固定サイズのウィンドウで時間-周波数平面がタイリングされます。非定常ガボール フレームは、時間-周波数平面のタイリングに使用されるさまざまなサイズのウィンドウ処理関数の集合です。ウェーブレット解析により、時間-周波数平面が同様にタイリングされます。サンプリング密度を時間または周波数で柔軟に変更できます。非定常ガボール フレームは、固定サイズの時間-周波数ウィンドウが最適ではない音声信号処理などの領域で役に立ちます。短時間フーリエ変換とは異なり、定 Q 変換で使用されるウィンドウには、適応性のある帯域幅およびサンプリング密度があります。周波数空間では、ウィンドウは対数的に等間隔の中心周波数を中心とします。
時間-周波数平面の分解
f(t) のフーリエ変換とは、f(t) と ej ω t の相関です。
ej ω t はコンパクト サポートを持たないため、フーリエ変換を非定常信号の調査に選択することは不適切です。信号の周波数成分が時間の経過と共に変化する場合、フーリエ変換は変化の内容や変化が発生するタイミングを捉えません。ここに示す時間-周波数平面の分割は、こうしたフーリエ変換の動作を表しています。
非定常信号の時間-周波数解析を実行するには、実数の偶数ウィンドウ処理関数 から開始します。これは、事実上有限区間の場合のみ非ゼロであり、1 に等しいノルムがあります。また、 のフーリエ変換はゼロを中心とし、ローパスです。次に、 の平行移動を使用して、f(t) をウィンドウ処理します。その後、結果のフーリエ変換を求めます。
f(t) をガボール アトム と相関させることが標準的なガボール解析です。u を変化させることで、時刻 u 付近の f(t) の値のみを検討します。 のサポートにより、時刻 u 付近の近傍のサイズが決まります。 のフーリエ変換は、 のフーリエ変換の ζ による平行移動で、次によって与えられます。
のエネルギー集中には分散 σω があり、ζ を中心とします。ウィンドウ が規則的なグリッドでシフトする場合、シフトされたウィンドウと f(t) の積のフーリエ変換は短時間フーリエ変換 (STFT) です。時間-周波数平面の STFT タイリングは、それぞれが (u, ζ) を中心とするボックスのグリッドとして表すことができます。
関数の集合 は、"ガボール フレーム" として知られています。この集合の要素は、"ガボール アトム" と呼ばれます。フレームは、関数の集合 {hk(t)} であり、以下の条件を満たします。任意の関数 f(t) で次のようになるように、定数 0 < A ≤ B < ∞ が存在します。
時間での のエネルギー集中度には分散 σtがあります。周波数での のエネルギー集中度には分散 σωがあります。ウィンドウが信号について時間および周波数の局所化を行う精度は、エネルギー集中度によって決まります。時間と周波数の間の不確かさの原理によって、時間領域および周波数領域での局所化を同時に行う場合の精度には次で示される制限があります。
一方の領域でウィンドウを狭めると、他方の領域では局所化が劣化します。 がガウスの場合、ウィンドウの領域は最小限であることをガボールは示しました。
定 Q 変換
CQT では、帯域幅および周波数でのサンプリング密度は異なります。ウィンドウは構築され、周波数領域に直接適用されます。ウィンドウごとに中心周波数と帯域幅が異なりますが、帯域幅に対する中心周波数の比率は一定のままです。一定の比率を維持することは以下を意味します。
時間での分解能は高周波数で向上します。
周波数での分解能は低周波数で向上します。
不確かさの原理により、時間は、帯域幅に応じてウィンドウごとにシフトします。
CQT は以下に応じて異なります。
ウィンドウ関数 gk は、実数値の偶関数です。周波数領域では、gk のフーリエ変換は、区間 [-Fs/2, Fs/2] で定義されます。
サンプリング レート ζs。
オクターブあたりのビンの数 b。
最低周波数および最高周波数 ζmin および ζmax。
最小周波数 ζmin およびオクターブあたりのビン数 b を選択します。次に、幾何学的に配置された周波数のシーケンスを形成します。
ζk = ζmin × 2k/b
k = 0,...,K について、K は、ζK がナイキスト周波数 ζs/2 より厳密に小さくなる最大周波数となるような整数です。k 番目の周波数での帯域幅は、Ωk = ζk+1-ζk-1 に設定されます。このサンプリングの場合、そのウィンドウ帯域幅に対する k 番目の中心周波数の比率は、次のように k とは独立しています。
Q = ζk/Δk = (21/b-2-1/b)-1.
確実に完全再構成が行われるよう、DC 成分およびナイキスト周波数が、それぞれシーケンスの先頭および最後に追加されます。
W(ω) は、ウィンドウ関数 gk を形成します。W(ω) は、0 を中心とし、区間 [-½,½] では正の数であり、それ以外では 0 である、実数の連続偶関数です。W(ω) は、各中心周波数 ζk に平行移動され、スケーリングされます。スケーリングおよび平均移動されたバージョンの W(ω) を評価することで、フィルター係数 gk[m] が形成されます。
gk[m] = W((m ζs/L - ζk)/Ωk)
(m = 0, …, L-1 と表現)。ここで、L は信号長です。既定の設定では、cqt
は 'hann'
ウィンドウを使用します。
不確かさの原理により、帯域幅のサイズは時間シフトの値を制約します。フレームの不等式を満たすには、gk のシフト ak が次を満たさなければなりません。
ak ≤ ζk/Ωk.
前述のように、ウィンドウは周波数領域で適用されます。 ζk を中心とするフィルター gk は形成され、信号のフーリエ変換に適用されます。逆変換を行うと、定 Q 係数が得られます。
参考文献
[1] Holighaus, N., M. Dörfler, G.A. Velasco, and T. Grill. "A framework for invertible real-time constant-Q transforms." IEEE Transactions on Audio, Speech, and Language Processing. Vol. 21, No. 4, 2013, pp. 775–785.
[2] Velasco, G. A., N. Holighaus, M. Dörfler, and T. Grill. "Constructing an invertible constant-Q transform with nonstationary Gabor frames." In Proceedings of the 14th International Conference on Digital Audio Effects (DAFx-11). Paris, France: 2011.
[3] Schörkhuber, C., A. Klapuri, N. Holighaus, and M. Dörfler. "A Matlab Toolbox for Efficient Perfect Reconstruction Time-Frequency Transforms with Log-Frequency Resolution." Submitted to the AES 53rd International Conference on Semantic Audio. London, UK: 2014.
[4] Průša, Z., P. L. Søndergaard, N. Holighaus, C. Wiesmeyr, and P. Balazs. The Large Time-Frequency Analysis Toolbox 2.0. Sound, Music, and Motion, Lecture Notes in Computer Science 2014, pp 419-442. https://github.com/ltfat