制限と注意事項

十分なメモリを利用できる場合、通常は中小規模のネットワークに対してレーベンバーグ・マルカート法による学習を使用します。メモリが問題になる場合は、利用できる高速アルゴリズムが他にもさまざまあります。大規模ネットワークでは、trainscg または trainrp を使用することをお勧めします。

多層ネットワークは、ほぼすべての線形計算または非線形計算を実行でき、妥当な関数であれば任意の精度で近似することができます。ただし、学習するネットワークが理論上は正しく実行できる場合でも、逆伝播とそのバリエーションで解を必ず見つけられるとは限りません。局所的最小値への収束については、[HDB96] の 12-8 ページを参照してください。

非線形ネットワークの誤差曲面は、線形ネットワークの誤差曲面よりも複雑です。この複雑度を理解するには、[HDB96] の 12-5 ページから 12-7 ページの図を参照してください。多層ネットワークの 3 種類の誤差曲面が示されています。問題は、多層ネットワークの非線形伝達関数によって誤差曲面に局所的最小値が多数生じることです。誤差曲面に勾配降下法を実行すると、初期開始条件によっては、ネットワークの解がこれらの局所的最小値のいずれかに陥る可能性があります。局所的最小値への収束の善し悪しは、局所的最小値と大域的最小値との近さや、どの程度まで誤差を小さくする必要があるかに依存します。どのような場合でも、十分なニューロンを持つ多層逆伝播ネットワークがほぼすべての関数を実装できるにもかかわらず、逆伝播では最適解に対する正しい重みを必ず見つけられるとは限らないことに注意してください。確実に最適解を得るために、ネットワークを再初期化して何度か再学習させることをお勧めします。

ネットワークは、隠れ層のニューロンの数の影響も受けます。ニューロンの数が少なすぎると、適合不足につながります。ニューロンの数が多すぎると、過適合の原因となり、その場合はすべての学習点は良く当てはまりますが、近似曲線がこれらの点の間で大きく振動します。このようなさまざまな問題に対応する方法については、浅層ニューラルネットワークの汎化の改善と過適合の回避で説明しています。このトピックは、[HDB96] の 11-21 ページからでも説明されています。

多層ネットワークを使用したワークフローの詳細は、浅層の多層ニューラルネットワークと逆伝播学習を参照してください。