勾配消失問題(こうばいしょうしつもんだい、Vanishing Gradient Problem)は、深層ニューラルネットワーク(DNN)の学習において、誤差逆伝播法(Backpropagation)による勾配が、入力層に近い層へ伝播するにつれて指数関数的に小さくなり、それらの層の重みがほとんど更新されなくなる現象を指します。この問題は、深層学習における学習の難しさの主要な要因の一つです。
勾配消失問題のメカニズム
勾配消失問題は、以下の要因によって発生します。
- 活性化関数の影響
- シグモイド関数やハイパボリックタンジェント関数など、出力が飽和しやすい活性化関数を使用すると、入力値が極端に大きいまたは小さい場合に、勾配が非常に小さくなります。
- 誤差逆伝播法では、各層の勾配は、後続の層の勾配と活性化関数の微分を掛け合わせることで計算されます。
- そのため、勾配が小さい層が連続すると、入力層に近い層の勾配は指数関数的に小さくなり、重みがほとんど更新されなくなります。
- ネットワークの深さ
- ネットワークが深くなるほど、勾配が伝播する距離が長くなり、勾配消失が発生しやすくなります。
勾配消失問題の影響
勾配消失問題が発生すると、以下の問題が生じます。
- 学習の停滞
- 入力層に近い層の重みが更新されないため、ネットワーク全体の学習が停滞し、精度が向上しません。
- 深層ネットワークの学習困難
- 勾配消失問題は、深層ネットワークの学習を困難にするため、深層学習の潜在能力を十分に発揮できません。
勾配消失問題への対策
勾配消失問題を軽減するために、以下のような対策が講じられています。
勾配消失問題は、深層学習の研究において重要な課題であり、今後も様々な対策手法が開発されると期待されます。