Kaybolan Gradyan (Vanishing Gradient)
Araç kavramlarıKaybolan Gradyan nedir?
Kaybolan gradyan (vanishing gradient), derin sinir ağları eğitilirken ortaya çıkan klasik bir problemdir. Ağ derinleştikçe, öğrenmeyi sağlayan hata sinyali geriye doğru ilerlerken giderek zayıflar ve ilk katmanlara neredeyse hiç ulaşmaz. Sonuç: ağın başındaki katmanlar öğrenemez, eğitim tıkanır. Bu sorun, derin öğrenmenin yıllarca neden zor olduğunu açıklayan temel nedenlerden biriydi.
Nasıl çalışır?
Sinir ağları backpropagation ile öğrenir: çıktıdaki hata, zincir kuralıyla katman katman geriye yayılır ve her ağırlık buna göre güncellenir. Bu yayılma sırasında gradyanlar birbiriyle çarpılır. Eğer bu değerler 1''den küçükse, çok sayıda katman boyunca çarpıla çarpıla sıfıra yaklaşır — tıpkı 0.5''i defalarca kendisiyle çarpmak gibi. Özellikle sigmoid ve tanh gibi aktivasyon fonksiyonları bu küçülmeyi tetikler. Gradyan sıfıra inince ağırlık güncellemesi durur ve öğrenme fiilen biter.
Neden önemli?
Bu sorunu anlamak, modern derin öğrenmenin neden bugünkü gibi tasarlandığını açıklar. ReLU aktivasyon fonksiyonu, residual bağlantılar (skip connection), batch normalization ve LSTM gibi yapılar büyük ölçüde kaybolan gradyanı aşmak için geliştirildi. Yani bugün çalışan derin ağların pek çok tasarım kararı, doğrudan bu problemin çözümüdür.
Kullanım alanları
Doğrudan bir araç değil, bir teşhis kavramıdır. Derin ağlar veya uzun dizilerle çalışan modeller eğitilirken eğitim ilerlemiyorsa, ilk şüphelenilecek nedenlerden biridir. Tersine, gradyanların aşırı büyümesine "patlayan gradyan" (exploding gradient) denir; çözümü gradient clipping''tir.
Ilgili terimler
