Dropout (Bırakma)
MimariDropout nedir?
Dropout, sinir ağlarını eğitirken her adımda nöronların rastgele bir kısmını (%10-%50 arası) geçici olarak devre dışı bırakan bir düzenleme tekniğidir. 2014 yılında Srivastava ve ekibi tarafından önerilen bu yöntem, derin öğrenmenin en etkili ve yaygın kullanılan araçlarından biri haline gelmiştir.
Nasıl çalışır?
Eğitim sürecinde her ileri geçişte (forward pass), belirlenen olasılıkla (dropout rate) rastgele seçilen nöronlar sıfırlanır — yani sanki o nöronlar hiç yokmuş gibi hesaplama yapılır. Geri yayılım (backpropagation) da bu nöronları atlayarak güncelleme yapar.
Tahmin aşamasında (inference) ise tüm nöronlar aktiftir; ancak ağırlıklar dropout oranıyla çarpılarak ölçeklenir. Bu sayede eğitim ve tahmin arasındaki denge korunur.
Neden önemli?
Dropout'un çözdüğü temel problem overfitting'dir. Bir model eğitim verisini ezberleyip yeni verilerde başarısız olduğunda overfitting olmuştur. Dropout, modeli her seferinde farklı bir nöron kombinasyonuyla çalışmaya zorlar; bu da ağın tek bir 'yola' bel bağlamasını engeller.
Sonuç olarak model, daha sağlam ve genellenebilir özellikler öğrenir. Araştırmacılar bunu bazen paralel küçük modellerin ensemble'ı gibi yorumlar — her eğitim adımı aslında farklı bir alt mimariyi eğitir.
Kullanım alanları
- Tam bağlantılı katmanlar (Dense layers): En klasik kullanım yeridir. Derin ağlarda her fully-connected katmandan önce veya sonra uygulanır.
- Görüntü tanıma (CNN): Evrişimsel ağlarda Spatial Dropout varyantı kullanılır — tek tek piksel yerine kanal bazında bırakma yapılır.
- NLP modelleri: Transformer mimarilerinde attention mekanizması ve feed-forward katmanlarında yaygın şekilde kullanılır.
- Küçük veri setleri: Verinin sınırlı olduğu durumlarda overfitting riskini azaltmak için kritik öneme sahiptir.
Modern LLM'lerde dropout oranları genellikle çok düşük tutulur (0.0–0.1) ya da hiç kullanılmaz çünkü yeterince büyük veri seti zaten düzenleyici etki yaratır.