Ağırlık Azalması (Weight Decay)

Araç kavramları
Ing: Weight DecayGuncellendi: 1 Haziran 2026
Model ağırlıklarını eğitim boyunca küçük tutmaya zorlayan regularization tekniği. Overfitting'i önler, genelleme kapasitesini artırır.

Ağırlık Azalması (Weight Decay) nedir?

Weight decay, model eğitimi sırasında ağırlık değerlerinin kontrolsüz büyümesini önleyen bir regularization yöntemidir. Her güncelleme adımında, mevcut ağırlık değerleri küçük bir katsayıyla çarpılarak azaltılır — böylece model gereksiz yere büyük ağırlıklar tutmak yerine daha sade, genelleşebilir bir yapı öğrenmek zorunda kalır.

Mathematiksel olarak L2 regularization ile eşdeğerdir: kayıp fonksiyonuna ağırlıkların karelerinin toplamı eklenir. Ancak modern derin öğrenme literatüründe bu iki kavram ayrıştırılmıştır — özellikle Adam optimizer kullanılırken L2 regularization ile weight decay aynı sonucu vermez (AdamW bu farkı gidermek için geliştirilmiştir).

Nasıl çalışır?

SGD ile weight decay şöyle uygulanır:

w ← w - lr * (gradient + λ * w)

Burada λ (lambda) weight decay katsayısıdır, genellikle 0.01 ile 0.0001 arasında seçilir. Her adımda ağırlık biraz "erir" — bu yüzden weight decay bazen "L2 penalty" veya "ağırlık çürümesi" olarak da anılır.

Adam optimizer'da ise gradient istatistikleri (m ve v) L2 terimi ile etkileşime girer ve decay etkisi beklenen şekilde çalışmaz. AdamW bu sorunu çözer: weight decay'i optimizer güncellemesinden bağımsız olarak uygular. GPT-2'den bu yana büyük dil modellerinin büyük çoğunluğu AdamW kullanır.

Neden önemli?

  • Büyük modellerde overfitting'in önündeki ilk savunma hattıdır
  • Fine-tuning sırasında özellikle kritik: az veriyle büyük modeli güncellemek, weight decay olmadan hızla ezber yapar
  • Modelin ağırlık dağılımını sağlıklı tutar; aşırı büyük ağırlıklar gradient patlamalarına (exploding gradient) zemin hazırlar

Kullanım alanları

  • LLM ön eğitimi ve fine-tuning (neredeyse her zaman AdamW + weight decay)
  • Vision transformer'lar ve diffusion model eğitimi
  • LoRA ve PEFT yöntemlerinde adaptör katmanlarının düzenlenmesi
  • Küçük veri setleriyle özel domain modeli eğitimi
mindi
mindi'nin notu
Fine-tuning yaparken weight decay değerini sıfır bırakmayın. 0.01 iyi bir başlangıç noktası. AdamW kullanıyorsanız zaten doğru yoldasınız — Adam + L2 karıştırılmaması gereken bir çift.