Ağırlık Azalması (Weight Decay)

Ağırlık Azalması (Weight Decay) nedir?

Weight decay, model eğitimi sırasında ağırlık değerlerinin kontrolsüz büyümesini önleyen bir regularization yöntemidir. Her güncelleme adımında, mevcut ağırlık değerleri küçük bir katsayıyla çarpılarak azaltılır — böylece model gereksiz yere büyük ağırlıklar tutmak yerine daha sade, genelleşebilir bir yapı öğrenmek zorunda kalır.

Mathematiksel olarak L2 regularization ile eşdeğerdir: kayıp fonksiyonuna ağırlıkların karelerinin toplamı eklenir. Ancak modern derin öğrenme literatüründe bu iki kavram ayrıştırılmıştır — özellikle Adam optimizer kullanılırken L2 regularization ile weight decay aynı sonucu vermez (AdamW bu farkı gidermek için geliştirilmiştir).

Nasıl çalışır?

SGD ile weight decay şöyle uygulanır:

w ← w - lr * (gradient + λ * w)

Burada λ (lambda) weight decay katsayısıdır, genellikle 0.01 ile 0.0001 arasında seçilir. Her adımda ağırlık biraz "erir" — bu yüzden weight decay bazen "L2 penalty" veya "ağırlık çürümesi" olarak da anılır.

Adam optimizer'da ise gradient istatistikleri (m ve v) L2 terimi ile etkileşime girer ve decay etkisi beklenen şekilde çalışmaz. AdamW bu sorunu çözer: weight decay'i optimizer güncellemesinden bağımsız olarak uygular. GPT-2'den bu yana büyük dil modellerinin büyük çoğunluğu AdamW kullanır.

Neden önemli?

Büyük modellerde overfitting'in önündeki ilk savunma hattıdır
Fine-tuning sırasında özellikle kritik: az veriyle büyük modeli güncellemek, weight decay olmadan hızla ezber yapar
Modelin ağırlık dağılımını sağlıklı tutar; aşırı büyük ağırlıklar gradient patlamalarına (exploding gradient) zemin hazırlar

Kullanım alanları

LLM ön eğitimi ve fine-tuning (neredeyse her zaman AdamW + weight decay)
Vision transformer'lar ve diffusion model eğitimi
LoRA ve PEFT yöntemlerinde adaptör katmanlarının düzenlenmesi
Küçük veri setleriyle özel domain modeli eğitimi

Ağırlık Azalması (Weight Decay)