Kayıp Fonksiyonu (Loss Function)
ModellerKayıp Fonksiyonu nedir?
Kayıp fonksiyonu (loss function), bir makine öğrenmesi modelinin ne kadar "yanlış" yaptığını sayısal olarak ifade eden matematiksel bir araçtır. Model bir tahmin üretir, gerçek değerle karşılaştırılır ve bu fark bir sayıya dönüştürülür. Eğitim boyunca bu sayıyı minimize etmek hedeflenir.
Nasıl çalışır?
Eğitim döngüsü şöyle işler:
- Model bir giriş alır ve tahmin üretir
- Kayıp fonksiyonu, tahmini gerçek etiketle karşılaştırır
- Sonuç (loss değeri) backpropagation ile geriye iletilir
- Gradient descent optimizer, model ağırlıklarını günceller
- Döngü tekrarlanır; loss düştükçe model iyileşir
Yaygın kayıp fonksiyonları:
- Cross-Entropy Loss: Sınıflandırma ve dil modellerinde standart seçim
- MSE (Mean Squared Error): Regresyon görevlerinde yaygın
- KL Divergence: İki olasılık dağılımını karşılaştırmak için; RLHF'de kullanılır
- Contrastive Loss: Embedding modellerinin eğitiminde
LLM'lerde kayıp genellikle "bir sonraki tokeni ne kadar doğru tahmin ettiğim" üzerinden ölçülür — bu yüzden perplexity ile doğrudan ilişkilidir.
Neden önemli?
Hangi kayıp fonksiyonunun seçildiği, modelin neyi optimize ettiğini belirler. Yanlış seçim; modelin teknik olarak "düşük loss" almasına rağmen işe yaramayan çıktılar üretmesine yol açabilir. Fine-tuning'de ise kayıp fonksiyonu değişimi, modelin davranışını köklü biçimde değiştirebilir.
Kullanım alanları
- Dil modeli pretraining: Next-token prediction loss
- Fine-tuning: SFT'de cross-entropy, DPO'da karşılaştırmalı kayıp
- Görüntü modelleri: Reconstruction loss, adversarial loss
- Değerlendirme: Düşük loss iyi bir işaretçi ama downstream görevlerde doğrulanmalı