Logitler (Logits)
Araç kavramlarıLogits nedir?
Bir dil modeli her adımda, sözlüğündeki olası her token için bir ham skor üretir. İşte bu skorlara logit denir. Henüz olasılığa dönüşmemiş, normalize edilmemiş sayılardır — bazıları pozitif, bazıları negatif olabilir. Model "bir sonraki token ne olsun?" diye düşünürken aslında bu logit vektörünü hesaplar.
Nasıl çalışır?
Modelin son katmanı, context'i işledikten sonra her token için tek bir sayı çıkarır. Bu sayılar softmax fonksiyonundan geçirilince 0–1 arası olasılıklara dönüşür ve toplamları 1 olur. Yani logit ne kadar yüksekse, o token'ın seçilme olasılığı o kadar artar. temperature, top-p ya da top-k gibi sampling ayarları tam da bu noktada devreye girer: softmax'tan önce ya da sonra logit dağılımını yeniden şekillendirip çıktının ne kadar yaratıcı ya da tutarlı olacağını belirler. frequency penalty ve presence penalty gibi cezalar da doğrudan logit değerlerini aşağı çekerek çalışır.
Neden önemli?
Logits, modelin kafasının içine bakmanın en doğrudan yolu. Bir token'ın olasılığını ölçmek, modelin ne kadar emin olduğunu anlamak ya da çıktıyı yönlendirmek istiyorsan müdahale ettiğin yer burası. Eğitim sırasında cross-entropy loss da logitler üzerinden hesaplanır, yani sadece üretimde değil öğrenmede de merkezde duran bir kavram.
Kullanım alanları
- Sampling stratejilerinin (temperature, top-k, top-p) uygulandığı katman
- Modelin güven skorunu (confidence) ölçme
- Logit bias ile belirli token'ları teşvik etme veya engelleme
- structured output ve JSON mode gibi kısıtlı üretimlerde token filtreleme
- Eğitimde cross-entropy loss hesabı
Ilgili terimler
