Perplexity (Şaşkınlık)
Araç kavramlarıPerplexity nedir?
Perplexity, bir dil modelinin verilen bir metni tahmin etme becerisini ölçen bir değerlendirme metriğidir. Türkçesiyle "şaşkınlık" diyebiliriz: model bir sonraki kelimeyi ne kadar zorlanarak tahmin ediyorsa perplexity o kadar yüksektir. Sezgisel olarak şöyle düşün — model her adımda kaç farklı kelime arasında kararsız kalıyor? Perplexity 10 ise model ortalama 10 seçenek arasında bocalıyor demektir. Değer ne kadar düşükse model o kadar emin ve isabetlidir.
Nasıl çalışır?
Perplexity matematiksel olarak modelin metne atadığı olasılığın tersinin geometrik ortalamasıdır; cross-entropy kaybının üssü olarak hesaplanır. Model bir test metnindeki her token'a bir olasılık verir. Bu olasılıklar yüksekse (model doğru kelimeyi bekliyorduysa) perplexity düşük çıkar. Düşükse perplexity yükselir. Hesap test setine bağlı olduğu için, iki modeli karşılaştırırken aynı veride ölçmek şarttır — farklı tokenizer'lar bile sonucu değiştirir.
Neden önemli?
Perplexity, özellikle pretraining sürecinde modelin ne kadar iyi öğrendiğini izlemenin en pratik yoludur. Eğitim ilerledikçe perplexity'nin düşmesi beklenir. Ayrıca modelleri kıyaslarken hızlı bir referans verir. Ancak tek başına yeterli değildir: düşük perplexity her zaman daha yararlı ya da daha doğru çıktı anlamına gelmez. Bu yüzden gerçek görevlerde benchmark testleriyle birlikte kullanılır.
Kullanım alanları
Model eğitiminde ilerleme takibi, dil modeli karşılaştırması, alan-spesifik (domain) uyum ölçümü ve veri kalitesi değerlendirmesi. Araştırma makalelerinde model performansının standart raporlama metriklerinden biridir.