Çapraz Entropi (Cross-Entropy)

Çapraz Entropi nedir?

Çapraz entropi, bir modelin tahmin ettiği olasılık dağılımının gerçek doğru cevaba ne kadar yakın olduğunu ölçen bir kayıp fonksiyonudur. Dil modellerinin eğitiminde en sık kullanılan ölçüttür. Model bir sonraki token'ı tahmin ederken her olası kelimeye bir olasılık atar; çapraz entropi de gerçek doğru kelimeye atadığı olasılık ne kadar düşükse o kadar büyük bir ceza üretir.

Nasıl çalışır?

Model her adımda kelime dağarcığındaki tüm token'lar için olasılık çıkarır. Doğru token'a yüksek olasılık verirse kayıp küçük, düşük olasılık verirse kayıp büyük olur. Eğitim sırasında bu kayıp değeri backpropagation •hatanın geriye yayılması• ile ağırlıkları güncellemek için kullanılır. Hedef, milyonlarca örnek üzerinde ortalama çapraz entropiyi mümkün olduğunca düşürmektir.

Matematiksel olarak, doğru cevaba atanan olasılığın negatif logaritmasıdır. Olasılık 1'e yaklaştıkça kayıp 0'a iner; 0'a yaklaştıkça kayıp sonsuza gider. Bu yüzden model "emin olduğu halde yanılırsa" ağır ceza alır.

Neden önemli?

Çapraz entropi olmadan bir modelin ne kadar iyi öğrendiğini sayısal olarak takip edemezsin. Eğitim grafiklerinde gördüğün o aşağı inen "loss" eğrisi genelde çapraz entropidir. Ayrıca perplexity •şaşkınlık ölçütü• doğrudan çapraz entropiden türetilir, yani model karşılaştırmalarının temelinde bu metrik yatar.

Kullanım alanları

Dil modeli eğitimi, sınıflandırma görevleri, fine-tuning •ince ayar• süreçleri ve model değerlendirmesi. Sınıflandırma yapan hemen her sinir ağı bir biçimde çapraz entropi kullanır.

Çapraz Entropi (Cross-Entropy)

Çapraz Entropi nedir?

Nasıl çalışır?

Neden önemli?

Kullanım alanları

Ilgili terimler