KL Iraksaması (Kullback-Leibler Divergence)
Araç kavramlarıKL Iraksaması nedir?
KL iraksaması (Kullback-Leibler divergence), iki olasılık dağılımının birbirinden ne kadar ayrıştığını ölçen bir büyüklüktür. Kısaca sorusu şudur: gerçek dağılım P yerine tahmini dağılım Q kullanırsam ne kadar bilgi kaybederim? Sonuç sıfırsa iki dağılım aynıdır; sayı büyüdükçe Q, P'yi o kadar kötü taklit ediyor demektir.
Nasıl çalışır?
Her olası sonuç için iki dağılımın verdiği olasılıklar karşılaştırılır. P'nin yüksek olasılık verdiği ama Q'nun düşük olasılık verdiği yerlerde ceza büyür — model, gerçekte sık olan bir şeye "olmaz" dediğinde en çok burada yanılır. Bu cezaların ağırlıklı toplamı KL değerini verir.
Önemli bir ayrıntı: KL simetrik değildir. Yani P'den Q'ya iraksama ile Q'dan P'ye iraksama genelde farklı çıkar. Bu yüzden KL teknik olarak bir "mesafe" değildir, yönlü bir farktır.
Neden önemli?
Modern yapay zekânın büyük kısmı "tahmin dağılımını gerçeğe yaklaştırma" işidir, KL de tam bunu ölçer. Bir dil modelini eğitirken kullanılan cross-entropy kaybı, aslında KL iraksamasıyla yakın akrabadır. Variational autoencoder (VAE) gibi üretici modeller doğrudan KL terimini kayıp fonksiyonuna koyar. RLHF sürecinde de model, referans modelden fazla uzaklaşmasın diye araya KL cezası eklenir — böylece ince ayar sırasında model "kendini kaybetmez".
Kullanım alanları
Üretici modellerin (VAE, diffusion) eğitimi, dil modeli pretraining ve fine-tuning, RLHF'te politika kısıtlaması, anomali tespiti ve iki veri kümesinin dağılım olarak ne kadar kaydığını (drift) izleme. Kısacası "iki dağılımı kıyaslamam lazım" dediğin her yerde KL karşına çıkar.
Ilgili terimler
