BLEU (Bilingual Evaluation Understudy)

BLEU nedir?

BLEU (Bilingual Evaluation Understudy), bir modelin ürettiği metnin insan referansına ne kadar yakın olduğunu sayıya döken bir değerlendirme metriği. İlk olarak makine çevirisini otomatik ölçmek için tasarlandı; bugün de metin üreten sistemlerin karşılaştırılmasında sık kullanılan bir referans nokta.

Skor 0 ile 1 arasında (çoğu zaman 100'le çarpılarak yüzde gibi gösterilir). Yüksek BLEU, üretilen metnin referansa kelime ve kelime grubu düzeyinde daha çok benzediği anlamına gelir.

Nasıl çalışır?

BLEU temelde n-gram örtüşmesine bakar. Yani üretilen cümledeki tek kelimeler, ikili kelime grupları, üçlü ve dörtlü gruplar referans cümlede ne kadar geçiyor diye sayar. Bu örtüşmelerin oranı skoru belirler.

İki ek mekanizma işi dengede tutar. Birincisi, aynı kelimeyi tekrar tekrar yazıp puan şişirmeyi engelleyen bir kırpma kuralı. İkincisi, çok kısa cevap verip kolay yoldan yüksek isabet almayı cezalandıran "brevity penalty" — yani gereğinden kısa metinler puan kaybeder.

Neden önemli?

Çünkü çevirinin veya üretimin kalitesini her seferinde insana ölçtürmek pahalı ve yavaş. BLEU otomatik, tekrarlanabilir ve hızlı bir sayı verir; iki model sürümünü kıyaslarken ya da bir eğitim sırasında ilerlemeyi izlerken pratik bir pusula olur.

Ama sınırları var: anlamı değil yüzeysel kelime örtüşmesini ölçer. "Çok iyi" ile "harika" gibi eşanlamlı ama farklı kelimeler kullanan doğru bir çeviri, düşük BLEU alabilir. Bu yüzden günümüzde çoğu zaman ROUGE, METEOR ya da model tabanlı skorlarla birlikte okunur.

Kullanım alanları

Makine çevirisi başta olmak üzere metin özetleme, başlık üretimi ve kod üretimi değerlendirmelerinde BLEU karşına çıkar. Akademik bir benchmark tablosunda iki sistemi yan yana koyan sayılardan biri büyük ihtimalle BLEU'dur.

BLEU (Bilingual Evaluation Understudy)

BLEU nedir?

Nasıl çalışır?

Neden önemli?

Kullanım alanları

Ilgili terimler