N-gram
Araç kavramlarıN-gram nedir?
N-gram, bir metindeki ardışık n adet öğenin (kelime ya da karakter) oluşturduğu dizi. n=1 ise unigram (tek kelime), n=2 ise bigram (ikili), n=3 ise trigram. "kara kedi bahçede" cümlesinin bigram'ları: "kara kedi" ve "kedi bahçede".
Nasıl çalışır?
Metni pencere pencere kaydırarak ardışık öğe gruplarını çıkarırsın. Klasik dil modelleri, bir kelimenin gelme olasılığını kendinden önceki n-1 kelimeye bakarak tahmin eder. Örneğin bir trigram modeli son iki kelimeye bakıp bir sonrakini tahmin eder. n büyüdükçe bağlam artar ama veri seyrekleşir; çoğu ikili ya da üçlü kombinasyon eğitim setinde hiç görünmez.
Neden önemli?
Transformer'lardan önce dil modellemenin belkemiği n-gram'lardı: otomatik tamamlama, yazım denetimi ve makine çevirisi hep bu mantıkla çalışıyordu. Bugünün LLM'leri bu sınırı aşsa da, n-gram fikri metin analizinde, arama motorlarında ve değerlendirme metriklerinde (örneğin BLEU) hâlâ yaşıyor.
Kullanım alanları
Metin sınıflandırma özellikleri, arama ve otomatik tamamlama, çeviri kalitesi ölçümü (BLEU), spam filtreleme ve dil tespiti. Basit, hızlı ve şaşırtıcı derecede işe yarayan bir yaklaşım.
Ilgili terimler
