Terim Sıklığı–Ters Belge Sıklığı (TF-IDF)
Araç kavramlarıTF-IDF nedir?
TF-IDF, bir kelimenin bir belge içindeki önemini ölçen klasik bir metin temsil yöntemidir. Açılımı "Term Frequency – Inverse Document Frequency", yani Terim Sıklığı ve Ters Belge Sıklığı. Embedding ve transformer modelleri ortaya çıkmadan önce arama motorlarının ve metin sınıflandırma sistemlerinin temelinde bu yöntem vardı; bugün hâlâ hızlı ve şeffaf bir başlangıç noktası olarak kullanılıyor.
Nasıl çalışır?
İki parçadan oluşur. Birincisi terim sıklığı (TF): bir kelime bir belgede kaç kez geçiyor? Ne kadar çok geçerse o belge için o kadar önemli sayılır. İkincisi ters belge sıklığı (IDF): o kelime tüm belge koleksiyonunda ne kadar yaygın? "ve", "bir", "ile" gibi her yerde geçen kelimeler düşük IDF alır, çünkü ayırt edici değiller. Nadiren geçen kelimeler ise yüksek IDF alır.
Bu ikisini çarpınca TF-IDF skoru çıkar. Sonuç şu: bir belgede sık geçen ama diğer belgelerde nadir olan kelimeler yüksek puan alır. Bunlar o belgeyi en iyi tanımlayan kelimelerdir.
Neden önemli?
TF-IDF, anlamlı kelimeleri gürültüden ayırmanın basit ama güçlü bir yoludur. Eğitim gerektirmez, hesaplaması ucuzdur ve sonucu yorumlanabilir — hangi kelimenin neden öne çıktığını doğrudan görebilirsin. Modern embedding tabanlı semantic search yöntemleri anlamı daha iyi yakalasa da, TF-IDF baseline olarak ve hibrit arama sistemlerinde hâlâ değerini koruyor.
Kullanım alanları
Arama motorlarında belge sıralama, metin sınıflandırma (spam filtreleme, konu etiketleme), anahtar kelime çıkarımı ve doküman benzerliği hesaplama. RAG sistemlerinde de keyword tabanlı geri getirme adımında sıkça embedding aramasıyla birlikte kullanılır.
Ilgili terimler
