Kosinüs Benzerliği (Cosine Similarity)

Kosinüs Benzerliği nedir?

Kosinüs benzerliği, iki vektör arasındaki açının kosinüsünü hesaplayarak onların ne kadar "aynı yöne baktığını" ölçen bir benzerlik metriğidir. Sonuç -1 ile 1 arasında çıkar: 1''e yaklaştıkça iki vektör birbirine çok benzer, 0 civarında alakasız, -1''e yakınsa tam zıt anlamlıdır. AI dünyasında metinler, görseller ve sesler embedding denen sayı vektörlerine dönüştürülür; bu vektörleri karşılaştırmanın en yaygın yolu da kosinüs benzerliğidir.

Nasıl çalışır?

Formül sade: iki vektörün nokta çarpımını, her birinin uzunluğunun (büyüklüğünün) çarpımına bölersin. Yani K(A, B) = (A·B) / (||A|| × ||B||). İşin püf noktası şu: kosinüs benzerliği vektörlerin uzunluğunu değil, sadece yönünü dikkate alır. Bu yüzden uzun bir doküman ile kısa bir cümle, aynı konudan bahsediyorsa yüksek skor alır — metnin uzunluğu sonucu bozmaz. Vektörler önceden L2-normalize edildiyse, kosinüs benzerliği basit bir nokta çarpımına indirgenir, bu da hesaplamayı çok hızlandırır.

Neden önemli?

Modern AI''ın "anlama" yeteneğinin pratikteki karşılığı çoğu zaman bu metriktir. Bir RAG sisteminde kullanıcının sorusuna en yakın belgeleri bulmak, semantic search''te alakalı sonuçları sıralamak, öneri motorlarında benzer ürünleri eşleştirmek — hepsi arka planda kosinüs benzerliği hesaplar. Hesabı ucuz, ölçeklenebilir ve yorumlaması kolay olduğu için vektör veritabanlarının standart benzerlik ölçütüdür.

Kullanım alanları

Semantic search ve doküman arama, RAG pipeline''larında ilgili context seçimi, öneri sistemleri, kopya/intihal tespiti, müşteri destek botlarında benzer soru eşleştirme ve embedding tabanlı sınıflandırma. Vektör veritabanlarının çoğu (arama yaparken) varsayılan olarak kosinüs benzerliğini kullanır.

Kosinüs Benzerliği (Cosine Similarity)

Kosinüs Benzerliği nedir?

Nasıl çalışır?

Neden önemli?

Kullanım alanları

Ilgili terimler