Word2Vec
Araç kavramlarıWord2Vec nedir?
Word2Vec, kelimeleri sabit boyutlu sayısal vektörlere (embedding) dönüştüren bir tekniktir. 2013'te Google'dan bir ekip tarafından tanıtıldı. Temel fikri şu: benzer bağlamlarda geçen kelimeler benzer vektörlere sahip olmalı. Böylece "köpek" ile "kedi" vektör uzayında birbirine yakın, "köpek" ile "matematik" uzak düşer.
Nasıl çalışır?
Word2Vec, büyük bir metin yığınını tarar ve her kelimeyi çevresindeki kelimelerden tahmin etmeye (ya da tersine) çalışan sığ bir sinir ağı eğitir. İki temel yaklaşımı var: CBOW bir kelimeyi komşularından tahmin eder; skip-gram ise bir kelimeden komşularını tahmin eder. Eğitim bittiğinde ağın öğrendiği ara ağırlıklar kelimelerin embedding'i olur. Ortaya çıkan uzayda anlamlı aritmetik yapabilirsin: "kral" vektöründen "erkek" çıkarıp "kadın" eklediğinde "kraliçe"ye yakın bir yere düşersin. Bu, modelin anlamı açıkça öğretilmeden yakaladığının göstergesi.
Neden önemli?
Word2Vec, kelime anlamını yoğun vektörlerle temsil etme fikrini yaygınlaştırdı ve modern NLP'nin temel taşlarından biri oldu. Bugünün transformer tabanlı bağlamsal embedding'leri daha gelişmiş olsa da, hepsinin kökeninde Word2Vec'in ortaya koyduğu "anlamı geometriye çevir" fikri var. Semantic search ve vector database mantığını anlamak için de iyi bir giriş noktası.
Kullanım alanları
Metin sınıflandırma, benzer belge bulma, öneri sistemleri ve semantic search gibi işlerde kelime embedding'leri hâlâ kullanılıyor. Hafif ve hızlı olması nedeniyle, dev bir dil modeli gerektirmeyen pek çok pratik NLP görevinde Word2Vec ya da benzeri klasik embedding'ler işini görür.
Ilgili terimler
