Öz-Dikkat (Self-Attention)
MimariÖz-dikkat nedir?
Öz-dikkat (self-attention), bir dizideki her elemanın aynı dizideki diğer tüm elemanlarla olan ilişkisini ölçen bir mekanizmadır. Yani model, bir kelimeyi işlerken cümlenin geri kalanına bakar ve "hangi kelime bu kelimeyi anlamak için önemli?" sorusunu yanıtlar. Bugünkü büyük dil modellerinin temelini oluşturan transformer mimarisi tamamen bu fikrin üzerine kuruludur.
Nasıl çalışır?
Her token için üç vektör üretilir: query (sorgu), key (anahtar) ve value (değer). Bir token'ın query vektörü, diğer tüm token'ların key vektörleriyle karşılaştırılır; bu karşılaştırma bir benzerlik skoru verir. Skorlar softmax ile ağırlıklara dönüştürülür ve value vektörleri bu ağırlıklara göre toplanır. Sonuç: her token, bağlama göre yeniden şekillenmiş yeni bir temsile kavuşur.
"Kediyi gördü çünkü o açtı" cümlesinde "o" kelimesinin neye işaret ettiğini çözmek için model, öz-dikkat sayesinde "kedi" ile "o" arasında yüksek bir ağırlık kurar. Pratikte bu işlem tek seferde değil, paralel çalışan birden fazla attention head •farklı ilişki türlerini yakalayan paralel dikkat birimleri• ile yapılır.
Neden önemli?
Öz-dikkatten önce diller RNN ve LSTM gibi sıralı modellerle işleniyordu; bunlar uzun cümlelerde bağlamı kaybediyor ve paralelleştirilemiyordu. Öz-dikkat, dizinin tamamını aynı anda görebildiği için hem uzun bağımlılıkları yakalar hem de GPU'larda verimli çalışır. 2017'deki "Attention Is All You Need" makalesi bu mekanizmayı merkeze koyarak modern yapay zekânın yönünü değiştirdi.
Kullanım alanları
Öz-dikkat; metin üretimi, çeviri, özetleme, kod tamamlama ve hatta görüntü işleme (Vision Transformer) gibi alanların temelinde yer alır. GPT, Claude ve Gemini gibi tüm büyük modeller katman katman öz-dikkat blokları içerir. Kısaca: bir dil modeli bağlamı anlıyorsa, arka planda öz-dikkat çalışıyordur.
Ilgili terimler
