Dikkat Başlığı (Attention Head)

Mimari
Ing: Attention HeadGuncellendi: 3 Haziran 2026
Transformer'larda dikkat mekanizmasının paralel çalışan tek bir birimi. Her başlık metindeki farklı bir ilişki türüne odaklanır.

Dikkat Başlığı nedir?

Dikkat başlığı, transformer mimarisindeki attention •dikkat mekanizması• yapısının tek bir paralel birimidir. Modern dil modelleri tek bir dikkat hesabı yapmaz; bunun yerine "multi-head attention" denilen yapıda aynı anda birden çok başlık çalıştırır. Her başlık, metindeki kelimeler arasındaki farklı bir ilişki türünü yakalamayı öğrenir.

Nasıl çalışır?

Her dikkat başlığı, girdideki her token için üç vektör üretir: sorgu (query), anahtar (key) ve değer (value). Başlık, bir token'ın sorgusunu diğer tüm token'ların anahtarlarıyla karşılaştırarak hangi kelimelere ne kadar "dikkat" edeceğine karar verir. Sonra bu ağırlıklarla değer vektörlerini birleştirir.

Bir model genelde her katmanda 8, 16, hatta 32 başlık çalıştırır. Bir başlık dilbilgisel uyumu takip ederken, diğeri uzak bağlamdaki bir özneyi, bir başkası noktalama ilişkilerini izleyebilir. Tüm başlıkların çıktıları birleştirilip tek bir temsile dönüştürülür. Bu çeşitlilik, modelin metni çok katmanlı biçimde anlamasını sağlar.

Neden önemli?

Tek bir dikkat hesabı her şeyi aynı anda yakalayamaz. Birden çok başlık, modele aynı cümleyi farklı açılardan okuma imkanı verir. Bu yüzden transformer'ların gücünün büyük kısmı çok başlıklı dikkatten gelir. Yorumlanabilirlik araştırmalarında da tek tek başlıkların ne öğrendiğine bakmak popüler bir yöntemdir.

Kullanım alanları

Tüm büyük dil modelleri, çeviri sistemleri, görüntü transformer'ları ve metin anlama görevleri. Transformer •dönüştürücü mimari• tabanlı her modelde dikkat başlıkları çalışır.

Kaynak:arXiv
mindi
mindi'nin notu
bir modelin nasıl "düşündüğünü" merak ediyorsan, dikkat başlıklarına bakmak en eğlenceli giriş noktası. Her biri kendi işine bakan minik bir uzman.