Konum Kodlaması (Positional Encoding)

Konum Kodlaması (Positional Encoding) nedir?

Transformer mimarisi doğası gereği "sırasız" çalışır: tüm token'ları aynı anda, paralel olarak işler. Bu verimlilik avantajı sağlarken bir sorun yaratır — model "bu kelime cümlede nerede?" sorusunu yanıtlayamaz. Positional encoding bu boşluğu kapatır: her token'ın embedding vektörüne, o token'ın dizideki konumunu temsil eden bir sinyal eklenir.

Sonuç olarak "Köpek kediyi ısırdı" ile "Kedi köpeği ısırdı" cümleleri model tarafından farklı anlamlar taşıyan girişler olarak değerlendirilebilir.

Nasıl çalışır?

Positional encoding'in iki ana türü vardır:

Sinüs/Kosinüs (Orijinal Transformer): Her konum için sabit bir sinüzoidal dalga deseni hesaplanır ve token embedding'ine toplanır. Matematiksel olarak şöyle tanımlanır:

PE(pos, 2i) = sin(pos / 10000^(2i/d))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d))

Burada pos konum, i boyut indeksi, d ise embedding boyutudur. Bu yöntem eğitim sırasında görülmemiş uzunluklara da genelleşebilir.

Öğrenilen Konum Embeddinglari: GPT ve BERT gibi modellerde her konum için bir embedding tablosu eğitilir. Sinüzoidal yöntemden daha esnek ama maksimum uzunlukla sınırlıdır.

RoPE (Rotary Positional Encoding): Llama, Mistral gibi modern modellerde kullanılır. Konum bilgisini embedding'e toplamak yerine attention hesaplamalarına döndürme (rotation) olarak entegre eder. Daha uzun context'lere daha iyi genelleşir.

ALiBi: Konum kodlaması yerine attention skorlarına doğrudan uzaklık cezası ekler. Eğitim sırasında görülmemiş uzunluklara iyi genelleşir.

Neden önemli?

Dil, sıraya duyarlıdır. Positional encoding olmadan transformer bir "kelime torbası" gibi davranır — sıra bilgisi kaybolur. Bu mekanizmanın doğru seçimi aynı zamanda modelin ne kadar uzun context işleyebileceğini (context window) doğrudan etkiler. RoPE gibi modern yöntemler, uzun bağlam penceresinin mümkün olmasının arkasındaki nedenlerden biridir.

Kullanım alanları

Her transformer tabanlı modelin temel bileşeni (GPT, BERT, T5, Llama...)
Uzun belge işleme ve uzun context pencereleri
Kod üretimi (satır sırası kritik)
Müzik ve zaman serisi üretim modelleri

Konum Kodlaması (Positional Encoding)