Otoregresif Model (Autoregressive)

Otoregresif Model nedir?

Otoregresif model, bir metin dizisindeki bir sonraki tokeni, daha önce üretilen tokenlara bakarak tahmin eden model mimarisidir. Her yeni token, kendinden önceki tüm tokenlere koşullu olarak üretilir. GPT ailesi, LLaMA, Mistral ve neredeyse tüm modern büyük dil modelleri bu mimariye dayanır.

Nasıl çalışır?

Modele "Türkiye'nin başkenti" gibi bir giriş verildiğinde:

Model "Türkiye'nin" tokenini işler
Ardından "başkenti" tokenini işler
Son olarak sıradaki tokeni tahmin eder — büyük olasılıkla "Ankara"

Bu süreç soldan sağa, adım adım ilerler. Her adımda model tüm önceki tokenları görerek olası sonraki tokenlerin olasılık dağılımını hesaplar ve bu dağılımdan bir token örnekler (sampling). Yani her üretim adımı bir tahmin + örnekleme işlemidir.

Neden önemli?

Otoregresif yaklaşım, dil modellemesini çok doğal bir görev olarak tanımlar: "Bu cümle şimdiye kadar böyle geldi, sırada ne var?" Eğitim sırasında da aynı prensip geçerlidir — model her tokeni tahmin etmeye çalışır ve hatasından öğrenir (cross-entropy loss ile). Bu yüzden web'deki milyarlarca sayfadan veri toplayıp etiketsiz eğitmek mümkün olmuştur.

Dezavantajı şudur: üretim yavaştır. Her token sırayla üretilmek zorundadır, paralel hesaplama yapılamaz. Speculative decoding ve KV cache bu sorunu hafifletmek için geliştirilmiştir.

Kullanım alanları

Metin üretimi: Tüm GPT tipi modeller bu prensiple çalışır
Kod tamamlama: Copilot ve benzeri araçlar bir sonraki kod token'ını tahmin eder
Çeviri ve özetleme: Decoder-only modeller bu görevleri de üstlenebilir
Konuşma sistemleri: Chatbot'lar her yanıt tokenini birer birer üretir

Otoregresif modeller, diffusion tabanlı yaklaşımlarla kıyaslandığında metin üretiminde hâlâ baskın mimari olmaya devam ediyor.

Otoregresif Model (Autoregressive)

Otoregresif Model nedir?

Nasıl çalışır?

Neden önemli?

Kullanım alanları

Ilgili terimler