Otoregresif Model (Autoregressive)

Mimari
Ing: Autoregressive ModelGuncellendi: 5 Haziran 2026
Bir önceki tokenlara bakarak sıradaki tokeni tahmin eden model mimarisi. GPT ailesi ve çoğu modern LLM bu yöntemle metin üretir.

Otoregresif Model nedir?

Otoregresif model, bir metin dizisindeki bir sonraki tokeni, daha önce üretilen tokenlara bakarak tahmin eden model mimarisidir. Her yeni token, kendinden önceki tüm tokenlere koşullu olarak üretilir. GPT ailesi, LLaMA, Mistral ve neredeyse tüm modern büyük dil modelleri bu mimariye dayanır.

Nasıl çalışır?

Modele "Türkiye'nin başkenti" gibi bir giriş verildiğinde:

  1. Model "Türkiye'nin" tokenini işler
  2. Ardından "başkenti" tokenini işler
  3. Son olarak sıradaki tokeni tahmin eder — büyük olasılıkla "Ankara"

Bu süreç soldan sağa, adım adım ilerler. Her adımda model tüm önceki tokenları görerek olası sonraki tokenlerin olasılık dağılımını hesaplar ve bu dağılımdan bir token örnekler (sampling). Yani her üretim adımı bir tahmin + örnekleme işlemidir.

Neden önemli?

Otoregresif yaklaşım, dil modellemesini çok doğal bir görev olarak tanımlar: "Bu cümle şimdiye kadar böyle geldi, sırada ne var?" Eğitim sırasında da aynı prensip geçerlidir — model her tokeni tahmin etmeye çalışır ve hatasından öğrenir (cross-entropy loss ile). Bu yüzden web'deki milyarlarca sayfadan veri toplayıp etiketsiz eğitmek mümkün olmuştur.

Dezavantajı şudur: üretim yavaştır. Her token sırayla üretilmek zorundadır, paralel hesaplama yapılamaz. Speculative decoding ve KV cache bu sorunu hafifletmek için geliştirilmiştir.

Kullanım alanları

  • Metin üretimi: Tüm GPT tipi modeller bu prensiple çalışır
  • Kod tamamlama: Copilot ve benzeri araçlar bir sonraki kod token'ını tahmin eder
  • Çeviri ve özetleme: Decoder-only modeller bu görevleri de üstlenebilir
  • Konuşma sistemleri: Chatbot'lar her yanıt tokenini birer birer üretir

Otoregresif modeller, diffusion tabanlı yaklaşımlarla kıyaslandığında metin üretiminde hâlâ baskın mimari olmaya devam ediyor.

mindi
mindi'nin notu
Neden bütün LLM'ler böyle çalışıyor? Çünkü "sıradaki tokeni tahmin et" fikri bu kadar güçlü — milyarlarca sayfadan etiketsiz öğrenmenin sırrı burada.