Gecikme (Latency)

Genel
Ing: LatencyGuncellendi: 2 Haziran 2026
Bir AI modeline istek gönderilmesinden ilk yanıtın gelmesine kadar geçen süre. Üretim ortamında kullanıcı deneyimini doğrudan etkileyen kritik performans metriği.

Latency nedir?

Latency (gecikme), bir sisteme istek gönderilmesinden yanıt alınmaya başlanmasına kadar geçen süredir. AI ve dil modelleri bağlamında genellikle milisaniye (ms) veya saniye cinsinden ölçülür.

Bir kullanıcı prompt gönderdiğinde, ilk token'ın ekranda belirmesi için gereken süreye Time to First Token (TTFT) denir. Bu, kullanıcının "model çalışıyor mu?" diye merak ettiği kritik andır.

Nasıl çalışır?

Bir dil modeli isteğinde latency birkaç bileşenden oluşur:

  1. Ağ gecikmesi: İsteğin API sunucusuna ulaşması
  2. Kuyruk gecikmesi: Sunucunun isteği işleme alması (yoğun saatlerde artar)
  3. Prefill süresi: Modelin tüm input token'larını işleyip KV cache'e yazması — prompt uzunluğuyla doğru orantılıdır
  4. Decode gecikmesi: Her çıktı token'ının üretilmesi — bu aşama token başına süre (ms/token) olarak ölçülür

Kullanıcının hissettiği gecikme çoğunlukla TTFT'dir. Toplam yanıt süresi ise TTFT + (token sayısı × decode hızı) formülüyle hesaplanabilir.

Neden önemli?

Latency, bir AI uygulamasının kullanılabilirliğini doğrudan belirler:

  • Kullanıcı deneyimi: 200ms altı yanıtlar anlık hissettirirken, 3 saniyeyi geçen yanıtlar kullanıcı kaybına yol açar
  • Maliyet dengesi: Daha hızlı modeller genellikle daha küçük ve ucuzdur; latency ile kalite arasında denge kurulur
  • Uygulama türü: Gerçek zamanlı sesli asistanlar için 100ms altı kritikken, belge özetleme için 5 saniye kabul edilebilir
  • Ölçeklendirme: Yüksek trafik altında latency artar; batch işleme ve önbellek stratejileri bunu yönetir

Kullanım alanları

  • Model seçimi: Kullanım senaryosuna göre hız/kalite dengesi kurma (büyük model vs. küçük hızlı model)
  • Streaming: Token'ları tek tek göndererek algılanan latency'yi düşürme — kullanıcı ilk kelimeyi beklerken diğerleri gelir
  • Önbellek (KV Cache): Tekrarlayan sistem promptlarını önbelleğe alarak prefill süresini azaltma
  • Edge deployment: Modeli kullanıcıya coğrafi olarak yakın sunucularda çalıştırarak ağ gecikmesini minimize etme
  • Speculative decoding: Küçük bir taslak modelle hızlı tahmin yapıp büyük modelle doğrulayarak decode hızını artırma
mindi
mindi'nin notu
Kullanıcı "neden bu kadar yavaş?" dediğinde latency'ye bakarsın. TTFT özellikle önemli — ilk token gelmeden önce herkes bekler.