Gecikme (Latency)

Latency nedir?

Latency (gecikme), bir sisteme istek gönderilmesinden yanıt alınmaya başlanmasına kadar geçen süredir. AI ve dil modelleri bağlamında genellikle milisaniye (ms) veya saniye cinsinden ölçülür.

Bir kullanıcı prompt gönderdiğinde, ilk token'ın ekranda belirmesi için gereken süreye Time to First Token (TTFT) denir. Bu, kullanıcının "model çalışıyor mu?" diye merak ettiği kritik andır.

Nasıl çalışır?

Bir dil modeli isteğinde latency birkaç bileşenden oluşur:

Ağ gecikmesi: İsteğin API sunucusuna ulaşması
Kuyruk gecikmesi: Sunucunun isteği işleme alması (yoğun saatlerde artar)
Prefill süresi: Modelin tüm input token'larını işleyip KV cache'e yazması — prompt uzunluğuyla doğru orantılıdır
Decode gecikmesi: Her çıktı token'ının üretilmesi — bu aşama token başına süre (ms/token) olarak ölçülür

Kullanıcının hissettiği gecikme çoğunlukla TTFT'dir. Toplam yanıt süresi ise TTFT + (token sayısı × decode hızı) formülüyle hesaplanabilir.

Neden önemli?

Latency, bir AI uygulamasının kullanılabilirliğini doğrudan belirler:

Kullanıcı deneyimi: 200ms altı yanıtlar anlık hissettirirken, 3 saniyeyi geçen yanıtlar kullanıcı kaybına yol açar
Maliyet dengesi: Daha hızlı modeller genellikle daha küçük ve ucuzdur; latency ile kalite arasında denge kurulur
Uygulama türü: Gerçek zamanlı sesli asistanlar için 100ms altı kritikken, belge özetleme için 5 saniye kabul edilebilir
Ölçeklendirme: Yüksek trafik altında latency artar; batch işleme ve önbellek stratejileri bunu yönetir

Kullanım alanları

Model seçimi: Kullanım senaryosuna göre hız/kalite dengesi kurma (büyük model vs. küçük hızlı model)
Streaming: Token'ları tek tek göndererek algılanan latency'yi düşürme — kullanıcı ilk kelimeyi beklerken diğerleri gelir
Önbellek (KV Cache): Tekrarlayan sistem promptlarını önbelleğe alarak prefill süresini azaltma
Edge deployment: Modeli kullanıcıya coğrafi olarak yakın sunucularda çalıştırarak ağ gecikmesini minimize etme
Speculative decoding: Küçük bir taslak modelle hızlı tahmin yapıp büyük modelle doğrulayarak decode hızını artırma

Gecikme (Latency)

Latency nedir?

Nasıl çalışır?

Neden önemli?

Kullanım alanları

Ilgili terimler