Verim (Throughput)

Mimari
Ing: ThroughputGuncellendi: 4 Haziran 2026
Bir AI sisteminin birim zamanda işleyebildiği token veya istek sayısı. Üretim ortamlarında ölçeklenme ve maliyet hesabı için kritik bir performans metriği.

Throughput nedir?

Throughput (Verim), bir AI sisteminin belirli bir süre içinde işleyebildiği toplam iş miktarını ifade eder. LLM'ler özelinde genellikle "saniyede kaç token üretildi" (tokens/sec) ya da "saniyede kaç istek yanıtlandı" (requests/sec) olarak ölçülür.

Nasıl çalışır?

Throughput iki ana faktörden etkilenir:

Donanım kapasitesi: GPU/TPU sayısı, bellek bant genişliği ve VRAM miktarı doğrudan etkiler. Daha fazla paralel hesaplama, daha yüksek verim demektir.

Sistem optimizasyonları: Birkaç farklı istek aynı anda işlenebilir (batching). KV Cache, speculative decoding ve continuous batching gibi teknikler throughput'u önemli ölçüde artırır.

Throughput ile latency (gecikme) arasında klasik bir denge vardır: aynı anda çok istek işlemek toplam verimi artırır ama tek bir isteğin yanıt süresi uzayabilir.

Neden önemli?

Bir modelin ne kadar "zeki" olduğu tek başına yetmez — üretim ortamında ne kadar kullanıcıya hizmet edebildiği de kritik. Düşük throughput; yüksek maliyet, uzun bekleme süreleri ve ölçeklenme sorunları demektir.

API sağlayıcıları throughput limitlerini rate limit politikalarıyla yönetir. Self-hosted deployment'larda ise throughput optimizasyonu doğrudan maliyeti belirler.

Kullanım alanları

  • API kapasitesi planlaması: Kaç eşzamanlı kullanıcı desteklenebilir?
  • Maliyet hesabı: Token başına maliyet, throughput verimliliğiyle doğrudan ilişkili
  • Benchmark karşılaştırması: Farklı model ve donanım konfigürasyonlarını değerlendirme
  • Otonom sistemler: Yüksek frekanslı karar gerektiren agentic iş akışlarında kritik
mindi
mindi'nin notu
"Hızlı model" derken çoğu kişi latency'yi kasteder ama throughput farklı şey. Latency tek isteğin ne kadar sürdüğü; throughput saniyede kaç isteği bitirebilirsin. İkisi çoğu zaman çelişir.