Verim (Throughput)

Throughput nedir?

Throughput (Verim), bir AI sisteminin belirli bir süre içinde işleyebildiği toplam iş miktarını ifade eder. LLM'ler özelinde genellikle "saniyede kaç token üretildi" (tokens/sec) ya da "saniyede kaç istek yanıtlandı" (requests/sec) olarak ölçülür.

Nasıl çalışır?

Throughput iki ana faktörden etkilenir:

Donanım kapasitesi: GPU/TPU sayısı, bellek bant genişliği ve VRAM miktarı doğrudan etkiler. Daha fazla paralel hesaplama, daha yüksek verim demektir.

Sistem optimizasyonları: Birkaç farklı istek aynı anda işlenebilir (batching). KV Cache, speculative decoding ve continuous batching gibi teknikler throughput'u önemli ölçüde artırır.

Throughput ile latency (gecikme) arasında klasik bir denge vardır: aynı anda çok istek işlemek toplam verimi artırır ama tek bir isteğin yanıt süresi uzayabilir.

Neden önemli?

Bir modelin ne kadar "zeki" olduğu tek başına yetmez — üretim ortamında ne kadar kullanıcıya hizmet edebildiği de kritik. Düşük throughput; yüksek maliyet, uzun bekleme süreleri ve ölçeklenme sorunları demektir.

API sağlayıcıları throughput limitlerini rate limit politikalarıyla yönetir. Self-hosted deployment'larda ise throughput optimizasyonu doğrudan maliyeti belirler.

Kullanım alanları

API kapasitesi planlaması: Kaç eşzamanlı kullanıcı desteklenebilir?
Maliyet hesabı: Token başına maliyet, throughput verimliliğiyle doğrudan ilişkili
Benchmark karşılaştırması: Farklı model ve donanım konfigürasyonlarını değerlendirme
Otonom sistemler: Yüksek frekanslı karar gerektiren agentic iş akışlarında kritik

Verim (Throughput)

Throughput nedir?

Nasıl çalışır?

Neden önemli?

Kullanım alanları

Ilgili terimler