Verim (Throughput)
MimariThroughput nedir?
Throughput (Verim), bir AI sisteminin belirli bir süre içinde işleyebildiği toplam iş miktarını ifade eder. LLM'ler özelinde genellikle "saniyede kaç token üretildi" (tokens/sec) ya da "saniyede kaç istek yanıtlandı" (requests/sec) olarak ölçülür.
Nasıl çalışır?
Throughput iki ana faktörden etkilenir:
Donanım kapasitesi: GPU/TPU sayısı, bellek bant genişliği ve VRAM miktarı doğrudan etkiler. Daha fazla paralel hesaplama, daha yüksek verim demektir.
Sistem optimizasyonları: Birkaç farklı istek aynı anda işlenebilir (batching). KV Cache, speculative decoding ve continuous batching gibi teknikler throughput'u önemli ölçüde artırır.
Throughput ile latency (gecikme) arasında klasik bir denge vardır: aynı anda çok istek işlemek toplam verimi artırır ama tek bir isteğin yanıt süresi uzayabilir.
Neden önemli?
Bir modelin ne kadar "zeki" olduğu tek başına yetmez — üretim ortamında ne kadar kullanıcıya hizmet edebildiği de kritik. Düşük throughput; yüksek maliyet, uzun bekleme süreleri ve ölçeklenme sorunları demektir.
API sağlayıcıları throughput limitlerini rate limit politikalarıyla yönetir. Self-hosted deployment'larda ise throughput optimizasyonu doğrudan maliyeti belirler.
Kullanım alanları
- API kapasitesi planlaması: Kaç eşzamanlı kullanıcı desteklenebilir?
- Maliyet hesabı: Token başına maliyet, throughput verimliliğiyle doğrudan ilişkili
- Benchmark karşılaştırması: Farklı model ve donanım konfigürasyonlarını değerlendirme
- Otonom sistemler: Yüksek frekanslı karar gerektiren agentic iş akışlarında kritik