Yığın Boyutu (Batch Size)
Araç kavramlarıYığın boyutu nedir?
Batch size, bir dil modelinin token'ları kaçarlı gruplar halinde işleyeceğini belirleyen ayardır. Özellikle prompt'u ilk okuma (prefill) aşamasında devreye girer: uzun bir metni model tek tek değil, parça parça toplu işler. Yerel model arayüzlerinde genelde iki ayrı değer görürsün — mantıksal (logical) ve fiziksel (physical) yığın boyutu.
Nasıl çalışır?
llama.cpp gibi motorlarda mantıksal yığın n_batch, fiziksel yığın ise n_ubatch ile kontrol edilir. Mantıksal yığın, KV cache •üretim sırasında biriken bağlam belleği•'in bir seferde kaç yeni token kabul edeceğini; fiziksel yığın ise GPU'nun gerçek hesaplama granülerliğini belirler. Kural: fiziksel boyut, mantıksal boyuttan büyük olamaz. Varsayılanlar genelde 2048 (mantıksal) ve 512 (fiziksel).
Örnek: 1000 token'lık bir prompt, fiziksel yığın 512 ise iki parçaya bölünür (512 + 488) ve sırayla işlenir. Fiziksel yığını düşürmek tepe GPU bellek kullanımını azaltır ama parça sayısı arttığı için ek yük getirir.
Neden önemli?
Uzun prompt'larla çalışıyorsan, batch size prompt'un ne kadar hızlı okunacağını doğrudan etkiler. Yüksek değer hızlı işler ama daha çok bellek ister; düşük değer belleği korur ama yavaşlar. Üretim hızından (token/saniye) çok, prompt işleme aşamasını etkiler.
Kullanım alanları
Uzun belge özetleme, büyük bağlamlı çalışma ve uzun sistem prompt'larıyla iş görürken ayarlanır. VRAM dolma hatası alıyorsan fiziksel yığını düşürmek ilk denenecek çözümlerden biri. Çoğu kullanıcı için varsayılan değerler yeterlidir — ancak bellek sınırındaysan bu ayar nefes aldırabilir.
Ilgili terimler
