VRAM (Video RAM)
Araç kavramlarıVRAM nedir?
VRAM (Video Random Access Memory), ekran kartının (GPU) üzerindeki özel bellektir. Sistemin ana RAM'inden fiziksel olarak ayrıdır ve GPU ile doğrudan, çok yüksek bant genişliğiyle iletişim kurar. Oyunlarda doku ve kare tamponu için kullanılır; AI çıkarımında ise model ağırlıklarını barındırır.
Bir AI modelini GPU'da çalıştırmak istediğinde tüm model ağırlıklarının VRAM'e sığması gerekir. Sığmazsa model CPU RAM'ine taşınır — bu da hızı dramatik biçimde düşürür.
Neden bu kadar önemli?
GPU'nun gücü VRAM kapasitesiyle sınırlıdır. RTX 4090'ın 24 GB VRAM'i var — bu da yaklaşık 32B parametreli bir modeli q4 kuantizasyonuyla rahatça barındırabileceği anlamına gelir. Daha küçük bir kart olan RTX 4070'in 12 GB VRAM'i ise 7B modele kadar iyi çalışır, 13B'de zorlanır.
Apple Silicon'ın avantajı burada ortaya çıkıyor: unified memory •CPU ve GPU'nun aynı belleği paylaşması• mimarisi sayesinde 16 GB RAM'li bir Mac, 16 GB VRAM'li ekran kartı gibi davranır.
VRAM ne kadar yeterli?
| VRAM | Çalışan Model Boyutu (q4) |
|---|---|
| 4 GB | 3B, zorlanarak |
| 6–8 GB | 3B–7B |
| 12 GB | 7B rahat, 13B zor |
| 16–24 GB | 13B–32B |
| 40–48 GB | 70B |
Modelin VRAM'e sığmayan kısmı sistem RAM'ine "offload" edilir. Ollama ve LM Studio bunu otomatik yapar — performans düşer ama model çalışmaya devam eder.
Kullanım alanları
Yerel model çalıştırma kararlarında VRAM birincil kriterdir. Model seçerken önce kaç GB VRAM'in olduğunu bil, sonra o kapasiteye uygun modeli seç. Kuantizasyon seviyesini düşürerek (q8'den q4'e geçerek) aynı modeli daha az VRAM'de çalıştırabilirsin, ama kalite biraz geriler.