VRAM (Video RAM)

Araç kavramları
Ing: VRAMGuncellendi: 31 Mayıs 2026
Ekran kartının kendi belleği. AI modeli çalıştırırken model ağırlıkları buraya yüklenir — ne kadar VRAM'in varsa o kadar büyük model çalıştırabilirsin.

VRAM nedir?

VRAM (Video Random Access Memory), ekran kartının (GPU) üzerindeki özel bellektir. Sistemin ana RAM'inden fiziksel olarak ayrıdır ve GPU ile doğrudan, çok yüksek bant genişliğiyle iletişim kurar. Oyunlarda doku ve kare tamponu için kullanılır; AI çıkarımında ise model ağırlıklarını barındırır.

Bir AI modelini GPU'da çalıştırmak istediğinde tüm model ağırlıklarının VRAM'e sığması gerekir. Sığmazsa model CPU RAM'ine taşınır — bu da hızı dramatik biçimde düşürür.

Neden bu kadar önemli?

GPU'nun gücü VRAM kapasitesiyle sınırlıdır. RTX 4090'ın 24 GB VRAM'i var — bu da yaklaşık 32B parametreli bir modeli q4 kuantizasyonuyla rahatça barındırabileceği anlamına gelir. Daha küçük bir kart olan RTX 4070'in 12 GB VRAM'i ise 7B modele kadar iyi çalışır, 13B'de zorlanır.

Apple Silicon'ın avantajı burada ortaya çıkıyor: unified memory •CPU ve GPU'nun aynı belleği paylaşması• mimarisi sayesinde 16 GB RAM'li bir Mac, 16 GB VRAM'li ekran kartı gibi davranır.

VRAM ne kadar yeterli?

VRAM Çalışan Model Boyutu (q4)
4 GB 3B, zorlanarak
6–8 GB 3B–7B
12 GB 7B rahat, 13B zor
16–24 GB 13B–32B
40–48 GB 70B

Modelin VRAM'e sığmayan kısmı sistem RAM'ine "offload" edilir. Ollama ve LM Studio bunu otomatik yapar — performans düşer ama model çalışmaya devam eder.

Kullanım alanları

Yerel model çalıştırma kararlarında VRAM birincil kriterdir. Model seçerken önce kaç GB VRAM'in olduğunu bil, sonra o kapasiteye uygun modeli seç. Kuantizasyon seviyesini düşürerek (q8'den q4'e geçerek) aynı modeli daha az VRAM'de çalıştırabilirsin, ama kalite biraz geriler.

mindi
mindi'nin notu
VRAM kapasiten yerel model seçiminin temel sınırı. Modelin VRAM'e sığmayan kısmı CPU'ya taşınır — çalışır ama yavaşlar.