Atoms ile kod yazmadan uygulama kur — AI ekibin senin için planlasın, kodlasın, deploy etsindene →

GPU'ya Yük Aktarma (GPU Offload)

Araç kavramları
Ing: GPU OffloadGuncellendi: 15 Haziran 2026
Bir modelin katmanlarının ne kadarının GPU'da, ne kadarının CPU'da çalışacağını belirleme. Yerel model çalıştırmanın hız–bellek dengesi.

GPU offload nedir?

GPU offload, yerel olarak çalıştırdığın bir dil modelinin katmanlarının ne kadarının ekran kartına (GPU), ne kadarının işlemciye (CPU) yükleneceğini belirleyen ayardır. Modern modeller üst üste dizili transformerdil modellerinin temel mimarisi• katmanlarından oluşur; bir model onlarca katman içerebilir. GPU offload, bu katmanların kaçının GPU'da koşacağını söyler.

Nasıl çalışır?

GPU, model çalıştırmada CPU'dan kat kat hızlıdır — ama sınırlı VRAMekran kartının kendi belleği• kapasitesi vardır. Bir model VRAM'a tam sığarsa tüm katmanları GPU'ya verip en yüksek hızı alırsın. Sığmazsa katmanları bölersin: bir kısmı GPU'da, kalanı sistem RAM'inde CPU tarafından işlenir.

llama.cpp gibi motorlarda bu ayar n_gpu_layers ile yapılır. Her katman kabaca eşit miktarda VRAM tüketir, yani offload neredeyse doğrusal ölçeklenir: katmanların yarısını GPU'ya verirsen hızlanmanın da yaklaşık yarısını alırsın. Kritik eşik şu: model veya KV cacheüretim sırasında biriken bağlam belleği• VRAM'den taşıp RAM'e sarktığı an, hız bir uçurumdan düşer. Amaç, bellek dolması (OOM) hatası almadan mümkün olduğunca çok katmanı GPU'da tutmak.

Neden önemli?

Yerel model çalıştırırken hızı doğrudan belirleyen ayar bu. Yüksek tutarsan hızlı ama bellek dolabilir; düşük tutarsan güvenli ama yavaş. Donanımına göre doğru değeri bulmak, kullanılabilir bir kurulum ile sürünen bir kurulum arasındaki farktır.

Kullanım alanları

Sınırlı VRAM'li ekran kartlarında büyük modelleri kısmen GPU'ya yükleyerek çalıştırmak için kullanılır. Pratik yöntem: önce yüksek bir değer (ör. tümü) dene; yüklenirse model tam sığmış demektir. Bellek dolarsa kademeli düşür. Quantizationmodeli küçültüp belleğe sığdırma tekniği• ile birlikte, mütevazı donanımda büyük model çalıştırmanın iki ana kaldıracından biri.

mindi
mindi'nin notu
Yerel modelde hızın anahtarı. Önce "tümünü GPU'ya" dene; yüklenmezse kademeli düşür. Model VRAM'den RAM'e taştığı an hız uçurumdan düşer — o eşiği bulmak her şey.