GPU'ya Yük Aktarma (GPU Offload)
Araç kavramlarıGPU offload nedir?
GPU offload, yerel olarak çalıştırdığın bir dil modelinin katmanlarının ne kadarının ekran kartına (GPU), ne kadarının işlemciye (CPU) yükleneceğini belirleyen ayardır. Modern modeller üst üste dizili transformer •dil modellerinin temel mimarisi• katmanlarından oluşur; bir model onlarca katman içerebilir. GPU offload, bu katmanların kaçının GPU'da koşacağını söyler.
Nasıl çalışır?
GPU, model çalıştırmada CPU'dan kat kat hızlıdır — ama sınırlı VRAM •ekran kartının kendi belleği• kapasitesi vardır. Bir model VRAM'a tam sığarsa tüm katmanları GPU'ya verip en yüksek hızı alırsın. Sığmazsa katmanları bölersin: bir kısmı GPU'da, kalanı sistem RAM'inde CPU tarafından işlenir.
llama.cpp gibi motorlarda bu ayar n_gpu_layers ile yapılır. Her katman kabaca eşit miktarda VRAM tüketir, yani offload neredeyse doğrusal ölçeklenir: katmanların yarısını GPU'ya verirsen hızlanmanın da yaklaşık yarısını alırsın. Kritik eşik şu: model veya KV cache •üretim sırasında biriken bağlam belleği• VRAM'den taşıp RAM'e sarktığı an, hız bir uçurumdan düşer. Amaç, bellek dolması (OOM) hatası almadan mümkün olduğunca çok katmanı GPU'da tutmak.
Neden önemli?
Yerel model çalıştırırken hızı doğrudan belirleyen ayar bu. Yüksek tutarsan hızlı ama bellek dolabilir; düşük tutarsan güvenli ama yavaş. Donanımına göre doğru değeri bulmak, kullanılabilir bir kurulum ile sürünen bir kurulum arasındaki farktır.
Kullanım alanları
Sınırlı VRAM'li ekran kartlarında büyük modelleri kısmen GPU'ya yükleyerek çalıştırmak için kullanılır. Pratik yöntem: önce yüksek bir değer (ör. tümü) dene; yüklenirse model tam sığmış demektir. Bellek dolarsa kademeli düşür. Quantization •modeli küçültüp belleğe sığdırma tekniği• ile birlikte, mütevazı donanımda büyük model çalıştırmanın iki ana kaldıracından biri.
Ilgili terimler
