Kuantizasyon (Quantization)
Araç kavramlarıKuantizasyon nedir?
Bir AI modeli eğitilirken ağırlıklar genellikle 32-bit veya 16-bit kayan noktalı sayılarla saklanır. Kuantizasyon, bu ağırlıkları daha az bit kullanan formatlara dönüştürür — 8-bit, 4-bit, hatta 2-bit. Sonuç: daha küçük dosya, daha az VRAM, daha hızlı çıkarım.
Orijinal Llama 3.1 70B modeli 16-bit formatında yaklaşık 140 GB yer kaplar. q4_K_M kuantizasyonuyla bu 40 GB'a iner — aynı modeli çok daha erişilebilir bir donanımda çalıştırabilirsin.
Kuantizasyon seviyeleri
| Format | Bit | Boyut Etkisi | Kalite Kaybı |
|---|---|---|---|
| f16 | 16-bit | Orijinal | Yok |
| q8_0 | 8-bit | ~%50 küçük | Minimal |
| q4_K_M | 4-bit | ~%70 küçük | Düşük |
| q3_K_M | 3-bit | ~%75 küçük | Orta |
| q2_K | 2-bit | ~%80 küçük | Belirgin |
En yaygın tercih q4_K_M — kalite kaybı çoğu görev için fark edilmiyor, boyut ve hız kazancı ise ciddi.
Format adlarındaki harfler ne anlama gelir?
q4_K_M gibi format isimlerini bir kez çözdüğünde seçim kolaylaşıyor:
- q → quantization (kuantizasyon)
- 4 → kaç bit kullanıldığı
- K → "K-quant" yöntemi — ağırlıkları gruplara ayırıp her gruba ayrı ölçekleme faktörü uygular, sabit bit'ten daha isabetli
- M → boyut sınıfı: S (small/küçük), M (medium/orta), L (large/büyük)
Yani q4_K_M = "4-bit, K-quant yöntemi, orta boy" demek. q4_K_S ile karşılaştırıldığında q4_K_M biraz daha büyük ama kalitesi daha iyi.
Nasıl çalışır?
Kuantizasyon iki ana yaklaşımla yapılır:
PTQ (Post-Training Quantization — Eğitim Sonrası Kuantizasyon): Model eğitildikten sonra ağırlıklar dönüştürülür. Hızlı ve yaygın — Hugging Face'teki GGUF modellerin büyük çoğunluğu bu yöntemle üretilmiş.
QAT (Quantization-Aware Training — Kuantizasyon Farkındalıklı Eğitim): Model eğitim sırasında kuantizasyona göre optimize edilir. Daha kaliteli sonuç verir ama eğitim maliyeti yüksek — büyük laboratuvarların kullandığı yöntem.
Kuantizasyon, ağırlık değerlerini daha dar bir aralığa "sıkıştırır". 0.7342819 gibi bir değer, 4-bit formatında yaklaşık bir değerle temsil edilir. K-quant yöntemi bu sıkıştırmayı gruplar halinde yaparak hatayı minimize eder.
Neden bazı modeller daha dayanıklı?
Kuantizasyon kalite kaybı modelden modele değişir. Genel kural: model ne kadar büyükse kuantizasyona o kadar dayanıklı. 70B modeli q4'e indirmek, 3B modeli q4'e indirmekten çok daha az kalite kaybı yaratır — büyük modelde ağırlık dağılımı daha zengin olduğu için sıkıştırmaya toleransı yüksek.
GGUF formatı ve yerel çalıştırma
GGUF •llama.cpp ekosistemi tarafından geliştirilen, kuantize edilmiş modeller için standart format; Ollama ve LM Studio tarafından doğrudan desteklenir• formatı yerel çalıştırmanın standardı haline geldi.
Hugging Face'te GGUF modeli bulmak:
- huggingface.co/models adresine git
- Arama kutusuna model adını yaz, yanına "GGUF" ekle: "Mistral 7B GGUF"
- Ya da filtreden "GGUF" library'sini seç
- Model sayfasında "Files and versions" sekmesinde
.ggufuzantılı dosyaları görürsün - İstediğin kuantizasyon seviyesini seç ve indir
Ollama'da format seçimi: Ollama modeli otomatik indirir ve sisteme uygun kuantizasyonu seçer. Elle belirlemek istersen model adının sonuna etiket ekleyebilirsin:
ollama run llama3.1:8b-instruct-q4_K_M
Hangi formatı seçmeliyim?
| Durum | Önerilen Format |
|---|---|
| VRAM kısıtlı, hız önemli | q4_K_M |
| Kalite öncelikli, VRAM yeterli | q8_0 veya f16 |
| Çok kısıtlı donanım | q3_K_M (kabul edilebilir kalite) |
| Prodüksiyon, en yüksek kalite | f16 (sunucu ortamı) |
| Günlük sohbet, not alma | q4_K_M yeterli |
| Kod yazma, analiz | q4_K_M veya q8_0 |
Kalite farkını test etmenin en kolay yolu: aynı soruyu q4_K_M ve q8_0 versiyonlarına sorarak çıktıları karşılaştır. Çoğu görevde fark göremezsin.
Neden önemli?
Kuantizasyon olmadan yerel AI çalıştırmak çok daha pahalı donanım gerektirirdi. 7B modeli f16 formatında çalıştırmak için 14 GB VRAM gerekir; q4_K_M ile bu 4–6 GB'a iner. Aynı kart, iki kat büyük modeli çalıştırabilir hale gelir.
Model kuantizasyonu, açık kaynak AI'ın sıradan donanımlara taşınmasının en kritik teknolojik adımı. "LLM quantization" ve "model quantization" konularında Türkçe kaynak oldukça az — bu alanın yerli kaynağı olmak SEO açısından ciddi bir fırsat.