Kuantizasyon (Quantization)

Kuantizasyon nedir?

Bir AI modeli eğitilirken ağırlıklar genellikle 32-bit veya 16-bit kayan noktalı sayılarla saklanır. Kuantizasyon, bu ağırlıkları daha az bit kullanan formatlara dönüştürür — 8-bit, 4-bit, hatta 2-bit. Sonuç: daha küçük dosya, daha az VRAM, daha hızlı çıkarım.

Orijinal Llama 3.1 70B modeli 16-bit formatında yaklaşık 140 GB yer kaplar. q4_K_M kuantizasyonuyla bu 40 GB'a iner — aynı modeli çok daha erişilebilir bir donanımda çalıştırabilirsin.

Kuantizasyon seviyeleri

Format	Bit	Boyut Etkisi	Kalite Kaybı
f16	16-bit	Orijinal	Yok
q8_0	8-bit	~%50 küçük	Minimal
q4_K_M	4-bit	~%70 küçük	Düşük
q3_K_M	3-bit	~%75 küçük	Orta
q2_K	2-bit	~%80 küçük	Belirgin

En yaygın tercih q4_K_M — kalite kaybı çoğu görev için fark edilmiyor, boyut ve hız kazancı ise ciddi.

Format adlarındaki harfler ne anlama gelir?

q4_K_M gibi format isimlerini bir kez çözdüğünde seçim kolaylaşıyor:

q → quantization (kuantizasyon)
4 → kaç bit kullanıldığı
K → "K-quant" yöntemi — ağırlıkları gruplara ayırıp her gruba ayrı ölçekleme faktörü uygular, sabit bit'ten daha isabetli
M → boyut sınıfı: S (small/küçük), M (medium/orta), L (large/büyük)

Yani q4_K_M = "4-bit, K-quant yöntemi, orta boy" demek. q4_K_S ile karşılaştırıldığında q4_K_M biraz daha büyük ama kalitesi daha iyi.

Nasıl çalışır?

Kuantizasyon iki ana yaklaşımla yapılır:

PTQ (Post-Training Quantization — Eğitim Sonrası Kuantizasyon): Model eğitildikten sonra ağırlıklar dönüştürülür. Hızlı ve yaygın — Hugging Face'teki GGUF modellerin büyük çoğunluğu bu yöntemle üretilmiş.

QAT (Quantization-Aware Training — Kuantizasyon Farkındalıklı Eğitim): Model eğitim sırasında kuantizasyona göre optimize edilir. Daha kaliteli sonuç verir ama eğitim maliyeti yüksek — büyük laboratuvarların kullandığı yöntem.

Kuantizasyon, ağırlık değerlerini daha dar bir aralığa "sıkıştırır". 0.7342819 gibi bir değer, 4-bit formatında yaklaşık bir değerle temsil edilir. K-quant yöntemi bu sıkıştırmayı gruplar halinde yaparak hatayı minimize eder.

Neden bazı modeller daha dayanıklı?

Kuantizasyon kalite kaybı modelden modele değişir. Genel kural: model ne kadar büyükse kuantizasyona o kadar dayanıklı. 70B modeli q4'e indirmek, 3B modeli q4'e indirmekten çok daha az kalite kaybı yaratır — büyük modelde ağırlık dağılımı daha zengin olduğu için sıkıştırmaya toleransı yüksek.

GGUF formatı ve yerel çalıştırma

GGUF •llama.cpp ekosistemi tarafından geliştirilen, kuantize edilmiş modeller için standart format; Ollama ve LM Studio tarafından doğrudan desteklenir• formatı yerel çalıştırmanın standardı haline geldi.

Hugging Face'te GGUF modeli bulmak:

huggingface.co/models adresine git
Arama kutusuna model adını yaz, yanına "GGUF" ekle: "Mistral 7B GGUF"
Ya da filtreden "GGUF" library'sini seç
Model sayfasında "Files and versions" sekmesinde .gguf uzantılı dosyaları görürsün
İstediğin kuantizasyon seviyesini seç ve indir

Ollama'da format seçimi: Ollama modeli otomatik indirir ve sisteme uygun kuantizasyonu seçer. Elle belirlemek istersen model adının sonuna etiket ekleyebilirsin:

ollama run llama3.1:8b-instruct-q4_K_M

Hangi formatı seçmeliyim?

Durum	Önerilen Format
VRAM kısıtlı, hız önemli	q4_K_M
Kalite öncelikli, VRAM yeterli	q8_0 veya f16
Çok kısıtlı donanım	q3_K_M (kabul edilebilir kalite)
Prodüksiyon, en yüksek kalite	f16 (sunucu ortamı)
Günlük sohbet, not alma	q4_K_M yeterli
Kod yazma, analiz	q4_K_M veya q8_0

Kalite farkını test etmenin en kolay yolu: aynı soruyu q4_K_M ve q8_0 versiyonlarına sorarak çıktıları karşılaştır. Çoğu görevde fark göremezsin.

Neden önemli?

Kuantizasyon olmadan yerel AI çalıştırmak çok daha pahalı donanım gerektirirdi. 7B modeli f16 formatında çalıştırmak için 14 GB VRAM gerekir; q4_K_M ile bu 4–6 GB'a iner. Aynı kart, iki kat büyük modeli çalıştırabilir hale gelir.

Model kuantizasyonu, açık kaynak AI'ın sıradan donanımlara taşınmasının en kritik teknolojik adımı. "LLM quantization" ve "model quantization" konularında Türkçe kaynak oldukça az — bu alanın yerli kaynağı olmak SEO açısından ciddi bir fırsat.