QLoRA (Quantized Low-Rank Adaptation)
Veri & eğitimQLoRA nedir?
QLoRA (Quantized Low-Rank Adaptation), büyük dil modellerini düşük bellekle fine-tune etmek için 2023'te (Dettmers ve ekibi) tanıtılan bir yöntem. Normalde 65 milyar parametreli bir modeli ince ayar yapmak onlarca GB VRAM ve birden çok GPU ister; QLoRA bunu tek bir 48 GB GPU'ya indirir — hem de tam hassasiyetli (16-bit) fine-tuning kalitesini koruyarak.
Nasıl çalışır?
Fikir LoRA'nın üstüne kuruludur. Model ağırlıkları 4-bit'e sıkıştırılır (quantization) ve donmuş halde tutulur; eğitim sırasında bu donmuş modelin üstüne eklenen küçük, düşük-ranklı LoRA adaptörleri güncellenir. Yani devasa ağırlıklara hiç dokunulmaz, sadece minik adaptörler öğrenir. QLoRA üç yenilik getirir: normal dağılan ağırlıklar için optimal olan 4-bit NormalFloat (NF4) veri tipi, sıkıştırma sabitlerini de sıkıştıran double quantization, ve bellek sıçramalarını yöneten paged optimizers. Üçü birlikte hassasiyeti düşürmeden belleği uçurur.
Neden önemli?
QLoRA, büyük model fine-tuning'ini erişilebilir hale getirdi — tek atölye/tüketici GPU'su olan biri bile kendi verisiyle güçlü bir model uyarlayabiliyor. Açık kaynak dünyasındaki özel-amaçlı model patlamasının arkasındaki tekniklerden.
Kullanım alanları
Kendi verinle chatbot veya alan-özel asistan eğitmek, sınırlı donanımda (tek GPU, düşük VRAM) büyük modelleri uyarlamak, tam fine-tuning'in pahalı olduğu her senaryo. Yerelde model deneyenler için QLoRA, "büyük modeli kendi görevime nasıl öğretirim" sorusunun en pratik cevabı.
Ilgili terimler
