QLoRA (Quantized Low-Rank Adaptation)

QLoRA nedir?

QLoRA (Quantized Low-Rank Adaptation), büyük dil modellerini düşük bellekle fine-tune etmek için 2023'te (Dettmers ve ekibi) tanıtılan bir yöntem. Normalde 65 milyar parametreli bir modeli ince ayar yapmak onlarca GB VRAM ve birden çok GPU ister; QLoRA bunu tek bir 48 GB GPU'ya indirir — hem de tam hassasiyetli (16-bit) fine-tuning kalitesini koruyarak.

Nasıl çalışır?

Fikir LoRA'nın üstüne kuruludur. Model ağırlıkları 4-bit'e sıkıştırılır (quantization) ve donmuş halde tutulur; eğitim sırasında bu donmuş modelin üstüne eklenen küçük, düşük-ranklı LoRA adaptörleri güncellenir. Yani devasa ağırlıklara hiç dokunulmaz, sadece minik adaptörler öğrenir. QLoRA üç yenilik getirir: normal dağılan ağırlıklar için optimal olan 4-bit NormalFloat (NF4) veri tipi, sıkıştırma sabitlerini de sıkıştıran double quantization, ve bellek sıçramalarını yöneten paged optimizers. Üçü birlikte hassasiyeti düşürmeden belleği uçurur.

Neden önemli?

QLoRA, büyük model fine-tuning'ini erişilebilir hale getirdi — tek atölye/tüketici GPU'su olan biri bile kendi verisiyle güçlü bir model uyarlayabiliyor. Açık kaynak dünyasındaki özel-amaçlı model patlamasının arkasındaki tekniklerden.

Kullanım alanları

Kendi verinle chatbot veya alan-özel asistan eğitmek, sınırlı donanımda (tek GPU, düşük VRAM) büyük modelleri uyarlamak, tam fine-tuning'in pahalı olduğu her senaryo. Yerelde model deneyenler için QLoRA, "büyük modeli kendi görevime nasıl öğretirim" sorusunun en pratik cevabı.

QLoRA (Quantized Low-Rank Adaptation)

QLoRA nedir?

Nasıl çalışır?

Neden önemli?

Kullanım alanları

Ilgili terimler