Doğrudan Tercih Optimizasyonu (DPO)
ModellerIng: Direct Preference OptimizationGuncellendi: 2 Haziran 2026
RLHF'nin daha sade alternatifi. Modeli, insan tercihlerine göre iki yanıtı karşılaştırarak doğrudan eğitir; ayrı bir ödül modeline gerek duymaz.
DPO nedir?
Direct Preference Optimization (DPO), dil modellerini insan tercihlerine göre hizalamak için kullanılan bir eğitim yöntemidir. RLHF'nin (Reinforcement Learning from Human Feedback) daha sade ve kararlı bir alternatifi olarak 2023 yılında tanıtılmıştır.
Temel fark: RLHF ayrı bir ödül modeli eğitip ardından pekiştirmeli öğrenme uygular. DPO bu iki adımı tek bir supervised öğrenme hedefine indirger.
Nasıl çalışır?
DPO eğitimi şu adımlarla ilerler:
- Tercih verisi hazırlama: Her örnek için iki yanıt bulunur — biri tercih edilen (chosen), diğeri reddedilen (rejected). İnsan etiketleyiciler hangi yanıtın daha iyi olduğunu işaretler.
- Kayıp fonksiyonu: DPO, modelin tercih edilen yanıta reddedilenden daha yüksek olasılık ataması için özel bir kayıp fonksiyonu kullanır. Bu fonksiyon, referans modelle (genellikle SFT checkpoint'i) karşılaştırmalı olarak çalışır.
- Tek aşamalı eğitim: Ödül modeli eğitimine gerek kalmadan, politika modeli (policy model) doğrudan tercih verisinden güncellenir.
Matematiksel olarak DPO, RLHF'nin çözümünü kapalı formda ifade eder ve bu sayede ayrı bir RL döngüsü gerektirmez.
Neden önemli?
DPO'nun yaygınlaşması birkaç pratik avantajdan kaynaklanır:
- Daha az hesaplama: Ayrı ödül modeli eğitimi ve PPO döngüsü gerektirmez
- Kararlılık: RLHF'nin hiperparametre hassasiyeti ve eğitim kararsızlığı sorunlarından büyük ölçüde kaçınır
- Yeniden üretilebilirlik: Supervised öğrenme altyapısıyla çalışır, özel RL kütüphanesi gerekmez
- Açık kaynak uyumu: Kısıtlı kaynaklarla bile uygulanabilir olduğundan araştırma ve açık kaynak topluluğunda hızla benimsendi
Kullanım alanları
- Hizalama eğitimi: Modelin zararlı, yanlış veya alakasız yanıtlar vermemesi için
- Ton ve stil ayarı: Belirli bir ses tonu veya yanıt formatı için modeli yönlendirme
- Domain fine-tuning: Belirli bir alanda hangi yanıt türünün tercih edildiğini öğretme
- Açık kaynak model geliştirme: Büyük RL altyapısı gerektirmeden hizalama sağlama
DPO ve türevleri (IPO, KTO gibi) günümüz açık kaynak model eğitiminde standart araçlar haline gelmiştir.
Ilgili terimler
mindi
mindi'nin notu
RLHF'nin RL kısmını kovdu, supervised learning'e döndürdü. Daha az baş ağrısı, neredeyse aynı sonuç. Açık kaynak dünyasının gözdesi.