Doğrudan Tercih Optimizasyonu (DPO)

DPO nedir?

Direct Preference Optimization (DPO), dil modellerini insan tercihlerine göre hizalamak için kullanılan bir eğitim yöntemidir. RLHF'nin (Reinforcement Learning from Human Feedback) daha sade ve kararlı bir alternatifi olarak 2023 yılında tanıtılmıştır.

Temel fark: RLHF ayrı bir ödül modeli eğitip ardından pekiştirmeli öğrenme uygular. DPO bu iki adımı tek bir supervised öğrenme hedefine indirger.

Nasıl çalışır?

DPO eğitimi şu adımlarla ilerler:

Tercih verisi hazırlama: Her örnek için iki yanıt bulunur — biri tercih edilen (chosen), diğeri reddedilen (rejected). İnsan etiketleyiciler hangi yanıtın daha iyi olduğunu işaretler.
Kayıp fonksiyonu: DPO, modelin tercih edilen yanıta reddedilenden daha yüksek olasılık ataması için özel bir kayıp fonksiyonu kullanır. Bu fonksiyon, referans modelle (genellikle SFT checkpoint'i) karşılaştırmalı olarak çalışır.
Tek aşamalı eğitim: Ödül modeli eğitimine gerek kalmadan, politika modeli (policy model) doğrudan tercih verisinden güncellenir.

Matematiksel olarak DPO, RLHF'nin çözümünü kapalı formda ifade eder ve bu sayede ayrı bir RL döngüsü gerektirmez.

Neden önemli?

DPO'nun yaygınlaşması birkaç pratik avantajdan kaynaklanır:

Daha az hesaplama: Ayrı ödül modeli eğitimi ve PPO döngüsü gerektirmez
Kararlılık: RLHF'nin hiperparametre hassasiyeti ve eğitim kararsızlığı sorunlarından büyük ölçüde kaçınır
Yeniden üretilebilirlik: Supervised öğrenme altyapısıyla çalışır, özel RL kütüphanesi gerekmez
Açık kaynak uyumu: Kısıtlı kaynaklarla bile uygulanabilir olduğundan araştırma ve açık kaynak topluluğunda hızla benimsendi

Kullanım alanları

Hizalama eğitimi: Modelin zararlı, yanlış veya alakasız yanıtlar vermemesi için
Ton ve stil ayarı: Belirli bir ses tonu veya yanıt formatı için modeli yönlendirme
Domain fine-tuning: Belirli bir alanda hangi yanıt türünün tercih edildiğini öğretme
Açık kaynak model geliştirme: Büyük RL altyapısı gerektirmeden hizalama sağlama

DPO ve türevleri (IPO, KTO gibi) günümüz açık kaynak model eğitiminde standart araçlar haline gelmiştir.

Doğrudan Tercih Optimizasyonu (DPO)

DPO nedir?

Nasıl çalışır?

Neden önemli?

Kullanım alanları

Ilgili terimler