Q-Öğrenme (Q-Learning)
Araç kavramlarıQ-öğrenme nedir?
Q-öğrenme (Q-learning), reinforcement learning'in temel algoritmalarından biridir. Bir ajanın, çevresiyle deneme yanılma yoluyla etkileşerek her durumda hangi aksiyonun uzun vadede en çok ödül getireceğini öğrenmesini sağlar. Q harfi, bir durum-aksiyon çiftinin beklenen toplam değerini (quality) temsil eder.
Nasıl çalışır?
Ajan bir Q-tablosu tutar: her durum ve o durumda yapılabilecek her aksiyon için bir değer saklar. Ajan bir aksiyon seçer, ödülü ve yeni durumu gözlemler, sonra o durum-aksiyon değerini günceller. Güncelleme, anlık ödül ile gelecekteki en iyi hamlenin tahmini değerini birleştirir; bu fikre Bellman denklemi denir. Ajan başta bolca keşif (exploration) yapar, zamanla öğrendiğini kullanmaya (exploitation) kayar. Yeterince tekrar sonra Q değerleri en iyi stratejiye yakınsar.
Neden önemli?
Q-öğrenme, modern derin pekiştirmeli öğrenmenin temelini attı. Durum sayısı çok büyük olduğunda Q-tablosu yerini bir neural network alır; buna Deep Q-Network (DQN) denir ve DeepMind bu yöntemle Atari oyunlarını piksellerden öğrenen ilk sistemi kurdu. Etiketli veri gerektirmeden, sadece ödül sinyaliyle öğrenebilmesi onu robotikten oyuna kadar geniş bir alanda değerli kılar.
Kullanım alanları
Oyun oynayan ajanlar, robot kontrolü, trafik ışığı ve kaynak optimizasyonu, öneri sistemleri ve otonom karar verme senaryolarında kullanılır. Ödül tanımlanabilen ve ajanın tekrar tekrar deneyebildiği her problemde uygulanabilir.
Ilgili terimler
