Atoms ile kod yazmadan uygulama kur — AI ekibin senin için planlasın, kodlasın, deploy etsindene →
⚡ Öne ÇıkanYapay zekaya sıfırdan başla. Ücretsiz Eğitimler

Q-Öğrenme (Q-Learning)

Araç kavramları
Ing: Q-LearningGuncellendi: 5 Temmuz 2026
Bir ajanın deneme yanılmayla en iyi hamleyi öğrendiği klasik reinforcement learning algoritması. Her durum-aksiyon çiftine bir değer biçer.

Q-öğrenme nedir?

Q-öğrenme (Q-learning), reinforcement learning'in temel algoritmalarından biridir. Bir ajanın, çevresiyle deneme yanılma yoluyla etkileşerek her durumda hangi aksiyonun uzun vadede en çok ödül getireceğini öğrenmesini sağlar. Q harfi, bir durum-aksiyon çiftinin beklenen toplam değerini (quality) temsil eder.

Nasıl çalışır?

Ajan bir Q-tablosu tutar: her durum ve o durumda yapılabilecek her aksiyon için bir değer saklar. Ajan bir aksiyon seçer, ödülü ve yeni durumu gözlemler, sonra o durum-aksiyon değerini günceller. Güncelleme, anlık ödül ile gelecekteki en iyi hamlenin tahmini değerini birleştirir; bu fikre Bellman denklemi denir. Ajan başta bolca keşif (exploration) yapar, zamanla öğrendiğini kullanmaya (exploitation) kayar. Yeterince tekrar sonra Q değerleri en iyi stratejiye yakınsar.

Neden önemli?

Q-öğrenme, modern derin pekiştirmeli öğrenmenin temelini attı. Durum sayısı çok büyük olduğunda Q-tablosu yerini bir neural network alır; buna Deep Q-Network (DQN) denir ve DeepMind bu yöntemle Atari oyunlarını piksellerden öğrenen ilk sistemi kurdu. Etiketli veri gerektirmeden, sadece ödül sinyaliyle öğrenebilmesi onu robotikten oyuna kadar geniş bir alanda değerli kılar.

Kullanım alanları

Oyun oynayan ajanlar, robot kontrolü, trafik ışığı ve kaynak optimizasyonu, öneri sistemleri ve otonom karar verme senaryolarında kullanılır. Ödül tanımlanabilen ve ajanın tekrar tekrar deneyebildiği her problemde uygulanabilir.

Kaynak:arXiv
mindi
mindi'nin notu
Köpeğe ödülle numara öğretmek gibi: doğru hamle ödül getirir, ajan da zamanla ödülü en çoklaştıran yolu ezberler. Fark, ajanın milyonlarca kez deneyebilmesi.