Adam Optimizasyon Algoritması (Adam Optimizer)
İş akışıAdam Optimizer nedir?
Adam (Adaptive Moment Estimation), bir sinir ağını eğitirken model ağırlıklarını nasıl güncelleyeceğini belirleyen bir optimizasyon algoritmasıdır. 2014'te tanıtıldı ve hızla derin öğrenmenin varsayılan optimizer'ı haline geldi. İsmi bir kişiden gelmiyor; "adaptive moment" ifadesinin kısaltması.
Nasıl çalışır?
Adam, klasik gradient descent'in üstüne iki fikir ekler. Birincisi momentum: gradyanların geçmiş ortalamasını tutarak güncellemelere bir atalet kazandırır, böylece gürültülü adımlar yumuşar. İkincisi adaptif öğrenme hızı: her parametre için gradyanların karesinin ortalamasını izleyerek o parametreye özel bir learning rate ayarlar. Sık ve büyük gradyan alan parametreler daha küçük, seyrek güncellenenler daha büyük adımlarla ilerler. Bu iki momentin tahminleri bir bias düzeltmesiyle birleştirilir ve ağırlıklar buna göre güncellenir.
Neden önemli?
Adam'ın cazibesi, çoğu problemde ekstra ayar gerektirmeden "kutudan çıktığı gibi" iyi çalışmasıdır. Learning rate'i elle ince ayarlamak zahmetli bir iştir; Adam bu yükün büyük kısmını üstlenir. Bu yüzden araştırmadan üretime kadar pek çok yerde ilk tercih olur. Büyük dil modellerinin eğitiminde de sıklıkla Adam'ın bir varyantı (örneğin AdamW) kullanılır.
Kullanım alanları
Görüntü, dil, ses — hemen her derin öğrenme probleminde model eğitiminin varsayılan optimizer'ı Adam ya da türevleridir. Fine-tuning yaparken, sıfırdan model eğitirken ya da küçük bir sinir ağını denerken karşına çıkacak ilk seçenek büyük ihtimalle Adam olacak.
Ilgili terimler
