Öğrenme Oranı (Learning Rate)
İş akışıÖğrenme Oranı nedir?
Öğrenme oranı, bir modelin eğitim sırasında her adımda ne kadar büyük bir düzeltme yapacağını belirleyen ayardır. Yapay zeka eğitiminin en kritik hyperparameter'ıdır •yani eğitimden önce elle ayarlanan değer•. Çok yüksekse model dengeyi tutturamaz, çok düşükse öğrenmesi neredeyse sonsuza kadar sürer.
Nasıl çalışır?
Model eğitilirken gradient descent •gradyan inişi• denen yöntemle hatasını azaltmaya çalışır. Her adımda "hatayı azaltmak için ağırlıkları hangi yöne ne kadar değiştirmeliyim?" sorusunu sorar. Öğrenme oranı işte bu "ne kadar"ı belirler. Bir dağdan vadiye inmeye benzet: öğrenme oranı attığın adımın boyudur. Adımların çok büyükse vadinin dibini ıskalar, bir o yana bir bu yana savrulursun. Çok küçükse dibe inmen yıllar alır. Pratikte sabit tek bir değer yerine, eğitim ilerledikçe öğrenme oranını kademeli düşüren scheduler'lar •zamanlayıcılar• kullanılır: başta hızlı, sonra ince ayar.
Neden önemli?
Yanlış öğrenme oranı, mükemmel tasarlanmış bir modeli bile işe yaramaz hale getirir. Eğitim "patlarsa" •loss sonsuza giderse• ya da hiç ilerlemiyorsa, suçlu çoğu zaman öğrenme oranıdır. Doğru değeri bulmak hâlâ biraz deneme-yanılma biraz tecrübe işidir; bu yüzden model eğiten herkesin ilk oynadığı ayar budur.
Kullanım alanları
Sıfırdan model eğitimi, fine-tuning, LoRA gibi hafif uyarlama yöntemleri ve aslında gradyan inişiyle çalışan her makine öğrenmesi sürecinde öğrenme oranı ayarlanır.