Parametre (Parameter)
Araç kavramlarıParametre nedir?
Parametre, bir yapay sinir ağının eğitim sırasında öğrendiği sayısal değerdir. Her parametre, ağın bir bağlantısının ne kadar güçlü olduğunu belirler. Bir modelin "7 milyar parametreli" olması, içinde bu kadar ayarlanabilir sayının bulunması demektir.
Model eğitilmeden önce bu değerler rastgeledir. Eğitim ilerledikçe her parametre, doğru çıktıya biraz daha yaklaşacak şekilde güncellenir. Eğitim bittiğinde elde edilen şey, aslında bu milyarlarca sayının dondurulmuş halidir.
Nasıl çalışır?
Bir metin modeline girdi verdiğinde, girdi önce sayılara çevrilir ve katman katman bu parametrelerle çarpılıp toplanır. Her katman, parametreleri aracılığıyla girdiyi biraz daha anlamlı bir temsile dönüştürür. Çıktı üretilirken kullanılan tek bilgi bu parametrelerde saklıdır.
Parametreler eğitim sırasında gradient descent ve backpropagation ile güncellenir. Modelin tahmini ne kadar yanlışsa, parametreler o kadar düzeltilir.
Neden önemli?
Parametre sayısı, bir modelin kapasitesi hakkında kabaca fikir verir. Daha fazla parametre genelde daha fazla bilgi ve daha karmaşık örüntü demektir, ama aynı zamanda daha fazla bellek, daha yüksek maliyet ve daha yavaş inference anlamına gelir.
Yine de parametre sayısı tek başına kaliteyi belirlemez. Eğitim verisinin kalitesi, mimari ve eğitim süresi en az parametre sayısı kadar önemlidir. Küçük ama iyi eğitilmiş bir model, büyük ama kötü eğitilmiş bir modeli geride bırakabilir.
Kullanım alanları
Parametre sayısı hangi modeli seçersen seç karşına çıkar. Kendi donanımında çalıştırabileceğin bir model arıyorsan parametre sayısı doğrudan VRAM ihtiyacını belirler. Quantization gibi teknikler bu parametreleri daha az yer kaplayacak şekilde sıkıştırır. Fine-tuning yaparken de hangi parametrelerin güncelleneceği maliyeti belirler.