Katman Normalizasyonu (Layer Normalization)
MimariLayer Normalization nedir?
Layer normalization, bir sinir ağının bir katmanına gelen değerleri tek bir örnek (input) içinde normalize eden, yani ortalaması 0, standart sapması 1 olacak şekilde yeniden ölçekleyen bir tekniktir. Modelin içindeki sayıların kontrolden çıkıp aşırı büyümesini ya da sıfıra çökmesini engeller. Kısacası eğitimi sakin ve dengeli tutar.
Nasıl çalışır?
Katmana gelen aktivasyon vektörünün ortalamasını ve standart sapmasını hesaplar, ardından her değeri bu istatistiklere göre normalize eder. Son adımda öğrenilebilir iki parametre (gamma ve beta) ile ölçek ve kaydırma uygulanır; böylece model gerektiğinde normalizasyonu kısmen geri alabilir.
Batch normalization ile karıştırılır ama farkları net: batch normalization tüm batch boyunca, yani örnekler arası normalize eder ve batch boyutuna bağımlıdır. Layer normalization ise tek bir örneğin tüm özelliklerini normalize eder, batch boyutundan tamamen bağımsızdır. Bu yüzden değişken uzunlukta dizilerle çalışan dil modelleri için çok daha uygundur.
Neden önemli?
Transformer mimarisinin kalbinde yatar. Derin ağlarda gradyanların patlaması ya da kaybolması eğitimi mahveder; layer normalization bunu büyük ölçüde önler ve modelin daha hızlı, daha kararlı öğrenmesini sağlar. Modern büyük dil modellerinin onlarca katmanı üst üste istiflemesi büyük ölçüde bu teknik sayesinde mümkün.
Kullanım alanları
GPT, BERT, T5 ve neredeyse tüm modern Transformer tabanlı modeller layer normalization kullanır. Son yıllarda pre-norm (katman öncesi normalizasyon) ve RMSNorm gibi varyantları da yaygınlaştı; mantık aynı, hedef yine stabil eğitim.
Ilgili terimler
