Aktivasyon Fonksiyonu (Activation Function)

Mimari
Ing: Activation FunctionGuncellendi: 5 Haziran 2026
Sinir ağı katmanlarına doğrusal olmayan davranış kazandıran matematiksel fonksiyon. ReLU, GELU, SiLU bunların en bilinenleri.

Aktivasyon Fonksiyonu nedir?

Aktivasyon fonksiyonu, yapay sinir ağlarındaki her katmana doğrusal olmayan (non-linear) davranış kazandıran matematiksel işlemdir. Olmadan, bir sinir ağı ne kadar derin olursa olsun matematiksel açıdan tek bir doğrusal dönüşüme indirgenirdi. Aktivasyon fonksiyonları bu sınırı ortadan kaldırır ve modelin karmaşık örüntüler öğrenmesini mümkün kılar.

Nasıl çalışır?

Bir nöron, girdi değerlerini ağırlıklarla çarpar ve toplar. Bu toplama aktivasyon fonksiyonu uygulanır:

  • ReLU (Rectified Linear Unit): Negatif değerleri sıfırlar, pozitifleri olduğu gibi geçirir. Hesaplaması ucuz ve yaygın kullanımlı, ancak "ölü nöron" (dying ReLU) problemi var.
  • GELU (Gaussian Error Linear Unit): Transformer mimarilerinde (BERT, GPT) tercih edilir. ReLU'nun daha yumuşak, olasılıksal bir versiyonu.
  • SiLU / Swish: LLaMA, Mistral gibi açık kaynak modellerde yaygın. GELU'ya benzer performans, farklı hesaplama yolu.
  • Sigmoid: 0 ile 1 arasında çıktı üretir; sınıflandırma ve gate mekanizmalarında kullanılır.
  • Tanh: -1 ile 1 arasında çıktı; eski mimarilerde yaygındı, artık çok az kullanılıyor.

Neden önemli?

Modern transformer modelleri, attention katmanlarının yanı sıra feed-forward network (FFN) bloklarına da sahiptir. Bu FFN bloklarının içinde aktivasyon fonksiyonları bulunur. Seçilen fonksiyon hem eğitim hızını hem de nihai model performansını doğrudan etkiler.

Aktivasyon fonksiyonları aynı zamanda gradyan akışını (gradient flow) da belirler. ReLU'nun dying ReLU problemi araştırmacıları GELU ve SiLU'ya yöneltmiştir. Günümüzde yeni mimarilerde GELU ve SiLU standart hale gelmiştir.

Kullanım alanları

  • Transformer FFN katmanları: Her transformer bloğunda attention'ın ardından gelen FFN'de kullanılır
  • Sınıflandırma başlıkları: Son katmanda olasılık dağılımı üretmek için softmax
  • Görüntü modelleri: CNN'lerde ReLU ve türevleri hâlâ baskın
  • Ses ve çok modlu modeller: Whisper gibi modellerde GELU yaygınlaşmıştır
  • Gate mekanizmaları: LSTM ve GRU gibi mimarilerde sigmoid ve tanh birlikte kullanılır
mindi
mindi'nin notu
Aktivasyon olmasa sinir ağı aslında tek bir matris çarpımına indirgenir — tüm derinlik ve karmaşıklık bu küçük fonksiyondan geliyor.