Yıkıcı Unutma (Catastrophic Forgetting)
Araç kavramlarıYıkıcı Unutma nedir?
Yıkıcı unutma (catastrophic forgetting), bir yapay sinir ağının sıralı olarak yeni bir görev öğrenirken önceki görevlerdeki performansının dramatik biçimde düşmesidir. İnsan beyni yeni bilgiyi öğrenirken eskisini büyük ölçüde korur; yapay sinir ağları ise yeni eğitimle birlikte ağırlıklarını güncellediğinden önceki bilgi üzerine "yazılır".
Bu sorun ilk kez 1989'da McCloskey ve Cohen tarafından tanımlandı ve o günden bu yana sürekli öğrenme (continual learning) araştırmalarının merkezi olmaya devam ediyor.
Nasıl çalışır?
Sinir ağları gradient descent ile eğitilir: her güncelleme, mevcut görevin kaybını azaltmak için ağırlıkları değiştirir. Yeni bir görev geldiğinde bu güncelleme süreci devam eder — ama yeni görevin gradyanları, eski görev için kritik olan ağırlıkları da bozabilir.
Somut örnek: İngilizce-Türkçe çeviri yapabilen bir modeli Fransızca-Türkçe çeviri için fine-tune edersen, İngilizce-Türkçe performansı büyük ihtimalle çöker. Model Fransızca'yı öğrenirken İngilizce bilgisini "unutur".
Neden önemli?
Pratikte AI modelleri sürekli yeni veriyle güncellenmek zorunda. Gerçek dünyada veri statik değil; trendler değişiyor, yeni bilgi üretiliyor. Yıkıcı unutma bu dinamik adaptasyonun önündeki temel engeldir.
Ayrıca fine-tuning yapan herkes bu sorunla dolaylı olarak karşılaşır: base modelin genel yeteneklerini bozmadan belirli bir domain'de uzmanlaşmak ince bir denge gerektirir.
Kullanım alanları
- Continual learning: Modelin zamanla yeni görevler öğrenirken eski bilgiyi koruması
- Fine-tuning stratejisi: LoRA ve PEFT gibi yöntemler kısmen bu sorunu azaltmak için tasarlandı
- Elastic Weight Consolidation (EWC): DeepMind'ın geliştirdiği bu teknik, önceki görevler için önemli olan ağırlıkların değişimini seçici biçimde yavaşlatır — tamamen dondurmaz. Fisher bilgi matrisi kullanarak hangi ağırlıkların kritik olduğunu hesaplar ve bunları L2 regularizasyonuyla korur
- Replay mekanizmaları: Eski görev verilerini yeni eğitime karıştırarak unutmayı yavaşlatma