Uzun-Kısa Vadeli Bellek (LSTM)
MimariLSTM nedir?
LSTM (Long Short-Term Memory, Uzun-Kısa Vadeli Bellek), 1997''de Hochreiter ve Schmidhuber tarafından önerilen özel bir recurrent neural network türü. Klasik RNN''ler uzun dizilerde geçmiş bilgiyi kaybeder — buna "vanishing gradient" yani kaybolan gradyan denir. LSTM tam da bu sorunu çözmek için tasarlandı: cümlenin başındaki bir özneyi, sonundaki fiile bağlayacak kadar uzun süre hatırlayabiliyor.
Nasıl çalışır?
İşin sırrı "cell state" denen bir bellek hattı ve onu yöneten üç kapıda:
Forget gate (unutma kapısı): Geçmiş bilgiden neyi atacağına karar verir. Input gate (giriş kapısı): Yeni gelen bilgiden neyi belleğe yazacağını seçer. Output gate (çıkış kapısı): Bellekten bir sonraki adıma neyi aktaracağını belirler.
Bu kapılar sayesinde ağ, "şu bilgi önemli, sakla" ya da "bunu unut gitsin" diyebiliyor. Cell state boyunca bilgi neredeyse hiç bozulmadan akıyor, gradyan da öyle — bu yüzden uzun dizilerde eğitim stabil kalıyor.
Neden önemli?
LSTM, 2010''lar boyunca makine çevirisinden konuşma tanımaya kadar dizisel her işin omurgasıydı. Google Translate''in eski sürümleri, ilk sesli asistanlar, el yazısı tanıma sistemleri hep LSTM''e dayanıyordu. Transformer mimarisi 2017''de attention ile sahneyi devralana kadar state-of-the-art oydu.
Kullanım alanları
Bugün dev dil modelleri Transformer kullanıyor ama LSTM hâlâ canlı: zaman serisi tahmini (borsa, hava durumu, sensör verisi), düşük kaynaklı cihazlarda hafif dizisel modeller, ve attention''ın pahalı kaldığı uzun sinyal işleme görevleri. Transformer''ı anlamak isteyen herkesin önce LSTM''in çözdüğü problemi anlaması iyi olur — çünkü ikisi de aynı soruya, "uzun bağlamı nasıl tutarım?" sorusuna farklı cevaplar.
Ilgili terimler
