Flash Attention

Flash Attention nedir?

Transformer modellerinde dikkat (attention) mekanizması, dizi uzadıkça hem zaman hem bellek açısından karesel büyür — uzun metinlerde büyük bir darboğaz. Flash Attention bu hesabı yaklaşık (approximate) hale getirmeden, yani aynı kesin sonucu vererek hızlandırır. 2022'de Tri Dao ve ekibinin tanıttığı fikir basit ama etkili: sorun matematikte değil, GPU belleğine yapılan okuma/yazmalarda.

Nasıl çalışır?

Standart dikkat, devasa attention matrisini GPU'nun yavaş ana belleğine (HBM) tam yazar, sonra tekrar okur. Flash Attention bunu yapmaz; hesabı küçük bloklara böler (tiling) ve her bloğu GPU'nun çok hızlı ama küçük on-chip belleğinde (SRAM) işler. Böylece büyük matris hiçbir zaman ana belleğe açılmaz, okuma/yazma sayısı ciddi düşer. Yöntem "IO-aware"dir: darboğazın hesap değil bellek trafiği olduğunu kabul edip ona göre tasarlanmıştır. Çıktı matematiksel olarak tam dikkatle birebir aynıdır, sadece çok daha verimli üretilir.

Neden önemli?

Daha az bellek trafiği hem daha hızlı eğitim hem daha uzun context demek. Flash Attention sayesinde modeller binlerce yerine on binlerce token'lık dizileri makul maliyetle işleyebiliyor. Bugün uzun bağlamlı hemen her transformer'ın altında bu yöntem ya da türevleri çalışır — "uzun context" çağının temel taşlarından.

Kullanım alanları

Uzun metin ve döküman işleyen dil modelleri, uzun dizi/yüksek çözünürlük modelleri, ve eğitim süresini kısaltmak isteyen büyük model eğitimleri. Yerelde model çalıştırırken Flash Attention desteği açıksa aynı VRAM ile daha uzun context elde edersin.

Flash Attention

Flash Attention nedir?

Nasıl çalışır?

Neden önemli?

Kullanım alanları

Ilgili terimler