Veri Çoğaltma (Data Augmentation)
Veri & eğitimVeri çoğaltma nedir?
Veri çoğaltma, mevcut eğitim verisine küçük ve anlamı bozmayan dönüşümler uygulayarak yeni örnekler üretme tekniği. Bir kedi fotoğrafını yatay çevirsen, biraz döndürsen ya da parlaklığını değiştirsen hâlâ bir kedi fotoğrafıdır — ama model için artık "yeni" bir örnektir. Böylece veri toplamadan veri setini büyütmüş olursun.
Sentetik veriyle karıştırılmamalı: sentetik veri sıfırdan üretilir, veri çoğaltma ise eldeki gerçek veriyi dönüştürür.
Nasıl çalışır?
Dönüşümler veri tipine göre değişir. Görüntüde klasikler: çevirme, döndürme, kırpma, renk ve parlaklık oynamaları, gürültü ekleme. Daha ileri teknikler de var: iki görüntüyü ve etiketlerini harmanlayan mixup, görüntünün rastgele bölgesini kesip başkasıyla dolduran cutmix gibi.
Metinde işler daha naziktir çünkü küçük bir değişiklik anlamı bozabilir. Yaygın yöntemler: kelimeleri eş anlamlılarıyla değiştirme, geri çeviri (cümleyi başka dile çevirip geri çevirme), rastgele kelime silme veya ekleme. Seste ise hız değiştirme, perde kaydırma ve arka plan gürültüsü ekleme kullanılır.
Kritik kural: dönüşüm, etiketin geçerliliğini korumalı. El yazısı rakam tanıma yapıyorsan 6''yı 180 derece döndürmek onu 9 yapar — etiket bozulur, model yanlış öğrenir.
Neden önemli?
Derin öğrenme modelleri veriye doymaz; ama etiketli veri toplamak pahalı ve yavaştır. Veri çoğaltma bu açığı ucuza kapatır. İkinci büyük faydası overfitting''i azaltması: model aynı örneğin farklı varyasyonlarını gördüğünde ezberlemek yerine genellemeyi öğrenir. Az veriyle çalışan herkesin — özellikle niş alanlarda model eğitenlerin — ilk başvurduğu tekniklerden biridir.
Kullanım alanları
Tıbbi görüntülemede etiketli veri kıttır, bu yüzden veri çoğaltma neredeyse standarttır. Otonom araç eğitiminde farklı hava ve ışık koşulları simüle edilir. Konuşma tanımada farklı aksan ve ortam gürültüleri taklit edilir. Düşük kaynaklı dillerde — Türkçe NLP dahil — geri çeviri gibi tekniklerle veri seti büyütmek yaygın bir pratiktir.
Uygulamaya geçmek de kolay: çoğu derin öğrenme kütüphanesi yaygın dönüşümleri hazır sunar, eğitim sırasında anlık (on-the-fly) uygulanabildiği için disk alanı da harcamaz. Hangi dönüşümlerin işe yaradığını görmek için küçük bir doğrulama setiyle denemeler yapmak, körlemesine hepsini açmaktan her zaman daha iyi sonuç verir.