Veri Sızıntısı (Data Leakage)
Veri & eğitimData Leakage nedir?
Data leakage (veri sızıntısı), bir makine öğrenmesi modelinin, eğitim sırasında erişmemesi gereken bilgiye kazara erişmesidir. Sonuç aldatıcıdır: model test sonuçlarında muhteşem görünür ama gerçek dünyada kullanıldığında çuvallar. Çünkü aslında problemi çözmeyi değil, sızan ipuçlarını ezberlemeyi öğrenmiştir.
Nasıl çalışır?
En klasik biçimi, test verisinin eğitim verisine karışmasıdır. Mesela normalizasyon ya da özellik seçimini tüm veri üzerinde yapıp sonra bölersen, test setinin bilgisi eğitime sızar. Bir diğer yaygın tuzak, hedef değişkenle doğrudan ilişkili ama tahmin anında elde olmayan bir özelliği modele vermektir; örneğin bir hastalığı tahmin ederken o hastalık için yazılan ilaç bilgisini girdi olarak kullanmak. Model bunu görür, kestirme yapar ve sahte bir başarı üretir.
Neden önemli?
Sızıntı, makine öğrenmesindeki en sinsi hatalardan biri çünkü her şey yolundaymış gibi görünür: doğruluk yüksek, grafikler güzel. Sorun ancak model üretime çıkıp gerçek veriyle karşılaştığında ortaya çıkar ve o noktada güven ciddi şekilde sarsılır. Bilimsel çalışmalarda bile tekrarlanabilirlik krizinin önemli bir nedeni olarak gösteriliyor.
Kullanım alanları
Sızıntıyı önlemek her ciddi makine öğrenmesi projesinin parçasıdır: veri bölmesini en başta yapmak, cross-validation kurarken sızıntıya dikkat etmek, zaman serilerinde geleceğe ait veriyi geçmişe karıştırmamak ve her özelliğin tahmin anında gerçekten elde olup olmadığını sorgulamak. Sağlık, finans ve risk modellerinde özellikle kritik.
Ilgili terimler
