Atoms ile kod yazmadan uygulama kur — AI ekibin senin için planlasın, kodlasın, deploy etsindene →
⚡ Öne ÇıkanYapay zekaya sıfırdan başla. Ücretsiz Eğitimler

Veri Sızıntısı (Data Leakage)

Veri & eğitim
Ing: Data LeakageGuncellendi: 22 Haziran 2026
Modelin eğitimde görmemesi gereken bilgiyi gizlice görmesi. Testte harika, gerçek hayatta rezalet sonuç verir.

Data Leakage nedir?

Data leakage (veri sızıntısı), bir makine öğrenmesi modelinin, eğitim sırasında erişmemesi gereken bilgiye kazara erişmesidir. Sonuç aldatıcıdır: model test sonuçlarında muhteşem görünür ama gerçek dünyada kullanıldığında çuvallar. Çünkü aslında problemi çözmeyi değil, sızan ipuçlarını ezberlemeyi öğrenmiştir.

Nasıl çalışır?

En klasik biçimi, test verisinin eğitim verisine karışmasıdır. Mesela normalizasyon ya da özellik seçimini tüm veri üzerinde yapıp sonra bölersen, test setinin bilgisi eğitime sızar. Bir diğer yaygın tuzak, hedef değişkenle doğrudan ilişkili ama tahmin anında elde olmayan bir özelliği modele vermektir; örneğin bir hastalığı tahmin ederken o hastalık için yazılan ilaç bilgisini girdi olarak kullanmak. Model bunu görür, kestirme yapar ve sahte bir başarı üretir.

Neden önemli?

Sızıntı, makine öğrenmesindeki en sinsi hatalardan biri çünkü her şey yolundaymış gibi görünür: doğruluk yüksek, grafikler güzel. Sorun ancak model üretime çıkıp gerçek veriyle karşılaştığında ortaya çıkar ve o noktada güven ciddi şekilde sarsılır. Bilimsel çalışmalarda bile tekrarlanabilirlik krizinin önemli bir nedeni olarak gösteriliyor.

Kullanım alanları

Sızıntıyı önlemek her ciddi makine öğrenmesi projesinin parçasıdır: veri bölmesini en başta yapmak, cross-validation kurarken sızıntıya dikkat etmek, zaman serilerinde geleceğe ait veriyi geçmişe karıştırmamak ve her özelliğin tahmin anında gerçekten elde olup olmadığını sorgulamak. Sağlık, finans ve risk modellerinde özellikle kritik.

mindi
mindi'nin notu
Modelin %99 doğruluk verdiyse önce sevinme, sızıntı var mı diye bak. Çoğu zaman fazla iyi olan sonuç sahte.