Çapraz Doğrulama (Cross-Validation)
Araç kavramlarıCross-Validation nedir?
Cross-validation (çapraz doğrulama), bir makine öğrenmesi modelinin gerçekten işe yarayıp yaramadığını ölçmenin dürüst yoludur. Modeli tek bir test setiyle değil, veriyi döndüre döndüre birden çok kez sınayarak değerlendirir.
Nasıl çalışır?
En yaygın hali k-fold cross-validation. Veriyi k eşit parçaya (fold) bölersin — mesela 5. Sonra 5 tur yaparsın: her turda 1 parçayı test için ayırır, kalan 4 parçayla modeli eğitirsin. Böylece her veri parçası tam bir kez test, dört kez eğitim görevi görür. Sonunda 5 turun skorlarının ortalamasını alırsın. Bu ortalama, modelin performansına dair tek seferlik bir bölmeden çok daha güvenilir bir tahmin verir. Veri dengesizse "stratified" varyantı, sıralı veride (zaman serisi) ise özel bölme stratejileri kullanılır.
Neden önemli?
Tek bir train/test bölmesi şanslı ya da şanssız çıkabilir; o bölmedeki kolay örnekler modeli olduğundan iyi gösterebilir. Cross-validation bu şansı dağıtır ve overfitting''i yakalamaya yardım eder: model eğitim verisinde harika ama yeni veride kötüyse, çapraz doğrulama bunu açığa çıkarır. Az veriyle çalışırken özellikle değerli, çünkü her örneği hem eğitim hem test için kullanır.
Kullanım alanları
Model seçimi, hyperparameter ayarı, iki algoritmayı adil kıyaslama. "Bu model gerçekten iyi mi yoksa şans eseri mi?" sorusuna sayısal cevap arayan her yerde cross-validation devrededir.
