Rastgele Orman (Random Forest)
ModellerRandom Forest nedir?
Random forest, onlarca hatta yüzlerce karar ağacını (decision tree) bir araya getirip kararı oylamaya bırakan bir topluluk (ensemble) yöntemi. Tek bir ağaç verinin küçük dalgalanmalarına aşırı duyarlıdır, kolayca ezberler. Random forest bu sorunu "kalabalığın bilgeliği" mantığıyla çözer: her ağaç biraz farklı veriyle ve farklı özelliklerle eğitilir, sonra hepsinin oyu toplanır.
Nasıl çalışır?
İki tür rastgelelik devreye girer. Birincisi bagging: her ağaç, eğitim verisinden rastgele çekilmiş bir alt kümeyle eğitilir. İkincisi, her dallanmada tüm özellikler yerine rastgele seçilmiş bir özellik alt kümesi değerlendirilir. Bu iki kaynak sayesinde ağaçlar birbirinden farklılaşır. Sınıflandırmada her ağaç bir sınıfa oy verir, en çok oyu alan sınıf kazanır; regresyonda ağaçların tahminlerinin ortalaması alınır. Ağaçlar birbirinden bağımsız eğitildiği için işlem paralelleştirilebilir, yani hızlıdır.
Neden önemli?
Tek bir karar ağacı aşırı öğrenmeye (overfitting) çok yatkındır. Random forest, ağaçları budamak yerine onları topluluk haline getirerek varyansı düşürür, daha kararlı ve doğru tahmin üretir. Üstelik "out-of-bag" değerlendirme sayesinde ayrı bir doğrulama setine ihtiyaç duymadan kendi başarısını ölçebilir. Az ayarla iyi sonuç veren sağlam bir başlangıç modeli olduğu için veri bilimcilerin ilk uğrak noktasıdır.
Kullanım alanları
Kredi risk skorlama, dolandırıcılık tespiti, müşteri kaybı (churn) tahmini, tıbbi teşhis sınıflandırması ve özellik öneminin ölçülmesi gibi tablo verisiyle çalışan hemen her yerde kullanılır. Özellikle yapılandırılmış tablo verisinde derin öğrenmeye kıyasla daha az veriyle, daha hızlı ve yorumlanabilir sonuç verdiği için hâlâ endüstrinin gözdesi.
Ilgili terimler
