Kümeleme (Clustering)
Araç kavramlarıKümeleme nedir?
Kümeleme, etiketi olmayan verileri birbirine benzerliklerine göre gruplara ayırma yöntemi. Yani elinde bir yığın veri var ama hangisinin neye ait olduğunu kimse söylememiş — kümeleme bu kaosa kendi başına düzen veriyor. Etiketli veride benzer işi yapana classification denir; kümeleme ise unsupervised learning tarafında oynar, kimse yönlendirmeden örüntüyü kendi çıkarır.
Nasıl çalışır?
Temelde "birbirine yakın olanları aynı torbaya at" mantığı var, ama yakınlığı ölçmenin birden çok yolu mevcut:
Centroid tabanlı (k-means): Her kümenin bir merkezi var, noktalar en yakın merkeze göre toplanıyor. Hızlı ama başlangıç noktasına ve aykırı değerlere duyarlı.
Yoğunluk tabanlı (DBSCAN): Verinin sık olduğu bölgeleri küme sayar; tuhaf şekilli kümeleri bile yakalar.
Dağılım tabanlı: Veri belli bir olasılık dağılımından (örneğin Gaussian) geliyormuş gibi davranır.
Hiyerarşik: Kümeleri ağaç gibi iç içe kurar, taksonomi gibi yapılarda işe yarar.
Neden önemli?
Çünkü gerçek dünyada verinin çoğu etiketsiz. Her şeye tek tek etiket yapıştırmak pahalı ve yavaş. Kümeleme, elindeki ham yığından "burada şöyle bir grup var" çıkarımını neredeyse bedavaya yapar. Veriyi anlamadan önce keşfetmenin en pratik yolu.
Kullanım alanları
Müşteri segmentasyonu — kim kime benziyor, hangi grup ne istiyor. Öneri sistemleri — az izlenen içerikleri popüler benzerleriyle eşleştirme. Anomali ve dolandırıcılık tespiti — kümeye uymayan nokta şüphelidir. Görsel ve metin verisini embedding uzayında gruplama.
Ilgili terimler
