Veri Etiketleme (Data Annotation)

Veri etiketleme nedir?

Veri etiketleme, ham veriye (metin, görsel, ses, video) modelin öğrenebileceği anlamlı etiketler eklemektir. Bir fotoğraftaki kedinin etrafına kutu çizmek, bir yorumu "olumlu" ya da "olumsuz" diye işaretlemek, bir ses kaydını yazıya dökmek — hepsi veri etiketlemedir. Supervised learning modellerinin temel yakıtı budur: model, insan eliyle etiketlenmiş binlerce örnekten kalıp çıkarır.

Nasıl çalışır?

Süreç genelde şöyle ilerler: önce etiketleme kuralları (annotation guideline) yazılır, sonra etiketçiler bu kurallara göre veriyi işaretler. Aynı örneği birden fazla kişi etiketler ve aralarındaki uyum (inter-annotator agreement) ölçülür; uyum düşükse kurallar bulanıktır. Kalite kontrolden geçen etiketler ground truth olarak kabul edilir ve modelin eğitim setine girer. Büyük projelerde bu iş insan ekipleri, crowdsourcing platformları ya da model destekli ön etiketleme ile ölçeklenir.

Neden önemli?

Model ne kadar güçlü olursa olsun, etiketler kötüyse çıktı da kötü olur — çöp girer, çöp çıkar. Yanlış ya da tutarsız etiketler modele yanlış kalıpları öğretir. Bu yüzden veri etiketleme, bir AI projesinin en pahalı ve en çok emek isteyen aşamalarından biridir; bazı ekipler zamanının çoğunu model mimarisine değil, veri kalitesine harcar.

Kullanım alanları

Görüntü tanımada nesne kutuları ve segmentasyon maskeleri, NLP'de duygu analizi ve named entity recognition etiketleri, konuşma tanımada transkriptler, otonom araçlarda yol ve yaya işaretlemeleri hep veri etiketlemeye dayanır. RLHF gibi modern tekniklerde de insanların model çıktılarını sıralaması bir tür etiketlemedir.

Veri Etiketleme (Data Annotation)

Veri etiketleme nedir?

Nasıl çalışır?

Neden önemli?

Kullanım alanları

Ilgili terimler