Bilgisayarlı Görü (Computer Vision)

Bilgisayarlı görü nedir?

Bilgisayarlı görü, makinelerin dijital görüntü ve videolardan anlamlı bilgi çıkarmasını sağlayan yapay zeka alanı. İnsan gözünün ve beyninin yaptığı işi taklit etmeye çalışır: bir fotoğrafa bakıp "bu bir kedi", "bu bir trafik işareti", "bu yüz Ahmet''e ait" diyebilmek.

Telefonunun yüz tanımayla kilidini açması, sosyal medyanın fotoğraflardaki arkadaşlarını etiketlemesi, otonom araçların yayaları fark etmesi — hepsi bilgisayarlı görünün işi.

Nasıl çalışır?

Bir görüntü, bilgisayar için aslında devasa bir sayı matrisidir: her piksel, renk ve parlaklık değerleri taşır. Bilgisayarlı görü modelleri bu sayı yığınından desen çıkarmayı öğrenir.

Modern yaklaşımın temelinde derin öğrenme var. Evrişimli sinir ağları (CNN) uzun yıllar bu alanın standart mimarisiydi: görüntüyü küçük parçalar halinde tarayıp önce kenar ve doku gibi basit desenleri, sonra göz, tekerlek gibi karmaşık yapıları tanır. Son yıllarda transformer tabanlı mimariler de görüntü işlemede yaygınlaştı — görüntüyü parçalara bölüp dil modellerindeki attention mekanizmasıyla işliyorlar.

Tipik görevler şöyle ayrışır: sınıflandırma (görüntüde ne var?), nesne tespiti (nerede?), segmentasyon (hangi pikseller hangi nesneye ait?) ve takip (video boyunca nesne nereye gidiyor?).

Neden önemli?

Görsel veri, dünyadaki verinin en büyük kısmını oluşturuyor ve çoğu yapılandırılmamış halde duruyor. Bilgisayarlı görü bu veriyi işlenebilir hale getiriyor. Ayrıca multimodal modellerin yükselişiyle görü artık ayrı bir alan olmaktan çıkıp dil modellerinin doğal bir parçası haline geldi: bugün bir sohbet modeline fotoğraf yükleyip soru sorabiliyorsun.

Kullanım alanları

Sağlıkta röntgen ve MR görüntülerinden hastalık tespiti, üretimde kalite kontrol ve hatalı ürün ayıklama, tarımda drone görüntüleriyle mahsul analizi, perakendede kasasız mağaza sistemleri, güvenlikte plaka ve yüz tanıma yaygın örnekler. Otonom araçlar ise alanın en iddialı uygulaması: şerit takibi, yaya tespiti ve trafik işareti okuma tamamen bilgisayarlı görüye dayanıyor.

Başlamak için devasa kaynak da gerekmiyor: önceden eğitilmiş açık modeller sayesinde birkaç yüz etiketli görüntüyle bile fine-tuning yapıp kendi görevine uyarlayabilirsin. Transfer learning bu alanda o kadar oturmuş durumda ki sıfırdan model eğitmek artık istisna, hazır modeli uyarlamak kural haline geldi.

Bilgisayarlı Görü (Computer Vision)

Bilgisayarlı görü nedir?

Nasıl çalışır?

Neden önemli?

Kullanım alanları

Ilgili terimler