Optik Karakter Tanıma (OCR)
Araç kavramlarıOCR nedir?
Optik Karakter Tanıma (OCR), bir görüntünün içindeki yazıyı — taranmış belge, fotoğraf, ekran görüntüsü ya da el yazısı fark etmez — makinenin işleyebileceği dijital metne çeviren teknolojinin adı. Gözle gördüğün ama kopyalayamadığın her metni aranabilir ve düzenlenebilir hale getirir.
Klasik OCR sistemleri harf şekillerini önceden tanımlı kalıplarla eşleştirerek çalışıyordu. Bugünkü sistemler ise derin öğrenme tabanlı: görüntüyü bir bütün olarak anlayan, bağlamdan yararlanan modeller kullanılıyor. Bu sayede bozuk taramalar, sıra dışı fontlar ve el yazısı bile yüksek doğrulukla okunabiliyor.
Nasıl çalışır?
Modern bir OCR pipeline'ı kabaca üç aşamadan geçer. Önce ön işleme: görüntü düzleştirilir, gürültü temizlenir, kontrast ayarlanır. Sonra metin tespiti: sayfadaki yazı blokları, satırlar ve kelimeler bulunur. Son adım tanıma: her bölgedeki karakterler, genellikle görüntü encoder'ı ile dil modelini birleştiren bir mimariyle metne çevrilir.
Transformer tabanlı yaklaşımlar bu son adımı kökten değiştirdi. Model, karakterleri tek tek sınıflandırmak yerine görüntüyü "okuyup" metni doğrudan üretiyor; dil bilgisini de işin içine kattığı için "rn" ile "m" gibi karışan şekilleri bağlamdan ayırt edebiliyor.
Neden önemli?
Dünyadaki bilginin büyük kısmı hâlâ kâğıtta, PDF taramasında ya da fotoğraflarda kilitli. OCR bu bilgiyi aranabilir, analiz edilebilir ve otomasyona açık hale getiriyor. Bir belge yönetim sisteminin, bir muhasebe otomasyonunun ya da bir arşiv dijitalleştirme projesinin görünmeyen temel taşı genellikle OCR'dır.
Ayrıca çok modlu AI sistemlerinin de kritik parçası: bir asistanın ekran görüntüsündeki hatayı okuması ya da fatura fotoğrafından tutarı çıkarması, arka planda OCR yeteneği gerektirir. Konuşmayı metne çeviren sistemler ses için ne yapıyorsa, OCR da görüntü için onu yapar; ikisi birlikte "her formattaki bilgiyi metinleştirme" katmanını oluşturur.
Kullanım alanları
- Fatura, fiş ve sözleşme gibi belgelerden otomatik veri çıkarma
- Kitap, gazete ve arşivlerin dijitalleştirilmesi
- Kimlik ve pasaport doğrulama süreçleri
- Görme engelliler için ekran okuma ve sesli betimleme
- Plaka tanıma ve trafik sistemleri
- El yazısı notların dijital metne çevrilmesi