OpenAI, Kişisel Verileri Tespit Eden Açık Kaynak Model Yayınladı: Privacy Filter
OpenAI, Kişisel Verileri Tespit Eden Açık Kaynak Model Yayınladı: Privacy Filter
.png)
OpenAI, metinlerdeki kişisel verileri tespit edip gizleyen açık kaynaklı "Privacy Filter" modelini yayınladı. Apache 2.0 lisansıyla dağıtılan model, cihaz üzerinde çalışabiliyor — veriler sunucuya gönderilmeden işleniyor.
OpenAI, kişisel olarak tanımlanabilir bilgileri (PII) metinden tespit edip silen yeni bir açık kaynak model olan Privacy Filter'ı duyurdu. Apache 2.0 lisansıyla Hugging Face ve GitHub üzerinden erişime açılan model, 1.5 milyar toplam parametreye sahip; ancak çıkarım sırasında yalnızca 50 milyon parametre aktif olarak kullanılıyor. Bu mimari, modelin tarayıcıda veya dizüstü bilgisayarda hızlıca çalışabilmesini sağlıyor.
Privacy Filter, geleneksel kural tabanlı yöntemlerin aksine metnin bağlamını anlayarak çalışıyor. Tek bir geçişte tüm belgeyi analiz eden çift yönlü token sınıflandırma yaklaşımıyla isim, adres, e-posta, telefon numarası, URL, tarih, hesap numarası ve API anahtarı gibi 8 kategoriyi destekliyor. 128.000 token bağlam penceresi sayesinde uzun belgeler de bölünmeden işlenebiliyor.
Modelin öne çıkan özelliği tamamen yerel çalışabilmesi. Hassas verilerin bulut sunucularına gönderilmesine gerek kalmadan cihaz üzerinde işleme yapılabiliyor. OpenAI, bu aracı kendi gizlilik iş akışlarında kullanıcı verilerini temizlemek amacıyla kullandığını da belirtiyor.
PII-Masking-300k kıyaslamasında yüzde 96 F1 skoru elde eden model, özelleştirme için ince ayar desteği de sunuyor. Tıbbi, hukuki ve finansal gibi hassas alanlarda tek başına bir güvenlik garantisi olmadığını, insan denetiminin önemini koruduğunu OpenAI bizzat belirtmiş.