Prompt Enjeksiyonu

Prompt enjeksiyonu nedir?

Prompt enjeksiyonu, bir dil modeline gizlenmiş talimatlar vererek onu asıl görevinden saptırma saldırısıdır. Saldırgan, normal bir girdi gibi görünen metnin içine "önceki talimatları unut, şunu yap" türünden komutlar yerleştirir ve model bunlara uyabilir.

Sorun, modelin sistem talimatları ile kullanıcı girdisini aynı metin akışında görmesinden kaynaklanır. Model, hangi talimatın güvenilir olduğunu kendi başına kesin olarak ayırt edemez.

Nasıl çalışır?

En basit haliyle kullanıcı, sohbet kutusuna doğrudan manipülatif bir komut yazar. Daha tehlikeli olanı ise dolaylı enjeksiyondur: saldırgan, modelin okuyacağı bir web sayfasına, e-postaya ya da dokümana gizli talimatlar yerleştirir. Model bu içeriği okuduğunda, gizli komutu da talimat sanıp uygulayabilir.

Bu yöntemle saldırganlar sistem promptunu sızdırmaya, modele yasak içerik ürettirmeye ya da bağlı olduğu araçlar üzerinden istenmeyen işlemler yaptırmaya çalışır.

Neden önemli?

Modeller artık salt sohbet kutusu değil; e-posta okuyan, web de gezen, kod çalıştıran ajanların parçası. Bu durumda bir prompt enjeksiyonu sadece kötü bir cevaptan ibaret kalmaz; gerçek dünyada veri sızıntısına veya yetkisiz işlemlere dönüşebilir.

Tam bir çözümü henüz yok. Guardrails, girdi filtreleme, ayrıcalık kısıtlama ve insan onayı gibi katmanlar riski azaltır ama tek başına hiçbiri sorunu bitirmez. Korunma yöntemlerinin tamamı için prompt injection'dan nasıl korunursun rehberine göz at.

Kullanım alanları

Prompt enjeksiyonu, yapay zeka güvenliği çalışanlarının red teaming sırasında en çok denediği saldırı türlerindendir. Bir ajan veya asistan kurarken, dışarıdan gelen her metni potansiyel talimat olarak görmek ve yetkiyi ona göre vermek temel bir güvenlik prensibidir.

Prompt Enjeksiyonu