Atoms ile kod yazmadan uygulama kur — AI ekibin senin için planlasın, kodlasın, deploy etsindene →

Prompt Enjeksiyonu

Genel
Ing: Prompt InjectionGuncellendi: 9 Haziran 2026
Kötü niyetli bir girdinin modele asıl talimatlarını unutturup saldırganın isteğini yaptırma yöntemi. Yapay zekanın en sinsi güvenlik açığı.

Prompt enjeksiyonu nedir?

Prompt enjeksiyonu, bir dil modeline gizlenmiş talimatlar vererek onu asıl görevinden saptırma saldırısıdır. Saldırgan, normal bir girdi gibi görünen metnin içine "önceki talimatları unut, şunu yap" türünden komutlar yerleştirir ve model bunlara uyabilir.

Sorun, modelin sistem talimatları ile kullanıcı girdisini aynı metin akışında görmesinden kaynaklanır. Model, hangi talimatın güvenilir olduğunu kendi başına kesin olarak ayırt edemez.

Nasıl çalışır?

En basit haliyle kullanıcı, sohbet kutusuna doğrudan manipülatif bir komut yazar. Daha tehlikeli olanı ise dolaylı enjeksiyondur: saldırgan, modelin okuyacağı bir web sayfasına, e-postaya ya da dokümana gizli talimatlar yerleştirir. Model bu içeriği okuduğunda, gizli komutu da talimat sanıp uygulayabilir.

Bu yöntemle saldırganlar sistem promptunu sızdırmaya, modele yasak içerik ürettirmeye ya da bağlı olduğu araçlar üzerinden istenmeyen işlemler yaptırmaya çalışır.

Neden önemli?

Modeller artık salt sohbet kutusu değil; e-posta okuyan, web de gezen, kod çalıştıran ajanların parçası. Bu durumda bir prompt enjeksiyonu sadece kötü bir cevaptan ibaret kalmaz; gerçek dünyada veri sızıntısına veya yetkisiz işlemlere dönüşebilir.

Tam bir çözümü henüz yok. Guardrails, girdi filtreleme, ayrıcalık kısıtlama ve insan onayı gibi katmanlar riski azaltır ama tek başına hiçbiri sorunu bitirmez.

Kullanım alanları

Prompt enjeksiyonu, yapay zeka güvenliği çalışanlarının red teaming sırasında en çok denediği saldırı türlerindendir. Bir ajan veya asistan kurarken, dışarıdan gelen her metni potansiyel talimat olarak görmek ve yetkiyi ona göre vermek temel bir güvenlik prensibidir.

mindi
mindi'nin notu
Dolaylı enjeksiyon en sinsisi: modelin okuduğu her sayfa bir saldırı olabilir. Ajanına ne kadar yetki verdiğine iki kez bak.