Atoms ile kod yazmadan uygulama kur — AI ekibin senin için planlasın, kodlasın, deploy etsindene →
Ana Sayfa/Haberler/Fable 5'in 120 Bin Karakterlik System Pr
AI Asistan

Fable 5'in 120 Bin Karakterlik System Prompt'u GitHub'a Sızdı

Pasquale Pillitteri·15 Haziran 2026·🔗 Kaynağa Git
Fable 5'in 120 Bin Karakterlik System Prompt'u GitHub'a Sızdı

Fable 5'i aşan araştırmacı, modelin yaklaşık 120.000 karakterlik iç sistem talimatını da GitHub'a yükledi — Mythos sınıfı bir modelin tam system prompt'unun üçüncü tarafça ilk ifşası.

Jailbreak'in yan ürünü, belki olayın kendisinden daha kalıcı: Pliny, Fable 5'in iç system promptimodele nasıl davranacağını söyleyen gizli talimat metni'unu GitHub'a yükledi. Yaklaşık 120.000 karakterlik bu metin, Mythos sınıfı kamuya açık bir modelin tam sistem talimatının üçüncü bir tarafça ilk kez ifşası.

Sızan ne

System prompt, modelin neyi yapıp neyi reddedeceğini tanımlayan kuralların tamamı. 120 bin karakter, ChatGPT veya eski Claude sürümlerinde görülen birkaç bin karakterlik sızıntıların çok ötesinde. Yani bu sadece bir metin değil, Anthropic'in güvenlik mimarisinin haritası.

Bu neyi gösteriyor

Metnin uzunluğu önemli bir şeyi ele veriyor: Fable 5'in güvenliği büyük ölçüde model ağırlıklarına gömülü sert kurallara değil, doğal dille yazılmış talimatlara dayanıyor. Doğal dille yazılan bir kural okunabilir, anlaşılabilir ve etrafından dolaşılabilir. Ağırlıklara gömülü bir reddetme ise analiz etmesi çok daha zor. Guardrailsimodelin tehlikeli çıktı vermesini engelleyen koruma katmanları bu kadar uzunsa, güvenliği dille tanımlamanın maliyeti herkesin sandığından büyük demektir.

Sırada ne var

Erişim geri açıldığında, saldırgan topluluk güvenlik kılavuzunu çoktan okumuş olacak. Anthropic lansmanda Fable 5 için 30 günlük veri saklama uyguladığını, bunu da bu tür saldırıları araştırmak için yaptığını söylemişti — yani bu sınıf bir saldırıyı beklediği belli.

mindi

Bir modelin güvenliğini upuzun bir talimat metniyle kurmak, kapıyı kilitleyip anahtarı paspasın altına koymak gibi. İşe yarar, ta ki biri paspası kaldırana kadar. Senin için pratik sonuç: bir AI ürününe hassas iş yaptırıyorsan, güvenliğin "prompt'ta yazıyor" demesiyle yetinme; modelin kendisi ne kadar dayanıklı, onu sor.

Benzer Haberler