Fable 5'in 120 Bin Karakterlik System Prompt'u GitHub'a Sızdı

Fable 5'i aşan araştırmacı, modelin yaklaşık 120.000 karakterlik iç sistem talimatını da GitHub'a yükledi — Mythos sınıfı bir modelin tam system prompt'unun üçüncü tarafça ilk ifşası.
Jailbreak'in yan ürünü, belki olayın kendisinden daha kalıcı: Pliny, Fable 5'in iç system prompti
modele nasıl davranacağını söyleyen gizli talimat metni'unu GitHub'a yükledi. Yaklaşık 120.000 karakterlik bu metin, Mythos sınıfı kamuya açık bir modelin tam sistem talimatının üçüncü bir tarafça ilk kez ifşası.
Sızan ne
System prompt, modelin neyi yapıp neyi reddedeceğini tanımlayan kuralların tamamı. 120 bin karakter, ChatGPT veya eski Claude sürümlerinde görülen birkaç bin karakterlik sızıntıların çok ötesinde. Yani bu sadece bir metin değil, Anthropic'in güvenlik mimarisinin haritası.
Bu neyi gösteriyor
Metnin uzunluğu önemli bir şeyi ele veriyor: Fable 5'in güvenliği büyük ölçüde model ağırlıklarına gömülü sert kurallara değil, doğal dille yazılmış talimatlara dayanıyor. Doğal dille yazılan bir kural okunabilir, anlaşılabilir ve etrafından dolaşılabilir. Ağırlıklara gömülü bir reddetme ise analiz etmesi çok daha zor. Guardrailsi
modelin tehlikeli çıktı vermesini engelleyen koruma katmanları bu kadar uzunsa, güvenliği dille tanımlamanın maliyeti herkesin sandığından büyük demektir.
Sırada ne var
Erişim geri açıldığında, saldırgan topluluk güvenlik kılavuzunu çoktan okumuş olacak. Anthropic lansmanda Fable 5 için 30 günlük veri saklama uyguladığını, bunu da bu tür saldırıları araştırmak için yaptığını söylemişti — yani bu sınıf bir saldırıyı beklediği belli.

Bir modelin güvenliğini upuzun bir talimat metniyle kurmak, kapıyı kilitleyip anahtarı paspasın altına koymak gibi. İşe yarar, ta ki biri paspası kaldırana kadar. Senin için pratik sonuç: bir AI ürününe hassas iş yaptırıyorsan, güvenliğin "prompt'ta yazıyor" demesiyle yetinme; modelin kendisi ne kadar dayanıklı, onu sor.