Prompt Önbellekleme (Prompt Caching)
MimariPrompt önbellekleme nedir?
Prompt önbellekleme, bir dil modeline gönderilen prompt içindeki tekrar eden bölümlerin işlenmiş halinin saklanıp sonraki isteklerde yeniden kullanılması tekniği. Tipik bir senaryo düşün: uzun bir sistem talimatı, birkaç doküman ve kullanıcının sorusu. Kullanıcı her yeni soru sorduğunda talimat ve dokümanlar değişmiyor — ama önbellekleme yoksa model hepsini her seferinde sıfırdan işliyor. Önbellekleme bu israfı ortadan kaldırır: değişmeyen kısım bir kez işlenir, sonuç saklanır, sonraki isteklerde hazır halde devralınır.
Nasıl çalışır?
Dil modelleri metni işlerken her token için ara hesaplama sonuçları üretir ve bunları KV cache denilen bir yapıda tutar. Prompt önbellekleme, bu ara sonuçların istekler arasında da saklanmasına dayanır. Yeni istek geldiğinde sistem, prompt başlangıcının önbellekteki bir girişle eşleşip eşleşmediğine bakar. Eşleşme varsa o bölümün hesaplaması atlanır, model kaldığı yerden devam eder.
Kritik detay şu: eşleşme prompt başından itibaren aranır. Bu yüzden prompt yapısı önemli — sabit içerik (sistem talimatı, dokümanlar, örnekler) başa, değişken içerik (kullanıcı sorusu) sona konmalı. Sabit bölümün ortasına dinamik bir şey eklersen o noktadan sonrası önbellekten düşer.
Neden önemli?
İki somut kazanç var: maliyet ve hız. Önbellekten okunan token, sıfırdan işlenen tokendan çok daha ucuza gelir ve ilk yanıt süresi belirgin şekilde kısalır. Uzun sistem promptu kullanan her uygulamada fark hissedilir; doküman üzerinde çok turlu soru-cevap yapan uygulamalarda ise fark dramatik hale gelir. Agent sistemlerinde her adımda aynı araç tanımları ve talimatlar tekrar gönderildiği için önbellekleme neredeyse zorunlu bir optimizasyon.
Kullanım alanları
Uzun sistem talimatlı chatbot ve asistanlar, büyük dokümanlarla çok turlu sohbet, çok adımlı agent workflow'ları, kod tabanı üzerinde çalışan kodlama asistanları ve aynı few-shot örnek setini her isteğe ekleyen sınıflandırma sistemleri prompt önbelleklemeden en çok kazanan senaryolar. API ile uygulama geliştiren herkesin maliyet hesabına katması gereken bir kalem.