Soğuk Başlangıç (Cold Start)
Araç kavramlarıCold Start nedir?
Bir AI modeli veya serverless servis bir süre kullanılmazsa bellekten kaldırılır. Yeni bir istek geldiğinde model yeniden yüklenmek zorunda kalır — bu yükleme süresine cold start (soğuk başlangıç) denir. Kullanıcı için bu, ilk yanıtın beklenenden çok daha uzun sürmesi anlamına gelir.
Hugging Face Serverless Inference API, AWS Lambda, Google Cloud Run gibi serverless platformlarda yaygın bir durumdur. Modelin bellekte aktif tutulması için sürekli trafik veya ücretli dedicated endpoint gerekir.
Nasıl çalışır?
Serverless mimaride kaynaklar talebe göre açılıp kapatılır. Model bir süre (genellikle birkaç dakika ile birkaç saat arasında) istek almadığında platform belleği boşaltır. Sonraki istek geldiğinde:
- Container veya VM yeniden başlatılır
- Model dosyaları depodan RAM'e veya GPU'ya yüklenir
- Modelin ilk "ısınma" işlemleri tamamlanır
- Yanıt döndürülür
Bu süreç modelin boyutuna göre saniyelerden onlarca saniyeye kadar uzayabilir. 7B parametreli bir model 5–15 saniye, 70B+ bir model dakikayı aşabilir.
Neden önemli?
Prodüksiyon uygulamalarında cold start, kullanıcı deneyimini doğrudan etkiler. Bir sohbet uygulamasında veya API entegrasyonunda ilk yanıtın 20–30 saniye sürmesi kabul edilemez bir gecikme yaratır.
Prototip ve test aşamasında cold start tolere edilebilir. Canlı kullanıcı trafiği olan bir üründe ise dedicated endpoint veya minimum instance sayısı tutmak gerekir.
Çözüm yolları
- Dedicated endpoint: Model sürekli bellekte tutuluyor, cold start yok — ama maliyet sabit devam ediyor
- Warm-up isteği: Cron ile periyodik "boş" istek atarak modeli uyanık tutmak
- Daha küçük model seçmek: Yükleme süresi model boyutuyla doğru orantılı
- Önbellekleme: Sık kullanılan modelleri önceden yüklü tutmak