Soğuk Başlangıç (Cold Start)

Cold Start nedir?

Bir AI modeli veya serverless servis bir süre kullanılmazsa bellekten kaldırılır. Yeni bir istek geldiğinde model yeniden yüklenmek zorunda kalır — bu yükleme süresine cold start (soğuk başlangıç) denir. Kullanıcı için bu, ilk yanıtın beklenenden çok daha uzun sürmesi anlamına gelir.

Hugging Face Serverless Inference API, AWS Lambda, Google Cloud Run gibi serverless platformlarda yaygın bir durumdur. Modelin bellekte aktif tutulması için sürekli trafik veya ücretli dedicated endpoint gerekir.

Nasıl çalışır?

Serverless mimaride kaynaklar talebe göre açılıp kapatılır. Model bir süre (genellikle birkaç dakika ile birkaç saat arasında) istek almadığında platform belleği boşaltır. Sonraki istek geldiğinde:

Container veya VM yeniden başlatılır
Model dosyaları depodan RAM'e veya GPU'ya yüklenir
Modelin ilk "ısınma" işlemleri tamamlanır
Yanıt döndürülür

Bu süreç modelin boyutuna göre saniyelerden onlarca saniyeye kadar uzayabilir. 7B parametreli bir model 5–15 saniye, 70B+ bir model dakikayı aşabilir.

Neden önemli?

Prodüksiyon uygulamalarında cold start, kullanıcı deneyimini doğrudan etkiler. Bir sohbet uygulamasında veya API entegrasyonunda ilk yanıtın 20–30 saniye sürmesi kabul edilemez bir gecikme yaratır.

Prototip ve test aşamasında cold start tolere edilebilir. Canlı kullanıcı trafiği olan bir üründe ise dedicated endpoint veya minimum instance sayısı tutmak gerekir.

Çözüm yolları

Dedicated endpoint: Model sürekli bellekte tutuluyor, cold start yok — ama maliyet sabit devam ediyor
Warm-up isteği: Cron ile periyodik "boş" istek atarak modeli uyanık tutmak
Daha küçük model seçmek: Yükleme süresi model boyutuyla doğru orantılı
Önbellekleme: Sık kullanılan modelleri önceden yüklü tutmak

Soğuk Başlangıç (Cold Start)

Cold Start nedir?

Nasıl çalışır?

Neden önemli?

Çözüm yolları

Ilgili terimler