Taslak Model (Draft Model)
Araç kavramlarıTaslak model nedir?
Draft model, speculative decoding •küçük modelin tahmin edip büyük modelin doğruladığı hızlandırma yöntemi• tekniğinde kullanılan küçük ve hızlı yardımcı modeldir. Mantık şu: pahalı büyük modeli her token için tek tek çalıştırmak yavaştır. Bunun yerine küçük bir taslak model birkaç token'ı baştan tahmin eder, büyük model de bunları tek seferde kontrol eder.
Nasıl çalışır?
İki aşama var. Taslak aşamasında küçük model, sıradaki 3–12 token için hızlı bir tahmin dizisi üretir. Doğrulama aşamasında büyük (hedef) model bu diziyi tek bir geçişte puanlar. Büyük modelin de en az o kadar olası bulduğu token'lar kabul edilir; ilk uyuşmayan token düzeltilir, sonrası atılır.
İşin güzeli: doğrulama, büyük modelin orijinal çıktı dağılımını korur. Yani sonuç, normal üretimle birebir aynı kalır — sadece daha hızlı gelir. Tipik kazanç 2–3 kat hızlanmadır. Taslak model ne kadar isabetli tahmin ederse, o kadar token kabul edilir ve hız o kadar artar.
Neden önemli?
Kaliteden ödün vermeden gecikmeyi düşürmenin en temiz yollarından biri. Çünkü çıktı değişmiyor — sadece üretim süresi kısalıyor. Taslak modelin seçimi kritik: hedef modele yeterince yakın tahmin etmeli ama bir o kadar da hafif olmalı. Çok zayıf bir taslak çok red alır, hız kazancı erir.
Kullanım alanları
Yerel ve sunucu tarafı çıkarımda yanıt hızını artırmak için kullanılır. Genelde taslak model, hedef modelin çok küçük bir versiyonu ya da aynı aileden hafif bir modeldir. Sohbet ve uzun metin üretiminde fark belirgin hissedilir; çok kısa yanıtlarda kazanç sınırlı kalır.
Ilgili terimler
