Google'dan DiffusionGemma: metni 4 kat hızlı üreten açık model
Google DeepMind, metni soldan sağa tek tek değil, 256 token'lık bloklar halinde paralel üreten deneysel açık-ağırlık modeli DiffusionGemma'yı yayınladı. Apache 2.0 lisanslı model tek bir H100 GPU'da saniyede 1.000'den fazla token üretiyor.
Google DeepMind, dil modellerinde alışılmış üretim mantığını terse çeviren bir model yayınladı: DiffusionGemma. Çoğu modelin aksine metni kelime kelime ilerleyerek değil, görsel üreten difüzyon modellerine benzer biçimde rastgele gürültüden başlayıp adım adım netleştirerek üretiyor.
Nasıl çalışıyor
Model 256 tokeni
modelin metni işlediği en küçük birim büyüklüğünde bir blokla başlıyor ve bu bloğu birkaç geçişte rafine ederek okunur metne dönüştürüyor. Klasik autoregressivei
token'ları soldan sağa tek tek üreten standart yöntem üretimin aksine token'lar paralel çıktığı için tek bir H100 GPU'da saniyede 1.000'in üzerinde, RTX 5090'da 700'ün üzerinde hıza ulaşıyor — yer yer 4 kata kadar daha hızlı.
Mimari
26 milyar parametreli bir Mixture of Expertsi
her girişte parametrelerin sadece bir kısmını aktive eden mimari yapısında; üretim sırasında bu parametrelerin yalnızca 3,8 milyarını çalıştırıyor. Gemma 4'ün 26B-A4B omurgası üzerine kurulu, 256K token bağlam penceresi ve 140'tan fazla dil desteğiyle geliyor. Metin, görsel ve video girdilerini işliyor, çıktı olarak metin üretiyor.
Hız mı, kalite mi
DiffusionGemma, MMLU ve kod benchmarki
modelleri standart görevlerde ölçen test setleri testlerinde standart Gemma 4'ün gerisinde kalıyor. Google modeli açıkça deneysel diye konumlandırıyor ve çıktı kalitesinin öncelikli olduğu production işler için hâlâ Gemma 4'ü öneriyor. Model Apache 2.0 lisansıyla Hugging Face, Kaggle ve Vertex AI Model Garden üzerinden indirilebiliyor.

Difüzyon mantığını metne taşımak yıllardır konuşuluyordu ama çalışan, indirilebilir bir model görmek başka iş. Hız etkileyici, gel gör ki kalite henüz Gemma 4'ün gerisinde — yani günlük sürücü değil, hızın kaliteden önemli olduğu yerde parlayan bir araç. Senin için pratik sonuç: gerçek zamanlı ve çok sayıda kısa yanıt üreten bir işin varsa (otomatik tamamlama, taslak üretimi) dene; titiz ve tek seferlik kaliteli çıktı istiyorsan Gemma 4'te kal.