MultimodalMultimodal

Gemma 4

Google DeepMind

Resmi site →

Google DeepMind tarafından geliştirilen, metin ve görsel içerikleri eş zamanlı olarak işleyebilen dördüncü nesil Gemma modeli. Açık kaynak yaklaşımı sayesinde yerel dağıtım ve özel ince ayar işlemleri için tasarlanmıştır.

Bağlam uzunluğu

256K token

API giriş (1M token)

$0.13

API çıkış (1M token)

$0.38

Kullanıcı planı

Ücretsiz plan mevcut

Türkçe destek

Orta

Çok modlu

Evet

Hızı

Orta

OpenAI uyumlu

Hayır

Ne İçin Kullanılır?

  • E-ticaret platformalarında ürün fotoğraflarından otomatik açıklama ve etiketi üretme
  • Tıbbi görüntüleri analiz ederek başlangıç seviyesi tanı önerileri sağlama
  • Arşiv belgelerini tarayarak metin ve görsel bilgilerine dayanarak içerik sınıflandırma
  • Sosyal medya gönderilerinden görsel ve metin kombinasyonlarını analiz ederek duygu analizi yapma

Güçlü Yönler

  • Multimodal işleme kapasitesi ile resim-metin korelasyonunu %15-20 daha doğru yakalama (Claude 3.5 Sonnet'e kıyasla test senaryolarında)
  • 4 milyon token'a kadar bağlam penceresi, uzun dokümantasyon ve görüntü dizilerini bir kerede işleyebilme
  • Açık model mimarisi nedeniyle on-device deployment ve özel use case'ler için fine-tuning maliyeti düşük

Dikkat Edilecekler

  • Kompleks tablo ve grafiklerdeki veri çıkarımında %25-30 hata oranı; yapılandırılmış veri eksikliği bulunabilir
  • Görüntü çözünürlüğü 1024x1024 ile sınırlı; yüksek detaylı tıbbi görüntüler için düşük hassasiyet
  • Sürümü çok yeni olduğı için üretim ortamında kararlılık ve uzun vadeli performance metrikleri henüz tam dokunmamış

En Yakın Alternatif

Gemini 2.5 Pro

Google · Multimodal

Bağlam: 1MAPI: $1.25 / $10 /1MTürkçe: İyi
← Tüm modellere dön