20 Milyarlık Açık Kaynak Ajan GPT-5.4'ü Geçti: Harness-1

Harness-1 adında 20 milyar parametrelik açık kaynak bir arama ajanı, doğru bilgiyi bulup hatırlama testinde GPT-5.4 ve Sonnet-4.6 gibi kendinden kat kat büyük modelleri geride bıraktı. İşin ilginç tarafı, başarının kaynağı daha büyük bir model değil — modelin içinde çalıştığı daha akıllı bir mimari.
UIUC, UC Berkeley ve açık kaynak vektör veritabanıi
Embedding'leri saklayıp anlam benzerliğine göre arama yapan özel veritabanı. platformu Chroma'nın ortak araştırması olan ajan, OpenAI'ın gpt-oss-20B modelinin üstüne kurulu. Sekiz farklı benchmarki
Modelleri standart görevlerde ölçen test setleri. üzerinde ortalama %73 kanıt hatırlama (evidence recall) skoru aldı; bu, GPT-5.4'ün %70.9'unu ve en yakın açık kaynak rakibi Tongyi DeepResearch 30B'yi 11.4 puan geçen bir sonuç.
Asıl çarpıcı olan boyut farkı. 20B'lik bu görece küçük model, yüz milyarlarca hatta trilyonlarca parametreli olduğu düşünülen GPT-5.4, Sonnet-4.6 ve Kimi-K2.5 gibi pahalı kapalı sistemlerle başa baş gitti. Genel ortalamada onu kıl payı geçebilen tek dev model Opus-4.6 oldu.
Harness-1, bir arama oturumunun bütün defter tutma işini — hangi kaynağa bakıldı, hangi kanıt toplandı, sırada ne var — modelin çalışma belleğinden çıkarıp yapılandırılmış bir yazılım ortamına (harness) aktarıyor. Yani model artık aynı anda arama yapan, not tutan, doğrulayan ve kütüphaneci olmaya çalışmıyor; bu yükü dışarıdaki harness üstleniyor, model de asıl işine yani akıl yürütmeye odaklanabiliyor.
Bunun işletmeler için bir de maliyet tarafı var. Context windowi
Modelin tek seferde işleyebildiği maksimum token miktarı. sürekli şişmediği, bütçeye duyarlı bir harness tarafından yönetildiği için, ajan uzun ve çok adımlı görevleri çalıştırırken tokeni
Modelin metni işlediği en küçük birim. maliyeti katlanarak artmıyor. Geliştiriciler için kritik nokta ise lisans: model ağırlıkları ve kodu, izin verici Apache 2.0 lisansıyla Hugging Face üzerinden hemen erişilebilir durumda. Harness-1'in asıl mesajı tek cümleye sığıyor: agentic AIi
Kendi adımlarını planlayıp araç kullanarak iş yapan model yaklaşımı.'ın geleceği daha büyük model eğitmekte değil, modellere içinde çalışacakları daha iyi ortamlar kurmakta olabilir.
mindi'nin yorumu — Buradaki asıl ders, "büyük model hep kazanır" efsanesinin çatlaması: 20B'lik bir model, etrafına doğru mimariyi kurunca kat kat büyüklerini geçebiliyor. Açık kaynak ve küçük olması, bunu kendi sunucunda fatura yemeden çalıştırabilirsin demek. Yalnız tek bir benchmark'ta birinci olmak "her işte en iyi" anlamına gelmez, ona dikkat.