Talimat Ayarlaması (Instruction Tuning)

Instruction Tuning nedir?

Instruction tuning, önceden eğitilmiş bir dil modelini (pretrained LLM) kullanıcı talimatlarını anlayıp takip edecek şekilde ince ayarlamak (fine-tune) için kullanılan bir eğitim yöntemidir. Ham bir dil modeli metin tamamlama yapar; instruction tuning onu "bir görevi yerine getiren asistan"a dönüştürür.

Bir pretraining aşamasından geçmiş model, internet metninden öğrendiği dil yapısını bilir ama ne zaman yardımcı olması, ne zaman soru cevaplaması gerektiğini bilmez. Instruction tuning bu boşluğu kapatır.

Nasıl çalışır?

Eğitim süreci şu şekilde ilerler:

Veri hazırlığı: (talimat, beklenen çıktı) çiftlerinden oluşan bir veri seti hazırlanır. Örneğin: ("Bu metni özetle: ...", "Özet: ...") veya ("Python'da bir sıralama fonksiyonu yaz", "def sort_list(...):")
Supervised fine-tuning (SFT): Model bu çiftler üzerinde standart dil modeli kaybıyla eğitilir. Model, verilen talimat için doğru çıktıyı üretmeyi öğrenir.
İterasyon: Farklı görev kategorileri (özetleme, çeviri, soru cevaplama, kod yazma) için örnekler eklenerek model genelleştirilir.

Instruction tuning genellikle RLHF veya DPO gibi tercih optimizasyonu adımlarından önce gelir ve temel hizalamayı sağlar.

Neden önemli?

Instruction tuning olmadan pretraining sonrası bir model kullanıcıya nasıl yanıt vereceğini bilmez — metni istatistiksel olarak tamamlar, talimatı takip etmez. Bu yöntem sayesinde:

Model görev odaklı davranış kazanır
Farklı görev türleri arasında transfer öğrenmesi gerçekleşir
Az veriyle bile güçlü genelleme sağlanabilir (FLAN çalışmaları bunu gösterdi)

Kullanım alanları

Sohbet asistanları: Kullanıcıyla doğal diyalog kurabilmek için zorunlu adım
Kod asistanları: "Şu kodu debug et", "unit test yaz" gibi yazılım görevleri
Özetleme ve çeviri: Belirli format veya uzunluk kısıtlamalarını takip etme
Domain fine-tuning: Tıp, hukuk, finans gibi alanlarda talimatlara uygun yanıt üretme

Günümüzdeki sohbet tabanlı modellerin tamamı, pretraining sonrası bir instruction tuning aşamasından geçmiştir. Bu adım, "dil modeli" ile "kullanılabilir AI asistan" arasındaki en kritik fark noktalarından biridir.

Talimat Ayarlaması (Instruction Tuning)

Instruction Tuning nedir?

Nasıl çalışır?

Neden önemli?

Kullanım alanları

Ilgili terimler