Ölçekleme Yasaları (Scaling Laws)

Ölçekleme Yasaları nedir?

Ölçekleme yasaları (scaling laws), dil modellerinin performansının model boyutu, eğitim verisi miktarı ve hesaplama bütçesiyle nasıl değiştiğini tanımlayan ampirik ilişkilerdir. OpenAI'nin 2020'deki Kaplan ve arkadaşları çalışması bu alanı sistematik hale getirdi.

Temel bulgu: Bu üç faktörden herhangi birini artırdığında model performansı öngörülebilir biçimde iyileşiyor — ve bu iyileşme log-log ölçekte neredeyse doğrusal bir eğri çiziyor.

Nasıl çalışır?

Ölçekleme yasaları üç ana boyutu inceler:

1. Model parametreleri (N): Model ne kadar büyükse genellikle o kadar yetenekli oluyor. Ama sonsuz büyüme verimli değil.

2. Eğitim verisi (D): Veri miktarı performansı doğrudan etkiliyor. Veri ile model boyutu birlikte optimize edilmeli.

3. Hesaplama bütçesi (C): Sabit bir compute bütçesiyle neye yatırım yapmalısın? Model mi büyütmeli, veri mi artırmalısın?

2022'de DeepMind'ın Chinchilla çalışması bu denklemi yeniden yazdı. 400'den fazla model üzerinde yürütülen deneylerin temel bulgusu: model boyutu ve eğitim token sayısı eşit oranda ölçeklenmeli — her model boyutu iki katına çıktığında, eğitim verisi de iki katına çıkarılmalı.

Chinchilla bu prensibi uygulayarak Gopher'ın dörtte biri büyüklüğünde (70B parametre) ama 4 kat fazla veriyle eğitildi. Aynı compute bütçesiyle Gopher'ı MMLU benchmark'ında yüzde 7'den fazla farkla geçti.

Neden önemli?

Ölçekleme yasaları, AI lab'larının milyarlarca dolarlık kararları önceden hesaplayabilmesini sağlıyor. "Bu modeli eğitmek ne kadar tutacak?" veya "10x daha fazla compute harcasam performans ne kadar artar?" gibi soruları eğitim başlamadan yanıtlayabiliyorsun.

Bu yasalar aynı zamanda "scaling hypothesis"in temelini oluşturuyor: bazı araştırmacılar yeterli ölçekte eğitimle AGI'ye ulaşılabileceğini savunuyor.

Kullanım alanları

Model tasarımı: Parametre sayısı ve veri miktarı dengesini optimize etmek
Bütçe planlaması: Eğitim maliyetini önceden tahmin etmek
Araştırma önceliklendirmesi: Hangi faktöre yatırım yapmanın daha verimli olduğunu belirlemek
Benchmark tahmini: Eğitilmemiş bir modelin olası performansını öngörmek

Ölçekleme Yasaları (Scaling Laws)

Ölçekleme Yasaları nedir?

Nasıl çalışır?

Neden önemli?

Kullanım alanları

Ilgili terimler