Parçalama (Chunking)
İş akışıParçalama (Chunking) nedir?
Chunking, uzun bir belgeyi veya metni daha küçük, yönetilebilir parçalara bölme işlemidir. Özellikle RAG •bilgiyle desteklenmiş üretim• sistemlerinin temel adımıdır. Bir model her şeyi aynı anda işleyemez ve embedding •vektör temsili• çıkarılırken metnin makul boyutlarda olması gerekir; işte bu yüzden belgeleri parçalara ayırırız.
Nasıl çalışır?
En basit yöntem metni sabit token sayısına göre kesmektir, ama bu çoğu zaman cümleyi ortadan böler. Daha iyi yöntemler paragraf, başlık ya da anlam sınırlarına göre böler. Çoğu sistemde parçalar arasında "overlap" •örtüşme• bırakılır; yani her parçanın sonu bir sonrakinin başında biraz tekrarlanır, böylece bağlam kopmaz.
Parça boyutu kritik bir denge: çok büyük parçalar gereksiz bilgi taşır ve arama hassasiyetini düşürür; çok küçük parçalar ise bağlamı parçalayıp anlamı kaybeder.
Neden önemli?
RAG sisteminin cevap kalitesi büyük ölçüde parçalama stratejisine bağlıdır. Kötü parçalama, reranking •yeniden sıralama• ne kadar iyi olursa olsun düzeltemeyeceğin bir hata kaynağıdır. "Çöp girer, çöp çıkar" tam da burada geçerli.
Kullanım alanları
RAG pipeline'ları, belge soru-cevap sistemleri, vector database •vektör veritabanı• indeksleme ve bilgi tabanı arama.