3.1.5. Veri Bölme (Data Split)

Şekil 3.18. Veri Bölme.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

Başarılı bir makine öğrenimi modeli oluştururken, verilerin doğru bir şekilde bölünmesinin önemi küçümsenemez. Daha önce verdiğimiz örnekte olduğu gibi: Nasıl ki bir öğrenci doğrudan final sınavına girmeden önce çalışıp pratik yapıyorsa, makine öğreniminde de veriler, modelin güvenilir ve etkili olmasını sağlamak için belirli amaçlara hizmet eden ayrı setlere ayrılır. Bu veriler, sınav örneğinde olduğu gibi 1) Eğitim / çalışma, 2) Hazırlık testi ve 3) Gerçek test için kullanılır. Bu süreci basit terimlerle açıklayalım:

1. Eğitim Veri Seti (Training Set): Kuralları Öğrenme (Sınava Çalışma)

Eğitim seti, modelin öğrenme sürecini gerçekleştirdiği yerdir. Genellikle veri setinin %60–80’ini oluşturur ve bir öğrencinin sınava hazırlanırken kullandığı ders kitabı ve pratik alıştırmalar gibidir. Model, bu verileri kullanarak iç parametrelerini ayarlar ve verilerdeki kalıpları ve ilişkileri tanır.
Örnek
Bir abonelik hizmetinde müşteri kaybını (churn) tahmin eden bir model geliştirdiğinizi düşünün. Eğitim seti, müşteri verilerini (abonelik süresi, kullanım kalıpları ve demografik bilgiler gibi) ve sonrasında aboneliği iptal edip etmediklerini içerebilir. Model, bu kalıpları inceleyerek hangi faktörlerin müşteri kaybına yol açtığını anlamaya çalışır.
Ana Nokta
Eğitim seti, modelin öğrenme sürecinin temelidir. Bu set düşük kaliteli ya da daha geniş veri setini temsil etmiyorsa, modelin performansı olumsuz etkilenir.

2. Doğrulama Seti (Validation Set): Hazırlık Sınavı

Şekil 3.19. Doğrulama Seti.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

Doğrulama seti, genellikle veri setinin %10–20’sini temsil eder. Bu setin rolü, bir öğrencinin hazırlık sınavından aldığı not gibidir. Modelin hiperparametrelerini (modelin nasıl öğrendiğini kontrol eden ayarlar) ince ayar yapmak için kullanılır.

Örneğin, ayarlanabilecek parametreler şunlardır:

  • Modelin öğrenme hızı (learning rate)
  • Modelin veriyi analiz ederken kaç katman veya düğüm kullanacağı
  • Modelin bir seferde işlediği veri miktarı (batch size)

Doğrulama seti, modelin yalnızca eğitim verilerini ezberlemediğinden emin olmak için kullanılır. Bu durum aşırı öğrenme (overfitting) olarak adlandırılır. Aşırı öğrenme, bir öğrencinin sadece pratik soruların cevaplarını ezberleyip yeni ve görülmemiş sorular karşısında zorlanmasına benzer. Doğrulama seti, modelin yeni verilere iyi genelleme yapabilen kalıplar öğrenmesini sağlamak için bir kontrol noktası görevi görür.

3. Test Seti (Test Set): Final Sınavı

Test seti, veri setinin yine %10–20’sini oluşturur. Bu set, modelin daha önce hiç görmediği verilerdir ve modelin gerçek dünyada ne kadar iyi performans gösterdiğini değerlendirmek için kullanılır.

Test seti, bir öğrencinin hazırlık dönemi sonundaki final sınavına benzetilebilir. Modelin genel başarı seviyesini anlamak için son aşamadır ve gerçek uygulamalarda karşılaşılacak senaryoları simüle eder.
Örnek
Müşteri kaybını (churn) tahmin eden bir modelde, test seti modelin daha önce görmediği yeni müşteri verilerini içermelidir. Bu aşamada, modelin eğitim ve doğrulama sırasında öğrendiği kalıplar temelinde müşterilerin ayrılıp ayrılmayacağını ne kadar doğru tahmin ettiğini ölçersiniz. Yani modeli gerçek hayatta kullandığınızda ne kadar başarılı olduğunu test etmiş olursunuz.

Test Setinin Önemi

  • Sağlıklı Bir Değerlendirme Sağlar: Test seti, modelin performansını herhangi bir önyargı olmadan değerlendirir.
  • Gerçek Hayatta Karşılaşılan Senaryoları Simüle Eder: Modelin yeni verilerle karşılaştığında nasıl tepki vereceğini ve ne kadar başarılı olacağını gösterir.
  • Kalan Zayıflıkları Ortaya Çıkarır
    Aşırı öğrenme (overfitting):
    Modelin eğitim verilerini ezberlemesi nedeniyle yeni verilere genelleme yapamaması.
    Yetersiz öğrenme (underfitting): Modelin verilerden yeterince öğrenememesi.

Test seti, modelin uygulama öncesi son değerlendirme aşaması olduğu için, doğruluk ve güvenilirliği garanti altına almak açısından kritik bir rol oynar.

Doğru Veri Bölmenin (Data Split) Önemi

Veri bölme yalnızca teknik bir adım değil, modelinizin başarısını doğrudan etkileyen stratejik bir karardır. Neden kritik olduğunu madde madde sıralamak gerekirse:

  • Önyargıyı (Bias) Önler: Veri doğru bir şekilde bölünmezse, model geliştirme sırasında iyi performans gösterebilir; ancak uygulamaya sokulduğunda başarısız olabilir.
  • Gerçekliği Yansıtır: İyi dengelenmiş bir veri bölünmesi, modelin geniş bir vaka çeşitliliğiyle karşılaşmasını sağlar.
  • Adil Değerlendirmeyi Sağlar: Test setini tamamen ayrı tutarak, modelin daha önce görülmemiş veriler üzerindeki performansı net bir şekilde görülebilir.
Pratik Konular ve İpuçları

Şekil 3.20. Pratik Konular ve İpuçları.
Not. Dijital Eğitim Koordinatörlüğü. Creative Commons Lisansları (CC BY NC-ND)

  • Stratifikasyon Uygulayın: Eğer veriniz dengesizse (örneğin, müşterilerin %99,9’u kalıyor ve %0,1’i ayrılıyor), her alt kümenin her iki sınıfın da temsil edici bir oranını içerdiğinden emin olun. Bu, modelin çoğunluk sınıfına yönelik önyargılı olmasını önler.
  • Veri Sızıntısını (Data Leakage) Önleyin: Test seti, modelin daha önce gördüğü hiçbir bilgiyi içermemelidir.
    Örnek: Bir müşteri hem eğitim hem de test setinde yer alıyorsa, bu durum bir öğrencinin sınav cevaplarını önceden görmesine benzer ve yanıltıcı sonuçlara yol açar.
  • Tekrarlayın ve “İnce Ayar” Yapın: Test setini değerlendirdikten sonra, eğitim ve doğrulama aşamalarını yeniden gözden geçirmeniz gerekebilir. Ancak, modeli ayarlamak için test setini tekrar tekrar kullanmaktan kaçının; bu, test setine aşırı öğrenmeye yol açabilir.
Sonuç

Verilerinizi doğru bir şekilde bölerek, modelinizin öğrenmesi, gelişmesi ve gerçek uygulamalarda yeteneklerini kanıtlaması için yapılandırılmış bir yol oluşturursunuz. Bu süreci anlamak, yalnızca geliştirme aşamasında iyi performans gösteren değil, aynı zamanda gerçek ihtiyaç anında sonuç üreten modeller oluşturmanızı sağlar.

Lisans

 Creative Commons Atıf-Gayri Ticari-Türetilemez 4.0 Uluslararası Lisansı için ikon

Yapay Zekâ Eğitimi Copyright © by Boğaziçi Üniversitesi Dijital Eğitim Koordinatörlüğü is licensed under a Creative Commons Atıf-Gayri Ticari-Türetilemez 4.0 Uluslararası Lisansı, except where otherwise noted.

Bu Kitabı Paylaş