Verilerinizi Bölme

Haber hikaye örneğinde de gösterildiği gibi, sadece rastgele bir ayırma her zaman doğru yaklaşım değildir.

Online sistemler için sık kullanılan bir teknik de verileri zamana göre bölmektir. Örneğin:

  • 30 günlük veri toplayın.
  • 1-29. gün arasındaki verileri eğitin.
  • 30. günün verilerini değerlendirin.

Online sistemler için eğitim verileri, sunulan verilerden daha eskidir. Bu teknik, doğrulama grubunuzun eğitim ve sunum arasındaki gecikmeyi yansıtmasını sağlar. Ancak zamana dayalı ayırmalar en iyi, on milyonlarca örneğe sahip olanlar gibi çok büyük veri kümeleriyle çalışır. Daha az veriye sahip projelerde dağıtımlar; eğitim, doğrulama ve test aşamaları arasında oldukça farklıdır.

Makine Öğrenimi Kilitlenme Kursu'nda açıklanan makine öğrenimi literatür projesinde bulunan veri bölme kusurunu da hatırlayın. Edebiyat, üç yazardan biri tarafından kaleme alındığı için veriler üç ana gruba ayrıldı. Ekip rastgele bir bölüm uyguladığından, her gruptan gelen veriler eğitim, değerlendirme ve test kümelerindeydi. Böylece model, tahmin sırasında sahip olması gereken bilgilerden öğrendi. Bu sorun, verileriniz zaman serisi verileri olarak gruplandığında veya başka ölçütlere göre gruplandırıldığında ortaya çıkabilir. Alan bilgisi, verilerinizi bölme konusunda sizi bilgilendirebilir.

Daha fazla bilgi için Machine Learning Crash Course'daki şu modüllere bakın: