Üretim makine öğrenimi sistemleri: Veriler ne zaman dönüştürülmeli?

Ham veriler özellik mühendisliği (dönüşüm) uygulanmış olmalıdır. Verileri ne zaman dönüştürmelisiniz? Genel olarak, özellik mühendisliği aşağıdaki iki dönemden birinde yapılabilir:

  • Modeli eğitmeden önce.
  • Modeli eğitirken

Eğitimden önce verileri dönüştürme

Bu yaklaşımda iki adım uygularsınız:

  1. Ham verileri dönüştürmek için kod yazın veya özel araçlar kullanın.
  2. Dönüştürülmüş verileri, modelin besleyebileceği bir yerde (ör. diskte) depolayın.

Avantajlar

  • Sistem, ham verileri yalnızca bir kez dönüştürür.
  • Sistem, en iyi dönüşüm stratejisini belirlemek için veri kümesinin tamamını analiz edebilir.

Dezavantajları

Sisteminiz dinamik (online) çıkarım gerçekleştirdiğinde eğitim-yayınlama sapması daha tehlikelidir. Dinamik çıkarım kullanan bir sistemde, ham veri kümesini dönüştüren yazılım genellikle tahminleri sunan yazılımdan farklıdır. Bu durum, eğitim-sunma kaymasına neden olabilir. Buna karşılık, statik (çevrimdışı) çıkarım kullanan sistemler bazen aynı yazılımı kullanabilir.

Eğitim sırasında verileri dönüştürme

Bu yaklaşımda dönüşüm, model kodunun bir parçasıdır. Model, ham verileri alır ve dönüştürür.

Avantajlar

  • Dönüşümleri değiştirirseniz aynı ham veri dosyalarını kullanmaya devam edebilirsiniz.
  • Eğitim ve tahmin sırasında aynı dönüşümlerin yapıldığından emin olun.

Dezavantajları

  • Karmaşık dönüştürme işlemleri model gecikmesini artırabilir.
  • Dönüşümler her bir grup için gerçekleşir.

Verileri grup başına dönüştürmek zor olabilir. Örneğin, ham sayısal verileri dönüştürmek için Z-skor normalleştirmesini kullanmak istediğinizi varsayalım. Z puanı normalleştirmesi, özelliğin ortalamasını ve standart sapmasını gerektirir. Ancak grup başına dönüşümler, veri kümesinin tamamına değil yalnızca bir veri grubuna erişebileceğiniz anlamına gelir. Dolayısıyla, gruplar çok değişkense bir gruptaki -2, 5 Z puanı, başka bir gruptaki -2,5 puanla aynı anlama gelmez. Bu sorunun geçici çözümü olarak sisteminiz, veri kümesinin tamamında ortalama ve standart sapmayı önceden hesaplayabilir ve ardından bunları modelde sabit olarak kullanabilir.