Üretim makine öğrenimi sistemleri: Veriler ne zaman dönüştürülmeli?

Ham veriler özellik mühendisliği ile geliştirilmiş (dönüştürülmüş) olmalıdır. Ne zaman dönüşüm yapmalısınız? verileri var mı? Genel olarak belirtmek gerekirse, şu iki dönemi kapsar:

  • Modeli eğitmeden önce.
  • Modeli eğitirken .

Eğitimden önce verileri dönüştürme

Bu yaklaşımda iki adım izlersiniz:

  1. Kod yazın veya özel araçlar kullanın dönüştürme işini kolaylaştırır.
  2. Dönüştürülen verileri, modelin alabileceği bir yerde depolayın. Örneğin: aynı olacaktır.

Avantajları

  • Sistem, ham verileri yalnızca bir kez dönüştürür.
  • Sistem, en iyi veri kümesini belirlemek için veri kümesinin tamamını dönüştürme stratejisidir.

Dezavantajları

Eğitim sunma sapması, sisteminiz dinamik bir şekilde performans gösterdiğinde daha tehlikelidir (çevrimiçi) çıkarım. Dinamik çıkarım kullanan bir sistemde, dönüşüm işlemini gerçekleştiren yazılım ham veri kümesi genellikle tahmin sunan yazılımdan farklıdır, Bu da eğitim sunmada sapmalara neden olabilir. Buna karşın statik (çevrimdışı) çıkarım kullanan sistemler bazen aynı yazılımı kullanın.

Eğitim sırasında verileri dönüştürme

Bu yaklaşımda dönüşüm, model kodunun bir parçasıdır. Model ham verileri alıp dönüştürür.

Avantajları

  • Dönüşümleri değiştirirseniz aynı ham veri dosyalarını kullanmaya devam edebilirsiniz.
  • Eğitim ve tahmin zamanında aynı dönüşümlerin yapılması sağlanır.

Dezavantajları

  • Karmaşık dönüşümler model gecikmesini artırabilir.
  • Her grup için dönüştürme işlemleri gerçekleşir.

Verileri grup bazında dönüştürmek zor olabilir. Örneğin, Arkadaş Bitkiler projesinin Z puanı normalleştirmesini kullanın dönüştürme işini kolaylaştırır. Z-puanı normalleştirmesi için ortalama ve standart sapmasıdır. Bununla birlikte, grup başına dönüşüm sayısı yalnızca şuna erişiminiz olduğu anlamına gelir: bir veri grubunu kullanarak başka bir veri grubunu da düzenleyebilir. Bu yüzden, gruplar çok sayıda varyantın Z puanının (örneğin, bir grupta -2,5) aynı anlama gelmeyeceğini başka bir grupta -2,5 olarak ayarlayabilirsiniz. Geçici bir çözüm olarak, sisteminiz ortalama ve standart sapmayı önceden hesaplayabilir ve sonra bunları modelde sabit değer olarak kullanabilirsiniz.