Makine öğrenimi (ML) modellerinin durumu, verilerine göre belirlenir. Modelinize sağlıklı veriler beslerseniz gelişir; modelinize gereksiz veriler beslerseniz tahminleri değersiz olur.
Sayısal verilerle çalışmaya yönelik en iyi uygulamalar:
- Makine öğrenimi modelinizin özellik vektörü veriler için değil dataset içermelidir.
- En iyi şekilde normalleştirin sayısal özellikler
- İlk normalleştirme stratejiniz başarılı olmazsa verilerinizi normalleştirmenin farklı bir yolunu deneyin.
- Gruplandırma (gruplandırma olarak da bilinir) bazen normalleştirmeden daha iyidir.
- Verilerinizin nasıl olması gerektiğini göz önünde bulundurarak doğrulama yazın
test etmek için kullanılır. Örnek:
- Enlemin mutlak değeri hiçbir zaman 90'ı aşmamalıdır. Belgenizi verilerinizde 90'dan büyük bir enlem değerinin görünüp görünmediğini kontrol etmek için test edin.
- Verileriniz Florida eyaletiyle sınırlıysa testler yazabilirsiniz enlemlerin 24 ile 31 arasında (24 ve 31 dahil) olup olmadığını kontrol etmek için kullanılır.
- Verilerinizi dağılım grafiği ve histogramlarla görselleştirin. Anormallikler olup olmadığını kontrol edin.
- Yalnızca tüm veri kümesiyle ilgili değil, aynı zamanda daha küçük boyutlarla ilgili istatistikleri de toplayın alt kümelerini de oluşturabilirsiniz. Çünkü bazen toplu istatistiklerin veri kümesinin daha küçük bölümlerindeki problemleri belirsizleştirebilir.
- Tüm veri dönüşümlerinizi belgeleyin.
Veriler en değerli kaynağınızdır. Bu nedenle, verileri dikkatli bir şekilde kullanın.
Ek Bilgiler
- Makine Öğrenimi Kuralları kılavuzunda, değerli bir Özellik Mühendisliği bölümü bulunur.
Sırada ne var?
Tebrikler, bu modülü tamamladınız.
Çeşitli MLCC modüllerini incelemenizi öneririz istediğiniz zaman değiştirebilirsiniz. Önerilen sırayı takip etmek istiyorsanız sıradaki modüle geçmenizi öneririz: Kategorik verileri temsil etme.
.