Makine öğrenimi modelleri yalnızca kayan nokta değerleriyle eğitilebilir. Ancak birçok veri kümesi özelliği doğal olarak kayan noktalı değerler değildir. Bu nedenle, makine öğreniminin önemli bir parçası, kayan nokta olmayan özellikleri kayan nokta gösterimlerine dönüştürmektir.
Örneğin, street names
bir özelliktir. Çoğu sokak adı, "Broadway" veya "Vilakazi" gibi bir dizedir.
Modeliniz "Broadway" üzerinde eğitilemez. Bu nedenle, "Broadway"yi kayan noktalı bir sayıya dönüştürmeniz gerekir. Kategorik Veriler modülünde bunun nasıl yapılacağı açıklanmaktadır.
Ayrıca, çoğu kayan nokta özelliğini de dönüştürmeniz gerekir. Normalleştirme olarak adlandırılan bu dönüşüm işlemi, kayan noktalı sayıları model eğitimini iyileştiren sınırlı bir aralığa dönüştürür. Sayısal Veriler modülünde bunun nasıl yapılacağı açıklanmaktadır.
Çok fazla veriniz olduğunda verileri örnekleme
Bazı kuruluşlar çok fazla veriye sahiptir. Veri kümesi çok fazla örnek içeriyorsa eğitim için örneklerin bir alt kümesini seçmeniz gerekir. Mümkün olduğunda, modelinizin tahminleriyle en alakalı alt kümeyi seçin.
Kimliği tanımlayabilecek bilgiler içeren filtre örnekleri
İyi veri kümelerinde kimliği tanımlayabilecek bilgiler (PII) içeren örnekler atlanır. Bu politika, gizliliğin korunmasına yardımcı olur ancak modeli etkileyebilir.
Bu konular hakkında daha fazla bilgi için kursun ilerleyen bölümlerindeki Güvenlik ve Gizlilik modülüne göz atın.