Şimdiye kadar, size bir modelin doğrudan açılış sayfasına bağlı olarak veri kümesinin satırları Ancak modeller aslında verileri biraz farklı şekilde alır.
Örneğin, bir veri kümesinde beş sütun sağladığını ancak bu sütunlardan yalnızca ikisinin sağlandığını varsayalım
sütunları (b
ve d
) modeldeki özelliklerdir. İşlenirken
satır 3'teki örnekte olduğu gibi, model yalnızca
hangi hücreyi (3b ve 3d) vurgulamıştınız?
Aslında model, model adı verilen bir kayan nokta değerleri dizisini alır. özellik vektörü olabilir. Örneğin, kayan nokta değerleri olarak gösteren bir özellik vektörü oluşturur.
Bununla birlikte, özellik vektörleri nadiren veri kümesinin ham değerlerini kullanır. Bunun yerine, genelde veri kümesinin değerlerini gösterime pek çok bilgi sağlayabilir. Bu nedenle, daha gerçekçi özellik vektörü aşağıdaki gibi görünebilir:
Bir model, ana makine eğitiminden eğitimle daha iyi tahminler gerçek değerler, değiştirilmiş değerlerden daha mı farklı? Şaşırtıcı bir şekilde, cevap hayır.
Ham veri kümesi değerlerini eğitilebilir olarak temsil etmenin en iyi yolunu belirlemeniz gerekir değerlerine işaret eder. Bu sürece özellik mühendisliği, makine öğreniminin önemli bir parçasıdır. En yaygın özellik mühendisliği teknikleri şunlardır:
- Normalleştirme: Dönüştürme sayısal değerleri standart bir aralığa dönüştürür.
- Binning (diğer adıyla gruplandırma): Sayısal değerleri dönüştürme değer aralıklarına bölebilirsiniz.
Bu birim, normalleştirme ve bölme işlemini ele almaktadır. Sonraki ünitede, Kategorik verilerle çalışma, proje yaşam döngüsünün ön işleme (ör. dizeler gibi sayısal olmayan verileri kayan nokta değerlerine dönüştürme.
Özellik vektörlerindeki her değer, kayan nokta değeri olmalıdır. Ancak birçok özellikler doğal olarak dizeler veya sayısal olmayan diğer değerlerdir. Bunun sonucunda, özellik mühendisliğinin büyük bir bölümü sayısal olmayan değerleri sayısal değerlerdir. Sonraki modüllerde bununla ilgili pek çok şey göreceksiniz.