Sayısal veriler: Bir model, özellik vektörlerini kullanarak verileri nasıl alır?

Şimdiye kadar, size bir modelin doğrudan açılış sayfasına bağlı olarak veri kümesinin satırları Ancak modeller aslında verileri biraz farklı şekilde alır.

Örneğin, bir veri kümesinde beş sütun sağladığını ancak bu sütunlardan yalnızca ikisinin sağlandığını varsayalım sütunları (b ve d) modeldeki özelliklerdir. İşlenirken satır 3'teki örnekte olduğu gibi, model yalnızca hangi hücreyi (3b ve 3d) vurgulamıştınız?

Şekil 1. Doğrudan veri kümesinden örnek alan bir model.
            3. satırın b ve d sütunları vurgulanıyor.
Şekil 1. Bir modelin örneklerini tam olarak nasıl edindiği doğru değildir.

Aslında model, model adı verilen bir kayan nokta değerleri dizisini alır. özellik vektörü olabilir. Örneğin, kayan nokta değerleri olarak gösteren bir özellik vektörü oluşturur.

Şekil 2. Özellik vektörü, veri kümesi ile arasındaki
            ve model.
Şekil 2. Gerçeğe daha yakındır, ancak gerçekçi değildir.

Bununla birlikte, özellik vektörleri nadiren veri kümesinin ham değerlerini kullanır. Bunun yerine, genelde veri kümesinin değerlerini gösterime pek çok bilgi sağlayabilir. Bu nedenle, daha gerçekçi özellik vektörü aşağıdaki gibi görünebilir:

Şekil 3. Özellik vektörü iki kayan nokta değeri içerir:
            0,13 ve 0,47. Daha gerçekçi bir özellik vektörü.
Şekil 3. Daha gerçekçi bir özellik vektörü.

Bir model, ana makine eğitiminden eğitimle daha iyi tahminler gerçek değerler, değiştirilmiş değerlerden daha mı farklı? Şaşırtıcı bir şekilde, cevap hayır.

Ham veri kümesi değerlerini eğitilebilir olarak temsil etmenin en iyi yolunu belirlemeniz gerekir değerlerine işaret eder. Bu sürece özellik mühendisliği, makine öğreniminin önemli bir parçasıdır. En yaygın özellik mühendisliği teknikleri şunlardır:

  • Normalleştirme: Dönüştürme sayısal değerleri standart bir aralığa dönüştürür.
  • Binning (diğer adıyla gruplandırma): Sayısal değerleri dönüştürme değer aralıklarına bölebilirsiniz.

Bu birim, normalleştirme ve bölme işlemini ele almaktadır. Sonraki ünitede, Kategorik verilerle çalışma, proje yaşam döngüsünün ön işleme (ör. dizeler gibi sayısal olmayan verileri kayan nokta değerlerine dönüştürme.

Özellik vektörlerindeki her değer, kayan nokta değeri olmalıdır. Ancak birçok özellikler doğal olarak dizeler veya sayısal olmayan diğer değerlerdir. Bunun sonucunda, özellik mühendisliğinin büyük bir bölümü sayısal olmayan değerleri sayısal değerlerdir. Sonraki modüllerde bununla ilgili pek çok şey göreceksiniz.