Bu bölümde kümelemeyle en alakalı veri hazırlama adımları incelenir şuradan Sayısal verilerle çalışma modülünü kullanabilirsiniz.
Kümelemede iki örnek arasındaki benzerliği, iki örneklemi birleştirerek bu örneklere ait tüm özellik verilerini sayısal bir değere dönüştürür. Bu, aynı ölçeğe sahip olacak şekilde tasarlanmıştır. Bu da normalleştirme, oluşturmayı ve dönüştürmeyi seçebilir. Bir dönüşümü dağılımını incelemeden değiştirmek istiyorsanız varsayılan olarak yüzdelik dilimlere ayırabilirsiniz.
Verileri normalleştirme
Normalleştirerek birden çok özelliğe ait verileri aynı ölçeğe dönüştürebilirsiniz. bahsedeceğim.
Z puanları
Kabaca Gauss dağılımı, z puanlarını hesaplamanız gerekir. temsil eder. Z puanları, bir değerin anlamına gelir. Z-puanlarını, veri kümesi belirli bir süre için yeterince büyük olmadığında da yüzdelik dilim.
Görüntüleyin Z puanı ölçeklendirme adımları inceleyin.
Burada, veri kümesinin iki özelliğinin öncesinde ve sonrasında görselleştirilmiş gösterimi z-puanı ölçeklendirmesi:
Soldaki normalleştirilmemiş veri kümesinde, Özellik 1 ve Özellik 2, grafiğinizde aynı ölçeğe sahip değildir. sol, kırmızı örnek sarıya kıyasla maviye daha yakın veya maviye daha benzer görünür. Sağda, sonrasında z puanı ölçeklendirmesi, Özellik 1 ve Özellik 2 aynı ölçeğe sahiptir. Kırmızı sarı örneğe daha yakın görünür. Normalleştirilmiş veri kümesi ve noktalar arasındaki benzerlik için daha doğru bir ölçüm sağlar.
Günlük dönüşümleri
Bir veri kümesi, kriterlere uyan bir veri kümesi güç yasası dağıtımı (verilerin en düşük değerlere yoğun bir şekilde toplanmışsa bir günlük dönüşümü kullanın. Görüntüleyin Günlük ölçeklendirme adımları inceleyin.
Aşağıda, bir günlük dönüşümünden önce ve sonra güç yasası veri kümesinin görselleştirmesini görebilirsiniz:
Günlük ölçeklendirmesinden önce (Şekil 2), kırmızı örnek daha çok sarıya benzer. Günlük ölçeklendirmesinden sonra (Şekil 3), kırmızı görünen maviye daha benzer.
Çeyrekler
Verileri yüzdelik dilimlere ayırmak, veri kümesi uygun olmadığında iyi sonuç verir bilinen bir dağılımda kullanılır. Örneğin, şu veri kümesini ele alalım:
Basit bir şekilde, aralarında yalnızca birkaç örnek olması durumunda iki örnek daha benzerdir ne olursa olsun, çoğu örnekle kıyaslandığında daha farklı zaman alabilir. Yukarıdaki görselleştirme, toplam dönüşüm sayısını görmenizi zorlaştırır kırmızı ile sarı arasında veya kırmızı ile mavi arasında kalan örnek sayısı.
Bu benzerlik anlayışı, veri kümesini iki farklı kategoriye ayırarak elde edilebilir. çeyrekler veya her birinin eşit sayıda örnek içeren aralıklar ve her örneğe yüzdelik dizinini atayın. Görüntüleyin Çeyrek paketleme adımları inceleyin.
Burada, önceki dağılım yüzdelik dilimlere bölünmüş, kırmızının sarıdan bir yüzdelik, maviden ise üç yüzdelik dilim uzakta:
İstediğiniz sayıda \(n\) çeyrek seçebilirsiniz. Ancak yüzdelik dilimler için temsil ettiğini fark ederseniz, veri kümenizde en azından \(10n\) örnekler. Yeterli veriniz yoksa bunun yerine normalleştirin.
Öğrendiklerinizi sınayın
Aşağıdaki sorularda yüzdelik dilim oluşturmak için yeterli veriniz olduğunu varsayın.
Birinci soru
- Veri dağılımı Gauss tabanlıdır.
- Verilerin gerçek dünyada ne temsil ettiğine normal olmayan bir şekilde dönüştürülmemesi gerektiğini gösteren
İkinci soru
Veriler eksik
Veri kümenizde belirli bir özellik için eksik değerler içeren örnekler varsa, ancak bu örnekler nadiren meydana geliyorsa bu örnekleri kaldırabilirsiniz. Bu örnekler bu özelliği tamamen kaldırabilirsiniz. ya da bir makine kullanarak diğer örneklerdeki eksik değerleri tahmin edebilirsiniz öğrenme modelidir. Örneğin, şunları yapabilirsiniz: eksik sayısal verileri tahmin etme üzerinde bir regresyon modeli oluşturun.