Veri hazırlama

Bu bölümde kümelemeyle en alakalı veri hazırlama adımları incelenir şuradan Sayısal verilerle çalışma modülünü kullanabilirsiniz.

Kümelemede iki örnek arasındaki benzerliği, iki örneklemi birleştirerek bu örneklere ait tüm özellik verilerini sayısal bir değere dönüştürür. Bu, aynı ölçeğe sahip olacak şekilde tasarlanmıştır. Bu da normalleştirme, oluşturmayı ve dönüştürmeyi seçebilir. Bir dönüşümü dağılımını incelemeden değiştirmek istiyorsanız varsayılan olarak yüzdelik dilimlere ayırabilirsiniz.

Verileri normalleştirme

Normalleştirerek birden çok özelliğe ait verileri aynı ölçeğe dönüştürebilirsiniz. bahsedeceğim.

Z puanları

Kabaca Gauss dağılımı, z puanlarını hesaplamanız gerekir. temsil eder. Z puanları, bir değerin anlamına gelir. Z-puanlarını, veri kümesi belirli bir süre için yeterince büyük olmadığında da yüzdelik dilim.

Görüntüleyin Z puanı ölçeklendirme adımları inceleyin.

Burada, veri kümesinin iki özelliğinin öncesinde ve sonrasında görselleştirilmiş gösterimi z-puanı ölçeklendirmesi:

Normalleştirme öncesi ve sonrası özellik verilerini karşılaştıran iki grafik
Şekil 1: Normalleştirmeden önceki ve sonraki özellik verilerinin karşılaştırması.

Soldaki normalleştirilmemiş veri kümesinde, Özellik 1 ve Özellik 2, grafiğinizde aynı ölçeğe sahip değildir. sol, kırmızı örnek sarıya kıyasla maviye daha yakın veya maviye daha benzer görünür. Sağda, sonrasında z puanı ölçeklendirmesi, Özellik 1 ve Özellik 2 aynı ölçeğe sahiptir. Kırmızı sarı örneğe daha yakın görünür. Normalleştirilmiş veri kümesi ve noktalar arasındaki benzerlik için daha doğru bir ölçüm sağlar.

Günlük dönüşümleri

Bir veri kümesi, kriterlere uyan bir veri kümesi güç yasası dağıtımı (verilerin en düşük değerlere yoğun bir şekilde toplanmışsa bir günlük dönüşümü kullanın. Görüntüleyin Günlük ölçeklendirme adımları inceleyin.

Aşağıda, bir günlük dönüşümünden önce ve sonra güç yasası veri kümesinin görselleştirmesini görebilirsiniz:

Verilerin çoğunun alt uçta gösterildiği bir çubuk grafik
Şekil 2: Güç yasası dağılımı.
Normal (Gauss) dağılımını gösteren bir grafik
Şekil 3: Şekil 2'deki bir günlük dönüşümü.

Günlük ölçeklendirmesinden önce (Şekil 2), kırmızı örnek daha çok sarıya benzer. Günlük ölçeklendirmesinden sonra (Şekil 3), kırmızı görünen maviye daha benzer.

Çeyrekler

Verileri yüzdelik dilimlere ayırmak, veri kümesi uygun olmadığında iyi sonuç verir bilinen bir dağılımda kullanılır. Örneğin, şu veri kümesini ele alalım:

Herhangi bir ön işleme işleminden önce veri dağılımını gösteren bir grafik
Şekil 4: Herhangi bir ön işlemeden önceki kategorize edilemeyen dağılım.

Basit bir şekilde, aralarında yalnızca birkaç örnek olması durumunda iki örnek daha benzerdir ne olursa olsun, çoğu örnekle kıyaslandığında daha farklı zaman alabilir. Yukarıdaki görselleştirme, toplam dönüşüm sayısını görmenizi zorlaştırır kırmızı ile sarı arasında veya kırmızı ile mavi arasında kalan örnek sayısı.

Bu benzerlik anlayışı, veri kümesini iki farklı kategoriye ayırarak elde edilebilir. çeyrekler veya her birinin eşit sayıda örnek içeren aralıklar ve her örneğe yüzdelik dizinini atayın. Görüntüleyin Çeyrek paketleme adımları inceleyin.

Burada, önceki dağılım yüzdelik dilimlere bölünmüş, kırmızının sarıdan bir yüzdelik, maviden ise üç yüzdelik dilim uzakta:

Dönüşümden sonraki verileri gösteren bir grafik
  bunu yapabilirsiniz. Çizgi, 20 aralığı gösterir.]
Şekil 5: 20 yüzdelik dilime dönüştürmeden sonra Şekil 4'teki dağılım.

İstediğiniz sayıda \(n\) çeyrek seçebilirsiniz. Ancak yüzdelik dilimler için temsil ettiğini fark ederseniz, veri kümenizde en azından \(10n\) örnekler. Yeterli veriniz yoksa bunun yerine normalleştirin.

Öğrendiklerinizi sınayın

Aşağıdaki sorularda yüzdelik dilim oluşturmak için yeterli veriniz olduğunu varsayın.

Birinci soru

Üç veri dağılımını gösteren grafik
Önceki bölümde gösterilen veri dağıtımını nasıl işlemelisiniz? grafiği var mı?
Yüzdelik dilim oluşturun.
Doğru. Çünkü dağılım bir standart veri dağıtımı ise varsayılan olarak oluşturuyoruz.
Normalleştir.
Genellikle aşağıdaki durumlarda verileri normalleştirirsiniz:
  • Veri dağılımı Gauss tabanlıdır.
  • Verilerin gerçek dünyada ne temsil ettiğine normal olmayan bir şekilde dönüştürülmemesi gerektiğini gösteren
Burada iki durum da geçerli değildir. Veri dağılımı Gauss değil çünkü değildir. Bu değerlerin ne olduğunu temsil eder.
Günlük dönüşümü.
Bu mükemmel bir güç yasası dağıtımı değildir; bu nedenle, gerekir.

İkinci soru

Üç veri dağılımını gösteren grafik
Bu veri dağıtımını nasıl işlersiniz?
Normalleştir.
Doğru. Bu bir Gauss dağılımıdır.
Yüzdelik dilim oluşturun.
Yanlış. Bu bir Gauss dağılımı olduğu için, normalleştirmedir.
Günlük dönüşümü.
Yanlış. Yalnızca güç yasası dağıtımlarına günlük dönüşümü uygulayın.

Veriler eksik

Veri kümenizde belirli bir özellik için eksik değerler içeren örnekler varsa, ancak bu örnekler nadiren meydana geliyorsa bu örnekleri kaldırabilirsiniz. Bu örnekler bu özelliği tamamen kaldırabilirsiniz. ya da bir makine kullanarak diğer örneklerdeki eksik değerleri tahmin edebilirsiniz öğrenme modelidir. Örneğin, şunları yapabilirsiniz: eksik sayısal verileri tahmin etme üzerinde bir regresyon modeli oluşturun.