Veri hazırlama

Bu bölümde, Makine Öğrenimi Acele Kursu'ndaki Sayısal verilerle çalışma modülünden küme oluşturmayla en alakalı veri hazırlama adımları incelenmektedir.

Kümelendirmede, iki örnekle ilgili tüm özellik verilerini sayısal bir değerde birleştirerek iki örnek arasındaki benzerliği hesaplarsınız. Bunun için özelliklerin aynı ölçeğe sahip olması gerekir. Bu, normalleştirme, dönüştürme veya yüzdelik dilim oluşturma yoluyla yapılabilir. Verilerinizi dağılımını incelemeden dönüştürmek istiyorsanız varsayılan olarak yüzdelik dilimlere geçebilirsiniz.

Verileri normalleştirme

Verileri normalleştirerek birden fazla özellik için verileri aynı ölçeğe dönüştürebilirsiniz.

Z puanları

Yaklaşık olarak Gauss dağılımı şeklinde bir veri kümesi gördüğünüzde veriler için z puanlarını hesaplamanız gerekir. Z puanları, bir değerin ortalamadan standart sapma sayısıdır. Veri kümesi yüzdelik dilimlere yetecek kadar büyük değilse z puanlarını da kullanabilirsiniz.

Adımları incelemek için Z puanı ölçeklendirme bölümüne bakın.

Aşağıda, bir veri kümesinin iki özelliğinin z-skoru ölçeklendirmesinden önceki ve sonraki durumu görselleştirilmiştir:

Normalleştirmeden önce ve sonra özellik verilerini karşılaştıran iki grafik — **Şekil 1: Normalleştirmeden önce ve sonra özellik verilerinin karşılaştırması.**

Soldaki normalleştirilmemiş veri kümesinde, x ve y eksenlerinde grafik olarak gösterilen Özellik 1 ve Özellik 2 aynı ölçeğe sahip değildir. Soldaki kırmızı örnek, sarıya kıyasla maviye daha yakın veya daha benzer görünüyor. Sağ tarafta, z-skoru ölçeklendirmesinden sonra Özellik 1 ve Özellik 2 aynı ölçeğe sahiptir ve kırmızı örnek sarı örneğe daha yakın görünür. Normalleştirilmiş veri kümesi, noktalar arasındaki benzerliği daha doğru bir şekilde ölçer.

Günlük dönüştürme işlemleri

Bir veri kümesi, verilerin en düşük değerlerde yoğunlaştığı kuvvet yasası dağılımına mükemmel şekilde uyuyorsa log dönüşümü kullanın. Adımları incelemek için Günlük ölçeklendirme bölümüne bakın.

Bir kuvvet yasası veri kümesinin logaritmik dönüşümden önce ve sonra görselleştirmesi aşağıda verilmiştir:

Verilerin çoğunun alt uçta olduğu bir çubuk grafik — **Şekil 2: Güç yasası dağılımı.**

Normal (Gauss) dağılımı gösteren bir grafik — **Şekil 3: Şekil 2'nin logaritma dönüşümü.**

Günlük ölçeklendirmeden önce (Şekil 2), kırmızı örnek sarıya daha benzer görünür. Log ölçeklendirmesinden sonra (Şekil 3), kırmızı mavi renge daha benzer görünür.

Yüzdelik dilimler

Verileri yüzdelik dilimlere ayırma işlemi, veri kümesi bilinen bir dağılıma uymadığında iyi sonuç verir. Örneğin, şu veri kümesini ele alalım:

Herhangi bir ön işleme işleminden önce veri dağılımını gösteren bir grafik — **Şekil 4: Herhangi bir ön işleme uygulanmadan önce sınıflandırılamayan bir dağılım.**

Sezgisel olarak, iki örnek arasında yalnızca birkaç örnek varsa (değerlerinden bağımsız olarak) daha benzer, aralarında çok sayıda örnek varsa daha farklıdır. Yukarıdaki görselleştirme, kırmızı ile sarı veya kırmızı ile mavi arasında kalan örneklerin toplam sayısını görmeyi zorlaştırır.

Benzerlik anlayışı, veri kümesinin kuantaile veya her biri eşit sayıda örnek içeren aralıklara bölünmesi ve her bir örneğe yüzdelik dilim dizini atanmasıyla ortaya çıkarılabilir. Adımları incelemek için Kuantale gruplandırma bölümüne bakın.

Aşağıda, önceki dağılımın yüzdelik dilimlere ayrılmış hali gösterilmektedir. Bu dağılım, kırmızının sarıdan bir yüzdelik dilim, maviden ise üç yüzdelik dilim uzakta olduğunu gösterir:

Verileri yüzdelik dilimlere dönüştürüldükten sonra gösteren bir grafik. Çizgi 20 aralığı temsil etmektedir.] — **Şekil 5: 20 yüzdelik dilime dönüştürüldükten sonra Şekil 4'teki dağılım.**

İstediğiniz sayıda kesme noktası seçebilirsiniz. \(n\) Ancak yüzdelik dilimlerin temel verileri anlamlı bir şekilde temsil edebilmesi için veri kümenizde en az\(10n\) örnek olmalıdır. Yeterli veriniz yoksa normalleştirme yapın.

Öğrendiklerinizi test etme

Aşağıdaki sorularda, yüzdelik dilim oluşturmak için yeterli veriniz olduğunu varsayın.

Birinci soru

Üç veri dağılımını gösteren bir nokta grafiği

Önceki grafikte gösterilen veri dağılımını nasıl işlemeniz gerekir?

Çeyrek oluşturma.

Doğru. Dağıtım standart bir veri dağılımıyla eşleşmediğinden, varsayılan olarak yüzdelik dilim oluşturmanız gerekir.

Normalleştirme.

Verileri genellikle aşağıdaki durumlarda normalleştirirsiniz:

Veri dağılımı Gauss dağılımıdır.
Verilerin gerçekte neyi temsil ettiğine dair bir bilginiz varsa bu, verilerin doğrusal olmayan bir şekilde dönüştürülmemesi gerektiğini gösterir.

Bu durumda iki durum da geçerli değildir. Veri dağılımı simetrik olmadığı için Gauss dağılımı değildir. Ayrıca bu değerlerin gerçek dünyada neyi temsil ettiğini bilmezsiniz.

Log dönüşümü.

Bu mükemmel bir güç yasası dağılımı olmadığından log dönüşümü kullanmayın.

İkinci soru

Bu veri dağılımını nasıl işleyeceğinizi düşünüyorsunuz?

Normalleştirme.

Doğru. Bu bir Gauss dağılımıdır.

Çeyrek oluşturma.

Yanlış. Bu bir Gauss dağılımı olduğundan tercih edilen dönüşüm normalleştirmedir.

Log dönüşümü.

Yanlış. Yalnızca kuvvet yasası dağılımlarına bir günlük dönüşümü uygulayın.

Eksik veriler

Veri kümenizde belirli bir özellik için eksik değerler içeren örnekler varsa ancak bu örnekler nadiren ortaya çıkıyorsa bu örnekleri kaldırabilirsiniz. Bu örnekler sık sık ortaya çıkıyorsa bu özelliği tamamen kaldırabilir veya makine öğrenimi modeli kullanarak diğer örneklerdeki eksik değerleri tahmin edebilirsiniz. Örneğin, mevcut özellik verilerinde eğitilmiş bir regresyon modeli kullanarak eksik sayısal verileri tahmin edebilirsiniz.

Kümeleme iş akışı

K-ortalama kümeleme nedir?