Sayısal veri: Gruplama

Binning (paketleme olarak da adlandırılır) özellik mühendisliği farklı sayısal alt aralıkları binler veya paketler. Birçok durumda, bölme sayısal verileri kategorik verilere dönüştürür. Örneğin, bir özelliği düşünün. en düşük değeri 15 ve en düşük değeri 15 olan X adlı en yüksek değer 425'tir. Bölmelemeyi kullanarak X öğesini aşağıdaki adımları izleyin:

  • Bölme 1: 15 - 34
  • Bölme 2: 35 - 117
  • Bölme 3: 118 - 279
  • Bölme 4: 280 - 392
  • Bölme 5: 393 - 425

1. bölme, 15 ile 34 aralığında olduğundan 15 ile 34 arasında olan her X değeri Bölme 1'e gider. Bu kutulara eğitilen model de farklı tepkiler vermez. hem 17 ve 29 hem de X değerlerine dönüşür.

Özellik vektörü, aşağıdaki gibi sıralayabilirsiniz:

Bölme numarasıAralıkÖzellik vektörü
1 15-34 [1,0, 0,0, 0,0, 0,0, 0,0]
2 35-117 [0,0, 1,0, 0,0, 0,0, 0,0]
3 118-279 [0,0, 0,0, 1,0, 0,0, 0,0]
4 280-392 [0,0, 0,0, 0,0, 1,0, 0,0]
5 393-425 [0,0, 0,0, 0,0, 0,0, 1,0]

X, veri kümesinde tek bir sütun olsa da, bağlama işlemi bir modele neden olur X, beş ayrı özellik olarak değerlendirilir. Dolayısıyla model, ağırlıkları ayrı ayrı belirleyin.

Gruplandırma, ölçeklendirme için iyi bir alternatiftir ya da kırpma aşağıdaki koşullar karşılanır:

  • Özellik ve label zayıf veya var değil.
  • Özellik değerlerinin kümelenmesi.

Modelin Google Analytics 4'te bir araya getirildiğinden önceki örnekte 37 ve 115 aynı şekilde ele alınır. Ama ne zaman bir özellik doğrusaldan daha berbat görünürse, satır öğeleri doğrudan temsil eder.

Gruplandırma örneği: müşteri sayısı ve sıcaklık karşılaştırması

Tek bir Sprint’te uygulamanız gereken gün boyunca dışarıdaki hava sıcaklığına göre işlem yapabilir. Bu olayın müşteri sayısıyla karşılaştırıldığında sıcaklık:

Şekil 9. 45 puanlık dağılım grafiği. Doğal olarak 45 puan
            üç gruba ayırabiliriz.
Şekil 9. 45 puanlık dağılım grafiği.

Görselde, alışveriş yapan kullanıcıların sayısının sıcaklık en uygun olduğunu söyledi.

Bu özelliği ham değerler olarak ifade edebilirsiniz: sıcaklık 35,0 derecedir. özellik vektöründe 35,0 olacaktır. En iyi fikir bu mu?

Doğrusal regresyon modeli, eğitim sırasında her dönüşüm için özelliğini kullanabilirsiniz. Dolayısıyla, sıcaklık tek bir özellik olarak temsil ediliyorsa, 35 derecelik bir sıcaklığın etkisi beş kat (veya etkisi) 7,0 derecelik bir sıcaklık olarak kabul edilir. Ancak olay örgüsü ve etiket ve etiket arasındaki herhangi bir doğrusal ilişkiyi özellik değeri.

Grafik, aşağıdaki alt aralıklarda yer alan üç kümeyi önerir:

  • Bölme 1, 4-11 arasındaki sıcaklık aralığıdır.
  • 2. bölme, 12-26 sıcaklık aralığıdır.
  • 3. bölme, 27-36 sıcaklık aralığıdır.
Şekil 10. 45 puanlık dağılım grafiği öncekiyle aynı
            ancak bölmeleri daha görünür hale getirmek için dikey çizgiler kullanarak.
Şekil 10. Dağılım grafiği üç bölmeye bölünmüş.

Model, her bölme için ayrı ağırlıklar öğrenir.

Üçten fazla bölme, hatta her dosya için ayrı bir bölme bile bu durum genellikle şu nedenlerden dolayı kötü bir fikirdir:

  • Bir model, yalnızca aşağıdaki koşullardan dolayı bölme ile etiket arasındaki ilişkilendirmeyi öğrenebilir: yeterli sayıda örnek bulunur. Verilen örnekte 3 bölmenin her biri en az 10 örnek içermelidir. Bu örnekler eğitim için yeterli olabilir. 33 ayrı bölmeyle, bölmelerin hiçbirinde modelin eğitilmesi için yeterli örnek bulunmaz.
  • Her sıcaklık için ayrı bir bölmede 33 ayrı sıcaklık özelliği. Ancak genellikle dönüşüm başına maliyeti en aza bir modeldeki özelliklerin sayısını ifade eder.

Alıştırma: Öğrendiklerinizi sınayın

Aşağıdaki grafikte her 0,2 derecelik ev fiyatı ortanca değeri gösterilmektedir mitolojik Freedonia ülkesinin enlemi:

Şekil 11. Enlem başına ev değerlerinin grafiği. En alçak ev
            değer yaklaşık 327 ve en yüksek değer 712'dir. Enlemler 41,0'ı kapsar
            değeri 44, 8'dir; bir nokta her değer için ortanca değeri temsil eder.
            0,2 enlem derecesi. Bu model son derece düzensizdir ancak
            iki ayrı küme (enlem 41,0 ve 41,8 arasında bir küme,
            42,6 ve 43,4 enlemleri arasında yer alan başka bir küme) gösterilir.
Şekil 11. 0,2 enlem derece başına ortanca ev değeri.

Grafikte ev değeri ile enlem arasında doğrusal olmayan bir kalıp gösteriliyor. Bu nedenle, enlemi kayan nokta değeri olarak göstermek genellikle tahminlerde bulunmasını sağlar. Belki enlemleri paketlemek daha aklınıza kim geliyor?

En iyi paketleme stratejisi hangisi olur?
Paketlemeyin.
Hikayenin büyük bir kısmının rastgele olması düşünüldüğünde en iyi stratejidir.
Dört paket oluşturun:
  • 41,0 - 41,8
  • 42,0 - 42,6
  • 42,8 - 43,4
  • 43,6 - 44,8
Bir modelin olası görevler için tek bir tahmini ağırlık bulması ikinci veya dördüncü bölmedeki tüm evler, birkaç örnek.
Her veri noktasını kendi paketi haline getirin.
Bu yalnızca eğitim seti yeterli miktarda veri içerdiğinde faydalıdır. örnek olarak gösterilebilir. Genel olarak, evler şehirlerin yakınında kümelenme eğilimindedir ve diğer şehirlerde nispeten nadirdir yer.

Bölüm Gruplama

Üçlü paketleme, sayı değerinin görüntülenebileceği paketleme sınırları oluşturur her gruptaki örnek sayısı tam olarak veya neredeyse eşittir. Çeyreklik dilimleme çoğu zaman yabancıları gizler.

Yüzdelik bölümlemenin çözdüğü sorunu göstermek için şekilde gösterilen, eşit aralıklı kovalara sahip kovalara biri,tam olarak 10.000 dolarlık bir aralığı temsil etmektedir. 0 ile 10.000 arasındaki paketin onlarca örnek içerdiğine dikkat edin ancak 50.000 ile 60.000 arasındaki veri miktarı yalnızca 5 örnek içerir. Sonuç olarak, modelin 0 ile 10.000 arasındakiler üzerinde eğitilmesi için içeren bir paketi görürsünüz.

Şekil 13. Araba fiyatının, satılan otomobil sayısının karşılaştırmasıdır.
            daha yüksek bir fiyat belirleyebilirsiniz. Satılan arabaların sayısı 6.000'e kadar çıkıyor.
            6.000 olan fiyatın üzerinde, genellikle satılan arabaların sayısı
            fiyatı düştüğünü,
            60.000. Olay, her biri birbirine bağlı olan ve eşit boyutlarda 6 kovaya bölünmüştür.
            fark 10.000'dir. Yani ilk kova, satılan tüm arabaları içeriyor
            0 ile 10.000 ABD doları arasındaki
            kova fiyatı 10.001 ile 10.000 arasında satılan tüm arabaları içerir
            20.000 vb. İlk paket birçok örnek içerir. her
            sonraki paket daha az örnek içerir.
Şekil 13. Bazı paketlerde çok fazla araba var, diğer paketler ve çok az sayıda araba.

Buna karşılık, aşağıdaki şekilde araba fiyatlarını bölmek için yüzdelik paketleme yöntemi kullanılmıştır. hemen hemen aynı sayıda örnek içeren kutulara koyabilirsiniz. Bazı bölmelerin dar bir fiyat aralığını kapsadığına, diğerlerinin ise çok geniş bir fiyat aralığını kapsıyor.

Şekil 14. Çeyreklik gruplar hariç önceki şekilde aynıdır.
            Yani artık paketler farklı boyutlara sahiptir. İlk paket
            0 ile 4.000 arasında satılan arabaları içerir. İkinci grup,
            4.001'den 6.000'e satılan otomobil sayısı. Altıncı paket
            25.001'den 60.000'e satılan otomobiller. Her bir paketteki araba sayısı
            şimdi neredeyse aynı.
Şekil 14. Yüzdelik dilimleme, her pakete yaklaşık olarak eşit değer verir. görebilirsiniz.
'nı inceleyin.