Binning (paketleme olarak da adlandırılır)
özellik mühendisliği
farklı sayısal alt aralıkları binler veya
paketler.
Birçok durumda, bölme sayısal verileri kategorik verilere dönüştürür.
Örneğin, bir özelliği düşünün.
en düşük değeri 15 ve en düşük değeri 15 olan X
adlı
en yüksek değer 425'tir. Bölmelemeyi kullanarak X
öğesini
aşağıdaki adımları izleyin:
- Bölme 1: 15 - 34
- Bölme 2: 35 - 117
- Bölme 3: 118 - 279
- Bölme 4: 280 - 392
- Bölme 5: 393 - 425
1. bölme, 15 ile 34 aralığında olduğundan 15 ile 34 arasında olan her X
değeri
Bölme 1'e gider. Bu kutulara eğitilen model de farklı tepkiler vermez.
hem 17 ve 29 hem de X
değerlerine dönüşür.
Özellik vektörü, aşağıdaki gibi sıralayabilirsiniz:
Bölme numarası | Aralık | Özellik vektörü |
---|---|---|
1 | 15-34 | [1,0, 0,0, 0,0, 0,0, 0,0] |
2 | 35-117 | [0,0, 1,0, 0,0, 0,0, 0,0] |
3 | 118-279 | [0,0, 0,0, 1,0, 0,0, 0,0] |
4 | 280-392 | [0,0, 0,0, 0,0, 1,0, 0,0] |
5 | 393-425 | [0,0, 0,0, 0,0, 0,0, 1,0] |
X
, veri kümesinde tek bir sütun olsa da, bağlama işlemi bir modele neden olur
X
, beş ayrı özellik olarak değerlendirilir. Dolayısıyla model,
ağırlıkları ayrı ayrı belirleyin.
Gruplandırma, ölçeklendirme için iyi bir alternatiftir ya da kırpma aşağıdaki koşullar karşılanır:
- Özellik ve label zayıf veya var değil.
- Özellik değerlerinin kümelenmesi.
Modelin Google Analytics 4'te bir araya getirildiğinden önceki örnekte 37 ve 115 aynı şekilde ele alınır. Ama ne zaman bir özellik doğrusaldan daha berbat görünürse, satır öğeleri doğrudan temsil eder.
Gruplandırma örneği: müşteri sayısı ve sıcaklık karşılaştırması
Tek bir Sprint’te uygulamanız gereken gün boyunca dışarıdaki hava sıcaklığına göre işlem yapabilir. Bu olayın müşteri sayısıyla karşılaştırıldığında sıcaklık:
![Şekil 9. 45 puanlık dağılım grafiği. Doğal olarak 45 puan
üç gruba ayırabiliriz.](https://developers.google.cn/static/machine-learning/crash-course/images/binning_temperature_vs_shoppers.png?authuser=3&hl=tr)
Görselde, alışveriş yapan kullanıcıların sayısının sıcaklık en uygun olduğunu söyledi.
Bu özelliği ham değerler olarak ifade edebilirsiniz: sıcaklık 35,0 derecedir. özellik vektöründe 35,0 olacaktır. En iyi fikir bu mu?
Doğrusal regresyon modeli, eğitim sırasında her dönüşüm için özelliğini kullanabilirsiniz. Dolayısıyla, sıcaklık tek bir özellik olarak temsil ediliyorsa, 35 derecelik bir sıcaklığın etkisi beş kat (veya etkisi) 7,0 derecelik bir sıcaklık olarak kabul edilir. Ancak olay örgüsü ve etiket ve etiket arasındaki herhangi bir doğrusal ilişkiyi özellik değeri.
Grafik, aşağıdaki alt aralıklarda yer alan üç kümeyi önerir:
- Bölme 1, 4-11 arasındaki sıcaklık aralığıdır.
- 2. bölme, 12-26 sıcaklık aralığıdır.
- 3. bölme, 27-36 sıcaklık aralığıdır.
![Şekil 10. 45 puanlık dağılım grafiği öncekiyle aynı
ancak bölmeleri daha görünür hale getirmek için dikey çizgiler kullanarak.](https://developers.google.cn/static/machine-learning/crash-course/images/binning_temperature_vs_shoppers_divided_into_3_bins.png?authuser=3&hl=tr)
Model, her bölme için ayrı ağırlıklar öğrenir.
Üçten fazla bölme, hatta her dosya için ayrı bir bölme bile bu durum genellikle şu nedenlerden dolayı kötü bir fikirdir:
- Bir model, yalnızca aşağıdaki koşullardan dolayı bölme ile etiket arasındaki ilişkilendirmeyi öğrenebilir: yeterli sayıda örnek bulunur. Verilen örnekte 3 bölmenin her biri en az 10 örnek içermelidir. Bu örnekler eğitim için yeterli olabilir. 33 ayrı bölmeyle, bölmelerin hiçbirinde modelin eğitilmesi için yeterli örnek bulunmaz.
- Her sıcaklık için ayrı bir bölmede 33 ayrı sıcaklık özelliği. Ancak genellikle dönüşüm başına maliyeti en aza bir modeldeki özelliklerin sayısını ifade eder.
Alıştırma: Öğrendiklerinizi sınayın
Aşağıdaki grafikte her 0,2 derecelik ev fiyatı ortanca değeri gösterilmektedir mitolojik Freedonia ülkesinin enlemi:
![Şekil 11. Enlem başına ev değerlerinin grafiği. En alçak ev
değer yaklaşık 327 ve en yüksek değer 712'dir. Enlemler 41,0'ı kapsar
değeri 44, 8'dir; bir nokta her değer için ortanca değeri temsil eder.
0,2 enlem derecesi. Bu model son derece düzensizdir ancak
iki ayrı küme (enlem 41,0 ve 41,8 arasında bir küme,
42,6 ve 43,4 enlemleri arasında yer alan başka bir küme) gösterilir.](https://developers.google.cn/static/machine-learning/crash-course/images/MedianHouseValueByLatitude.png?authuser=3&hl=tr)
Grafikte ev değeri ile enlem arasında doğrusal olmayan bir kalıp gösteriliyor. Bu nedenle, enlemi kayan nokta değeri olarak göstermek genellikle tahminlerde bulunmasını sağlar. Belki enlemleri paketlemek daha aklınıza kim geliyor?
- 41,0 - 41,8
- 42,0 - 42,6
- 42,8 - 43,4
- 43,6 - 44,8
Bölüm Gruplama
Üçlü paketleme, sayı değerinin görüntülenebileceği paketleme sınırları oluşturur her gruptaki örnek sayısı tam olarak veya neredeyse eşittir. Çeyreklik dilimleme çoğu zaman yabancıları gizler.
Yüzdelik bölümlemenin çözdüğü sorunu göstermek için şekilde gösterilen, eşit aralıklı kovalara sahip kovalara biri,tam olarak 10.000 dolarlık bir aralığı temsil etmektedir. 0 ile 10.000 arasındaki paketin onlarca örnek içerdiğine dikkat edin ancak 50.000 ile 60.000 arasındaki veri miktarı yalnızca 5 örnek içerir. Sonuç olarak, modelin 0 ile 10.000 arasındakiler üzerinde eğitilmesi için içeren bir paketi görürsünüz.
![Şekil 13. Araba fiyatının, satılan otomobil sayısının karşılaştırmasıdır.
daha yüksek bir fiyat belirleyebilirsiniz. Satılan arabaların sayısı 6.000'e kadar çıkıyor.
6.000 olan fiyatın üzerinde, genellikle satılan arabaların sayısı
fiyatı düştüğünü,
60.000. Olay, her biri birbirine bağlı olan ve eşit boyutlarda 6 kovaya bölünmüştür.
fark 10.000'dir. Yani ilk kova, satılan tüm arabaları içeriyor
0 ile 10.000 ABD doları arasındaki
kova fiyatı 10.001 ile 10.000 arasında satılan tüm arabaları içerir
20.000 vb. İlk paket birçok örnek içerir. her
sonraki paket daha az örnek içerir.](https://developers.google.cn/static/machine-learning/crash-course/images/NeedsQuantileBucketing.png?authuser=3&hl=tr)
Buna karşılık, aşağıdaki şekilde araba fiyatlarını bölmek için yüzdelik paketleme yöntemi kullanılmıştır. hemen hemen aynı sayıda örnek içeren kutulara koyabilirsiniz. Bazı bölmelerin dar bir fiyat aralığını kapsadığına, diğerlerinin ise çok geniş bir fiyat aralığını kapsıyor.
![Şekil 14. Çeyreklik gruplar hariç önceki şekilde aynıdır.
Yani artık paketler farklı boyutlara sahiptir. İlk paket
0 ile 4.000 arasında satılan arabaları içerir. İkinci grup,
4.001'den 6.000'e satılan otomobil sayısı. Altıncı paket
25.001'den 60.000'e satılan otomobiller. Her bir paketteki araba sayısı
şimdi neredeyse aynı.](https://developers.google.cn/static/machine-learning/crash-course/images/QuantileBucketing.png?authuser=3&hl=tr)