Binning (paketleme olarak da adlandırılır)
özellik mühendisliği
farklı sayısal alt aralıkları binler veya
paketler.
Birçok durumda, bölme sayısal verileri kategorik verilere dönüştürür.
Örneğin, bir özelliği düşünün.
en düşük değeri 15 ve en düşük değeri 15 olan X
adlı
en yüksek değer 425'tir. Bölmelemeyi kullanarak X
öğesini
aşağıdaki adımları izleyin:
- Bölme 1: 15 - 34
- Bölme 2: 35 - 117
- Bölme 3: 118 - 279
- Bölme 4: 280 - 392
- Bölme 5: 393 - 425
1. bölme, 15 ile 34 aralığında olduğundan 15 ile 34 arasında olan her X
değeri
Bölme 1'e gider. Bu kutulara eğitilen model de farklı tepkiler vermez.
hem 17 ve 29 hem de X
değerlerine dönüşür.
Özellik vektörü, aşağıdaki gibi sıralayabilirsiniz:
Bölme numarası | Aralık | Özellik vektörü |
---|---|---|
1 | 15-34 | [1,0, 0,0, 0,0, 0,0, 0,0] |
2 | 35-117 | [0,0, 1,0, 0,0, 0,0, 0,0] |
3 | 118-279 | [0,0, 0,0, 1,0, 0,0, 0,0] |
4 | 280-392 | [0,0, 0,0, 0,0, 1,0, 0,0] |
5 | 393-425 | [0,0, 0,0, 0,0, 0,0, 1,0] |
X
, veri kümesinde tek bir sütun olsa da, bağlama işlemi bir modele neden olur
X
, beş ayrı özellik olarak değerlendirilir. Dolayısıyla model,
ağırlıkları ayrı ayrı belirleyin.
Gruplandırma, ölçeklendirme için iyi bir alternatiftir ya da kırpma aşağıdaki koşullar karşılanır:
- Özellik ve label zayıf veya var değil.
- Özellik değerlerinin kümelenmesi.
Modelin Google Analytics 4'te bir araya getirildiğinden önceki örnekte 37 ve 115 aynı şekilde ele alınır. Ama ne zaman bir özellik doğrusaldan daha berbat görünürse, satır öğeleri doğrudan temsil eder.
Gruplandırma örneği: müşteri sayısı ve sıcaklık karşılaştırması
Tek bir Sprint’te uygulamanız gereken gün boyunca dışarıdaki hava sıcaklığına göre işlem yapabilir. Bu olayın müşteri sayısıyla karşılaştırıldığında sıcaklık:
Görselde, alışveriş yapan kullanıcıların sayısının sıcaklık en uygun olduğunu söyledi.
Bu özelliği ham değerler olarak ifade edebilirsiniz: sıcaklık 35,0 derecedir. özellik vektöründe 35,0 olacaktır. En iyi fikir bu mu?
Doğrusal regresyon modeli, eğitim sırasında her dönüşüm için özelliğini kullanabilirsiniz. Dolayısıyla, sıcaklık tek bir özellik olarak temsil ediliyorsa, 35 derecelik bir sıcaklığın etkisi beş kat (veya etkisi) 7,0 derecelik bir sıcaklık olarak kabul edilir. Ancak olay örgüsü ve etiket ve etiket arasındaki herhangi bir doğrusal ilişkiyi özellik değeri.
Grafik, aşağıdaki alt aralıklarda yer alan üç kümeyi önerir:
- Bölme 1, 4-11 arasındaki sıcaklık aralığıdır.
- 2. bölme, 12-26 sıcaklık aralığıdır.
- 3. bölme, 27-36 sıcaklık aralığıdır.
Model, her bölme için ayrı ağırlıklar öğrenir.
Üçten fazla bölme, hatta her dosya için ayrı bir bölme bile bu durum genellikle şu nedenlerden dolayı kötü bir fikirdir:
- Bir model, yalnızca aşağıdaki koşullardan dolayı bölme ile etiket arasındaki ilişkilendirmeyi öğrenebilir: yeterli sayıda örnek bulunur. Verilen örnekte 3 bölmenin her biri en az 10 örnek içermelidir. Bu örnekler eğitim için yeterli olabilir. 33 ayrı bölmeyle, bölmelerin hiçbirinde modelin eğitilmesi için yeterli örnek bulunmaz.
- Her sıcaklık için ayrı bir bölmede 33 ayrı sıcaklık özelliği. Ancak genellikle dönüşüm başına maliyeti en aza bir modeldeki özelliklerin sayısını ifade eder.
Alıştırma: Öğrendiklerinizi sınayın
Aşağıdaki grafikte her 0,2 derecelik ev fiyatı ortanca değeri gösterilmektedir mitolojik Freedonia ülkesinin enlemi:
Grafikte ev değeri ile enlem arasında doğrusal olmayan bir kalıp gösteriliyor. Bu nedenle, enlemi kayan nokta değeri olarak göstermek genellikle tahminlerde bulunmasını sağlar. Belki enlemleri paketlemek daha aklınıza kim geliyor?
- 41,0 - 41,8
- 42,0 - 42,6
- 42,8 - 43,4
- 43,6 - 44,8
Bölüm Gruplama
Üçlü paketleme, sayı değerinin görüntülenebileceği paketleme sınırları oluşturur her gruptaki örnek sayısı tam olarak veya neredeyse eşittir. Çeyreklik dilimleme çoğu zaman yabancıları gizler.
Yüzdelik bölümlemenin çözdüğü sorunu göstermek için şekilde gösterilen, eşit aralıklı kovalara sahip kovalara biri,tam olarak 10.000 dolarlık bir aralığı temsil etmektedir. 0 ile 10.000 arasındaki paketin onlarca örnek içerdiğine dikkat edin ancak 50.000 ile 60.000 arasındaki veri miktarı yalnızca 5 örnek içerir. Sonuç olarak, modelin 0 ile 10.000 arasındakiler üzerinde eğitilmesi için içeren bir paketi görürsünüz.
Buna karşılık, aşağıdaki şekilde araba fiyatlarını bölmek için yüzdelik paketleme yöntemi kullanılmıştır. hemen hemen aynı sayıda örnek içeren kutulara koyabilirsiniz. Bazı bölmelerin dar bir fiyat aralığını kapsadığına, diğerlerinin ise çok geniş bir fiyat aralığını kapsıyor.
'nı inceleyin.