Machine Learning Crash Course'dan önemli bir fikri hızla inceleyerek başlayalım. Dağılımı aşağıdaki grafikte görebilirsiniz.
Şekil 1: Kurum fiyatları ve enlem karşılaştırması.
Aşağıdaki soru için yanıtınızı kontrol etmek üzere istediğiniz oku tıklayın:
Enlem örneği gibi durumlarda, her bir bölümün barındırma değerleri hakkında farklı bir şey öğrenmek için enlemleri gruplara bölmeniz gerekir. Sayısal özelliklerin bir dizi eşik kullanılarak kategorize özelliklere dönüştürülmesine, gruplandırma (veya bağlama) adı verilir. Bu grup örneğinde sınırlar eşit aralıklıdır.
Şekil 2: Ev fiyatları ve enlem karşılaştırması, artık gruplara bölünmüştür.
Çeyrek Paketleme
Paketler eklenmiş olarak araba fiyatı veri kümenizi yeniden ziyaret edelim. Paket başına bir özellikle, model 5000-10.000 aralığındaki tüm örnekler için olduğu gibi 45.000 aralıktaki tek bir örnek için yeterli kapasite kullanır. Bunu yapmak gereksiz. Bu durumu nasıl iyileştirebiliriz?
3. Şekil: Farklı fiyatlarla satılan araba sayısı.
Sorun, eşit aralıklı paketlerin bu dağılımı iyi yakalamamasıdır. Çözüm, her biri aynı sayıda puana sahip paketler oluşturmaktan geçiyor. Bu teknike çeyreksel paketleme denir. Örneğin, aşağıdaki şekilde araba fiyatları dörtlü gruplara bölünmektedir. Her bir pakette aynı sayıda örnek almak için bazı paketler dar bir fiyat aralığını, bazıları da çok geniş bir fiyat aralığını kapsar.
4. Şekil: Üçgen paketleme, her gruba yaklaşık olarak aynı sayıda araba verir.
Gruplama Özeti
Sayısal özelliklerinizi gruplandırmayı seçerseniz sınırları nasıl belirlediğiniz ve hangi tür paket uyguladığınız hakkında net olun:
- Eşit aralıklı paketler: Sınırlar sabittir ve aynı aralığı kapsar (ör. 0-4 derece, 5-9 derece ve 10-14 derece veya 5.000-9.999 ABD doları, 10.000-14.999 ABD doları ve 15.000-19.999 ABD doları). Bazı paketlerde çok fazla puan bulunurken bazılarında az sayıda öğe bulunabilir veya hiç bulunmayabilir.
- Kuyruk sınırları olan paketler: Her bir pakette aynı sayıda nokta vardır. Sınırlar sabit değildir ve dar veya geniş bir değer aralığını kapsayabilir.