Değeri şunlardan biri olan kategorik bir etiket içeren bir veri kümesi Pozitif veya Negatif. Dengeli bir veri kümesinde, Pozitif sayısı ve Negatif etiketler yaklaşık olarak eşittir. Bununla birlikte, bir etiket daha yaygın diğer etiketten farklıysa veri kümesi dengesiz. Dengesiz bir veri kümesindeki baskın etikete ana sınıf; daha az yaygın olan etiketin adı azınlık sınıfı ile iletişime geçebilirsiniz.
Aşağıdaki tabloda farklı dengesizlik dereceleri:
Azınlık sınıfına ait verilerin yüzdesi | Eşitsizlik derecesi |
---|---|
Veri kümesinin% 20-40'ı | Hafif |
Veri kümesinin% 1-20'si | Orta düzey |
Veri kümesinin% 1'inden azı | Olağanüstü |
Örneğin, azınlık grubunun bulunduğu bir virüs tespit veri kümesi büyüklük sınıfı% 99,5'ini temsil ederken, veri kümesinin %0,5'ini temsil eder. Bunun gibi son derece dengesiz veri kümeleri tıpta yaygın olarak çoğu denek virüsü taşımaz.
Dengesiz veri kümeleri bazen yeterli azınlık sınıfı içermez örnekler üzerinden öğrenebilirsiniz. Yani, çok az sayıda olumlu etiket olduğunda model neredeyse tamamen ve pozitif etiketler hakkında yeterli bilgi sahibi olamayacağı anlamına gelir. Örneğin, grup boyutu 50 ise birçok grup pozitif etiket içermez.
Çoğunlukla, özellikle hafif düzeyde dengesiz ve olduğu gibi dengesizliğin de sorun olmadığı anlamına gelir. Bu nedenle, ilk olarak eğitiminde orijinal veri kümesi üzerinde çalışıyoruz. Model iyi çalışıyorsa işlem tamamlanmış demektir. Değilse, en azından ideal olmayan model iyi bir Gelecekteki denemeler için referans. Daha sonra, problemlerin üstesinden gelmek için aşağıdaki teknikleri deneyebilirsiniz veri kümelerindeki dengesizlikten kaynaklanır.
Aşağı Örnekleme ve Ağırlıklandırma
Dengesiz bir veri kümesiyle başa çıkmanın bir yolu, veri kümesinin boyutunu küçültmek ve çoğunluk sınıfındadır. Bu iki yeni terimin tanımı aşağıda verilmiştir:
- Aşağı örnekleme (bu bağlamda) çoğunluk sınıfında orantısız olarak düşük bir alt grupta eğitim anlamına gelir örnekler.
- Yukarı ağırlıklandırma, örnek ağırlığının aşağı örneklenen sınıfa eşittir. aşağı örneklendi.
1. Adım: Çoğunluğun örneğini azaltın. Bir de her 200 negatif etiket için 1 pozitif etikete sahip virüs veri kümesi etiketler. Şu kata kadar aşağı örnekleme işlemi: 20, dengeyi 1 pozitif - 10 negatif sayıya (%10) yükseltir. Her ne kadar sonuçta elde edilen eğitim kümesi hâlâ kısmen dengesiz, pozitifler ile negatifler arasındakiler orijinalden çok daha iyidir, son derece dengesiz oranı (%0,5).
2. Adım: Azaltılmış sınıfa ağırlık verin: Örnek ekleyin alt örneklenen sınıfa ekler. Aşağı örneklemeden 20 kat sonra, örnek ağırlık 20 olmalıdır. (Evet, bu kulağa mantıksız gelebilir, ancak daha sonra daha sonra açıklayacağım.)
Ağırlık terimi, model parametrelerini (ör. w1 veya w2) tuşlarına basın. Burada ağırlık, örnek ağırlıklar, tek bir örneğin önemini artırır göz atabilirsiniz. Örnek ağırlığın 10 olması, modelin örneği şu şekilde ele aldığı anlamına gelir: diğer bir araştırma modelinden on kat daha önemlidir (hesap kaybında) ağırlık 1.
Ağırlık, örnekleme için kullandığınız faktöre eşit olmalıdır:
\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]
Aşağı örneklemeden sonra örnek ağırlık eklemek garip görünebilir. Sonuç olarak, sağlamak için neden bu modeli çoğunluk sınıfında mı? Çoğunlukla aynı özelliklere sahip olan sınıfa ağırlık vermek, tahmin yanlılığı. Yani, aşağı örneklemeden sonra yukarı ağırlıklandırma, ortalama ve veri kümenizin etiketlerinin ortalamasını kullanabilirsiniz.
Oranları yeniden dengeleme
Veri kümenizi yeniden dengelemek için ne kadar aşağı örnekleme yapmanız ve ne kadar ağırlık artırmanız gerekir? Cevabı belirlemek için yeniden dengeleme oranını denemelisiniz. tıpkı diğer kişilerle de yapacağınız gibi hyperparameters. Bununla birlikte, yanıt aşağıdaki faktörlere bağlıdır:
- Grup boyutu
- Dengesizlik oranı
- Eğitim veri kümesindeki örnek sayısı
İdeal olarak her grup birden fazla azınlık sınıfı örneği içermelidir. Yeterli sayıda azınlık sınıfı içermeyen gruplar çok kötü bir şekilde eğitilecektir. Grup boyutu, dengesizlik oranından birkaç kat büyük olmalıdır. Örneğin dengesizlik oranı 100:1 ise grup boyutu en az 500 olmalıdır.
Alıştırma: Öğrendiklerinizi sınayın
Aşağıdaki durumu göz önünde bulundurun:
- Grup boyutu 128'dir.
- Dengesizlik oranı 100:1'dir.
- Eğitim kümesi bir milyar örnek içerir.