Veri kümeleri: Dengesiz veri kümeleri

Değeri şunlardan biri olan kategorik bir etiket içeren bir veri kümesi Pozitif veya Negatif. Dengeli bir veri kümesinde, Pozitif sayısı ve Negatif etiketler yaklaşık olarak eşittir. Bununla birlikte, bir etiket daha yaygın diğer etiketten farklıysa veri kümesi dengesiz. Dengesiz bir veri kümesindeki baskın etikete ana sınıf; daha az yaygın olan etiketin adı azınlık sınıfı ile iletişime geçebilirsiniz.

Aşağıdaki tabloda farklı dengesizlik dereceleri:

Azınlık sınıfına ait verilerin yüzdesi Eşitsizlik derecesi
Veri kümesinin% 20-40'ı Hafif
Veri kümesinin% 1-20'si Orta düzey
Veri kümesinin% 1'inden azı Olağanüstü

Örneğin, azınlık grubunun bulunduğu bir virüs tespit veri kümesi büyüklük sınıfı% 99,5'ini temsil ederken, veri kümesinin %0,5'ini temsil eder. Bunun gibi son derece dengesiz veri kümeleri tıpta yaygın olarak çoğu denek virüsü taşımaz.

Şekil 5. İki çubuklu çubuk grafik. Bir barda yaklaşık 200
            negatif sınıflar; diğer çubukta 1 pozitif sınıf gösteriliyor.
Şekil 5. Son derece dengesiz veri kümesi.

 

Dengesiz veri kümeleri bazen yeterli azınlık sınıfı içermez örnekler üzerinden öğrenebilirsiniz. Yani, çok az sayıda olumlu etiket olduğunda model neredeyse tamamen ve pozitif etiketler hakkında yeterli bilgi sahibi olamayacağı anlamına gelir. Örneğin, grup boyutu 50 ise birçok grup pozitif etiket içermez.

Çoğunlukla, özellikle hafif düzeyde dengesiz ve olduğu gibi dengesizliğin de sorun olmadığı anlamına gelir. Bu nedenle, ilk olarak eğitiminde orijinal veri kümesi üzerinde çalışıyoruz. Model iyi çalışıyorsa işlem tamamlanmış demektir. Değilse, en azından ideal olmayan model iyi bir Gelecekteki denemeler için referans. Daha sonra, problemlerin üstesinden gelmek için aşağıdaki teknikleri deneyebilirsiniz veri kümelerindeki dengesizlikten kaynaklanır.

Aşağı Örnekleme ve Ağırlıklandırma

Dengesiz bir veri kümesiyle başa çıkmanın bir yolu, veri kümesinin boyutunu küçültmek ve çoğunluk sınıfındadır. Bu iki yeni terimin tanımı aşağıda verilmiştir:

  • Aşağı örnekleme (bu bağlamda) çoğunluk sınıfında orantısız olarak düşük bir alt grupta eğitim anlamına gelir örnekler.
  • Yukarı ağırlıklandırma, örnek ağırlığının aşağı örneklenen sınıfa eşittir. aşağı örneklendi.

1. Adım: Çoğunluğun örneğini azaltın. Bir de her 200 negatif etiket için 1 pozitif etikete sahip virüs veri kümesi etiketler. Şu kata kadar aşağı örnekleme işlemi: 20, dengeyi 1 pozitif - 10 negatif sayıya (%10) yükseltir. Her ne kadar sonuçta elde edilen eğitim kümesi hâlâ kısmen dengesiz, pozitifler ile negatifler arasındakiler orijinalden çok daha iyidir, son derece dengesiz oranı (%0,5).

Şekil 6. İki çubuklu çubuk grafik. Bir çubukta 20 negatif sonuç gösteriliyor
            sınıflar; diğer çubukta 1 pozitif sınıf gösteriliyor.
Şekil 6. Örnekleme azaltma.

 

2. Adım: Azaltılmış sınıfa ağırlık verin: Örnek ekleyin alt örneklenen sınıfa ekler. Aşağı örneklemeden 20 kat sonra, örnek ağırlık 20 olmalıdır. (Evet, bu kulağa mantıksız gelebilir, ancak daha sonra daha sonra açıklayacağım.)

Şekil 7. Aşağı örnekleme ve yukarı ağırlıklandırmayı gösteren iki adımlı bir diyagram.
            1. Adım: Aşağı örnekleme, çoğu hesaptan rastgele örnekleri ayıklar
            sınıfını kullanır. 2. Adım: Yukarı ağırlıklandırma, aşağı örneklenen öğelere ağırlık ekler
            örnekler.
Şekil 7. Ağırlık artırma.

 

Ağırlık terimi, model parametrelerini (ör. w1 veya w2) tuşlarına basın. Burada ağırlık, örnek ağırlıklar, tek bir örneğin önemini artırır göz atabilirsiniz. Örnek ağırlığın 10 olması, modelin örneği şu şekilde ele aldığı anlamına gelir: diğer bir araştırma modelinden on kat daha önemlidir (hesap kaybında) ağırlık 1.

Ağırlık, örnekleme için kullandığınız faktöre eşit olmalıdır:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

Aşağı örneklemeden sonra örnek ağırlık eklemek garip görünebilir. Sonuç olarak, sağlamak için neden bu modeli çoğunluk sınıfında mı? Çoğunlukla aynı özelliklere sahip olan sınıfa ağırlık vermek, tahmin yanlılığı. Yani, aşağı örneklemeden sonra yukarı ağırlıklandırma, ortalama ve veri kümenizin etiketlerinin ortalamasını kullanabilirsiniz.

Oranları yeniden dengeleme

Veri kümenizi yeniden dengelemek için ne kadar aşağı örnekleme yapmanız ve ne kadar ağırlık artırmanız gerekir? Cevabı belirlemek için yeniden dengeleme oranını denemelisiniz. tıpkı diğer kişilerle de yapacağınız gibi hyperparameters. Bununla birlikte, yanıt aşağıdaki faktörlere bağlıdır:

  • Grup boyutu
  • Dengesizlik oranı
  • Eğitim veri kümesindeki örnek sayısı

İdeal olarak her grup birden fazla azınlık sınıfı örneği içermelidir. Yeterli sayıda azınlık sınıfı içermeyen gruplar çok kötü bir şekilde eğitilecektir. Grup boyutu, dengesizlik oranından birkaç kat büyük olmalıdır. Örneğin dengesizlik oranı 100:1 ise grup boyutu en az 500 olmalıdır.

Alıştırma: Öğrendiklerinizi sınayın

Aşağıdaki durumu göz önünde bulundurun:

  • Grup boyutu 128'dir.
  • Dengesizlik oranı 100:1'dir.
  • Eğitim kümesi bir milyar örnek içerir.
Aşağıdaki ifadelerden hangisi doğrudur?
Grup boyutunun 1.024'e yükseltilmesi,dönüşüm sayısının modeli.
1.024 adet grup boyutuyla her grubun ortalaması yaklaşık 10 tane olur. eğitim için yeterli olacaktır. Aşağı örnekleme olmadan, eğitim kümesi bir 1 milyar örnektir.
Grup boyutunu korurken 20:1'e küçültme (ve ağırlıklandırma) 128'de yayınlamak ise üretilen modeli iyileştirir.
Her grup yaklaşık 9 azınlık sınıfı örneğinin ortalamasını alacaktır. yeterli olacaktır. Düşük örnekleme, potansiyel müşterileri eğitimdeki örnek sayısı bir milyardan 40 milyon.
Şu anki durum normal.
Çoğu grup, kullanışlı bir kullanıcı grubu eğitmek için yeterli sayıda azınlık sınıfı içermez. modeli.