Kategorik veri: Yaygın sorunlar

Sayısal veriler genellikle bilimsel aletler veya otomatik ölçümler tarafından kaydedilir. Öte yandan kategorik veriler genellikle gerçek kişiler veya makine öğrenimi (ML) modelleri tarafından sınıflandırılır. Kategoriler ve etiketler hakkında karar verenler ve bu kararları nasıl verdikleri, verilerin güvenilirliğini ve kullanışlılığını etkiler.

Gerçek kişi olan derecelendirenler

İnsanlar tarafından manuel olarak etiketlenen verilere genellikle altın etiketler denir ve nispeten daha iyi veri kalitesi nedeniyle eğitim modelleri için makine etiketli verilerden daha fazla istenmektedir.

Bu durum, insan tarafından etiketlenen tüm veri kümelerinin yüksek kaliteli olduğu anlamına gelmez. Veri toplama aşamasında veya veri temizleme ve işleme sırasında insan hataları, önyargı ve kötü niyet ortaya çıkabilir. Eğitimden önce bunları kontrol edin.

İki insan aynı örneği farklı şekilde etiketleyebilir. Gerçek kişilerden oluşan değerlendirme ekibinin kararlarının arasındaki farka değerlendiriciler arası anlaşma denir. Her örnek için birden fazla değerlendirici kullanarak ve değerlendirenler arası anlaşmayı ölçerek değerlendiricilerin görüşlerindeki sapmayı anlayabilirsiniz.

Makine düzeyinde değerlendiriciler

Kategorilerin bir veya daha fazla sınıflandırma modeli tarafından otomatik olarak belirlendiği makine etiketli verilere genellikle gümüş etiketler denir. Makine tarafından etiketlenen verilerin kalitesi büyük ölçüde değişiklik gösterebilir. Yalnızca doğruluk ve önyargılar açısından değil, sağduyu, gerçeklik ve amacın ihlal edilip edilmediğini de kontrol edin. Örneğin, bir bilgisayar görüşü modeli chihuahua'nın bir fotoğrafını kek olarak veya bir kekin fotoğrafını chihuahua olarak yanlış etiketlerse bu etiketli veriler üzerinde eğitilen modeller daha düşük kalitede olur.

Benzer şekilde, nötr değer 0,0 iken nötr kelimeleri -0,25 olarak puanlayan bir duyarlı analiz aracı, tüm kelimeleri aslında verilerde bulunmayan ek bir negatif önyargıyla puanlıyor olabilir. Aşırı hassas bir toksisite dedektörü, birçok nötr ifadeyi yanlışlıkla toksik olarak işaretleyebilir. Verilerinizde eğitimden önce makine etiketlerinin ve ek açıklamalarının kalitesi ve önyargıları hakkında fikir edinmeye çalışın.

Yüksek boyutlu

Kategorik veriler, genellikle yüksek boyutlu özellik vektörleri, yani çok sayıda elemana sahip özellik vektörleri üretme eğilimindedir. Boyutların yüksek olması eğitim maliyetlerini artırır ve eğitimi daha da zorlaştırır. Bu nedenlerden dolayı makine öğrenimi uzmanları genellikle eğitimden önce boyut sayısını azaltmanın yollarını arar.

Doğal dil verileri için boyut azaltmanın ana yöntemi, özellik vektörlerini yerleştirme vektörlerine dönüştürmektir. Bu konu, bu kursun ilerleyen bölümlerindeki Embedding modülü bölümünde ele alınmaktadır.