Sayısal veriler genellikle bilimsel araçlar veya otomatik ölçümlerden yararlanıyoruz. Öte yandan kategorik veriler İnsanlar veya makine öğrenimi (ML) modelleri tarafından kategorize edilenler. Kim karar verir? ve bu kararları nasıl verdiklerini etkiler. güvenilir ve kullanışlı olmasını sağlar.
Gerçek kişi olan değerlendirmeciler
İnsanlar tarafından manuel olarak etiketlenen verilere genellikle altın etiketler denir. eğitim modellerine yönelik makine etiketli verilerden daha fazla daha iyi veri kalitesidir.
Bu, insan tarafından etiketlenen herhangi bir veri kümesinin yüksek kalitedir. Bu aşamada insan hataları, önyargı ve kötü niyet ortaya çıkabilir veri toplama veya veri temizleme ve işleme sırasında olduğu gibi. Kontrol et göz atmayı unutmayın.
Herhangi iki kişi aynı örneği farklı şekilde etiketleyebilir. Fark gerçek kişilerden oluşan değerlendirme arasında karar alma sürecine değerlendirici sözleşmesi imzalamanız gerekir. Derecelendirme yapan kullanıcıların farklılıklarıyla ilgili fikir sahibi olabilirsiniz. ifadelerini ve değerlendiriciler arası sözleşmenin ölçülmesi önemlidir.
Makine değerlendiricileri
Kategorilerin otomatik olarak bir kullanıcı veya daha fazla sınıflandırma modeli vardır ve bunlara genellikle gümüş etiketler adı verilir. Makine etiketli verilerin kalitesi büyük ölçüde farklılık gösterebilir. Yalnızca doğruluk kontrolü için değil, aynı zamanda sağduyu, gerçeklik ve niyetin ihlali nedeniyle de çalışır. Örneğin, Örneğin, bir bilgisayar görüşü modeli bir kişinin fotoğrafını yanlış etiketlerse çörek olarak chihuahua, veya chihuahua olarak bir kek fotoğrafına yerleştirilebilir. Bu etiketli verilerle eğitilen daha düşük kalitede olabilir.
Benzer şekilde, 0,0 olduğunda nötr kelimeleri -0,25 olarak puanlayan bir yaklaşım analiz edici nötr değer ise, tüm kelimeleri ek bir negatif eğilimle puanlıyor olabilir verilerde bulunmayan verilerdir. Aşırı hassas toksiklik dedektörü birçok tarafsız ifadeyi yanlışlıkla toksik olarak işaretleyebilir. Ne tür bir iş aradığınızı kalite ve ön yargılar hakkında daha fazla bilgi gerçekten harika bir iş.
Yüksek boyutlu boyut
Kategorik veriler, yüksek boyutlu özellik vektörleri üretme eğilimindedir; yani özellik vektörleri olarak düşünebilirsiniz. Boyutların yüksek olması eğitim maliyetlerini artırır ve eğitimi geliştirir zor olabilir. Bu nedenlerden dolayı, makine öğrenimi uzmanları genellikle belirlemektir.
Doğal dildeki verilerde boyutluluğu azaltmanın ana yöntemi özellik vektörlerini yerleştirilmiş vektörlere dönüştürmek için kullanılır. Bu konu Yerleştirmeler modülü daha sonra ele alacağız.