Dane liczbowe są często rejestrowane przez instrumenty naukowe lub automatyczne pomiary. Dane kategorialne są z kolei często dzielone na kategorie przez ludzi lub modele systemów uczących się. Kto decyduje o kategoriach i etykietach oraz jak podejmuje te decyzje, wpływa na wiarygodność i przydatność tych danych.
Weryfikatorzy
Dane oznaczone ręcznie etykietami przez ludzi są często nazywane złotymi etykietami. Ze względu na względnie lepszą jakość danych są one uważane za bardziej pożądane niż dane oznaczone etykietami automatycznie przez ludzi.
Nie oznacza to, że każdy zestaw danych z oznaczonymi etykietami jest wysokiej jakości. Błędy ludzkie, uprzedzenia i złośliwe treści można dostrzec już na etapie zbierania danych lub podczas oczyszczania i przetwarzania danych. Sprawdź je przed szkoleniem.
Dwie osoby mogą etykietować ten sam przykład w inny sposób. Różnica między decyzjami weryfikatorów to porozumienie między weryfikatorami. Aby poznać różnice w opiniach weryfikatora, przeanalizuj przykład, używając wielu weryfikatorów, i mierz zgodność z innymi ocenami.
Weryfikatorzy maszyn
Dane oznaczone przez maszynę, w których kategorie są określane automatycznie przez co najmniej 1 model klasyfikacji, często nazywane są etykietami srebrnymi. Jakość danych z oznacznieniami maszynowymi może się znacznie różnić. Sprawdź nie tylko dokładność i brak stronniczości, ale też, czy film nie narusza zdrowego rozsądku, rzeczywistości i intencji. Jeśli na przykład model komputerowego rozpoznawania obrazów błędnie oznaczy zdjęcie chihuahua jako muffina lub zdjęcie muffina jako chihuahua, modele trenowane na tych danych będą mieć niższą jakość.
Podobnie analizator nastawienia, który przyznaje dla słów neutralnych jako -0,25, gdzie 0,0 to wartość neutralna, może klasyfikować wszystkie słowa z dodatkowym odchyleniem negatywnym, którego w rzeczywistości nie ma w danych. Nadmiernie wrażliwy detektor toksyczności może błędnie oznaczać jako toksyczne wiele neutralnych wypowiedzi. Zanim zaczniesz trenować model na danych, sprawdź, jaka jest jakość i uprzedzenia etykiet i adnotacji maszynowych.
Duże wymiary
Dane kategorialne zwykle generują wektory cech o dużej liczbie wymiarów, czyli wektory cech o dużej liczbie elementów. Duża liczba wymiarów zwiększa koszty treningu i utrudnia jego przeprowadzanie. Z tych powodów eksperci w zakresie uczenia maszynowego często szukają sposobów na zmniejszenie liczby wymiarów przed trenowaniem.
W przypadku danych w języku naturalnym główną metodą zmniejszania wymiarowości jest konwertowanie wektorów cech na wektory dystrybucyjne. Zostało to omówione w module Osadzanie w dalszej części tego kursu.