Dane kategorialne: typowe problemy

Dane liczbowe są często rejestrowane przy użyciu przyrządów naukowych lub zautomatyzowanych pomiarów. Dane kategorialne są natomiast często które są podzielone według ludzi lub modeli systemów uczących się. Kto decyduje kategorii i etykiet oraz sposób, w jaki podejmują te decyzje, wpływa dotyczących ich wiarygodności i przydatności.

Oceniający

Dane ręcznie oznaczone przez ludzi są często nazywane złotymi etykietami. i są uważane za bardziej pożądane niż dane oznaczone etykietami maszynowymi w modelach treningowych, dzięki stosunkowo lepszej jakości danych.

Nie musi to oznaczać, że dowolny zbiór danych oznaczonych przez człowieka ma wysoki poziom jakości. W pewnym momencie można wykazać błędy ludzkie, uprzedzenia i złośliwość zbierania danych lub podczas oczyszczania i przetwarzania danych. Poszukaj ich przed rozpoczęciem trenowania.

Każdy człowiek może inaczej oznaczyć ten sam przykład. Różnica między weryfikatorów decyzji to wskaźnik interakcji umowy. Pozwala to ocenić różnice w liczbie recenzentów opinii za pomocą funkcji wielu oceniających na przykład i mierzyć umowy między uczestnikami programu.

Oceniający maszyny

dane oznaczone etykietami komputerowymi, gdzie kategorie są określane automatycznie na podstawie jednego lub więcej modeli klasyfikacji określa się jako srebrne etykiety. Jakość danych oznaczonych etykietami komputerowymi może się znacznie różnić. Sprawdź nie tylko dokładność i uprzedzeń, ale także za naruszenie zdrowego rozsądku, rzeczywistości i intencji. Dla: na przykład jeśli model komputerowy błędnie oznacza zdjęcie chihuahua jak muffinka, lub zdjęcia muffinki chihuahua, modele wytrenowane na tych danych mieć gorszą jakość.

Podobnie analizator nastawienia ocenia słowa neutralne jako -0,25, gdzie 0,0 to wartości neutralnej, może być punktowana ocena wszystkich słów z dodatkowym odchyleniem negatywnym których nie ma w danych. Czujnik nadczułości toksyczności mogą fałszywie oznaczyć wiele neutralnych stwierdzeń jako toksyczne. Spróbuj dowiedzieć się, jakości i stronniczości etykiet maszyn i adnotacji w danych i trenujemy je w tej dziedzinie.

Duże wymiary

Dane kategorialne zwykle generują wysokowymiarowe wektory cech. czyli wektory cech o dużej liczbie elementów. Duża wymiarowość zwiększa koszty trenowania i sprawia, że trenowanie jest bardziej trudne. Dlatego eksperci ds. systemów uczących się często szukają sposobów na zmniejszenie liczby wymiarów przed trenowaniem.

W przypadku danych w języku naturalnym główną metodą zmniejszania wielowymiarowości jest do konwertowania wektorów cech na wektory dystrybucyjne. Jest to omówione w Moduł reprezentacji właściwościowych w dalszej części modułu. w tym kursie.