Dane kategorialne zawierają konkretny zestaw możliwych wartości. Na przykład:
- Różne gatunki zwierząt w parku narodowym
- nazwy ulic w konkretnym mieście;
- to, czy e-mail jest spamem;
- Kolory pomalowane na fasadzie domu
- Liczby binarne, opisane w dokumencie Praca z danymi liczbowymi Moduł „Dane”.
Liczby mogą też być danymi kategorialnymi
Prawdziwe dane liczbowe można mnożyć przez znaczącą liczbę. Na przykład rozważ zastosowanie który prognozuje wartość domu na podstawie jego powierzchni. Przydatny model oceny cen domów zwykle opiera się setki funkcji. Przy założeniu, że wszystkie inne są równe, dom o 200 kwadratach metry powinny być mniej więcej dwa razy cenniejsze niż taki sam dom o powierzchni 100 kwadratów m
Cechy, które zawierają wartości całkowite, często należy przedstawić jako w postaci danych kategorialnych, a nie liczbowych. Weźmy na przykład adres pocztowy funkcję kodu, w której wartości są liczbami całkowitymi. Jeśli reprezentujesz tę firmę w postaci liczbowej, a nie kategorialnej, modelujesz, znaleźć zależność liczbową między różnymi kodami pocztowymi. Chodzi o to, aby model traktowanie kodu pocztowego 20004 jako dwa razy (lub połowę) większego sygnału, co kod pocztowy 10002. Prezentowanie kodów pocztowych jako danych kategorialnych pozwala modelowi wagi poszczególnych kodów pocztowych.
Kodowanie
Kodowanie oznacza konwertowanie danych kategorialnych lub innych na wektory liczbowe.
na których model może trenować. Ta konwersja jest niezbędna, ponieważ modele mogą
trenuj tylko na wartościach zmiennoprzecinkowych; które nie mogą trenować na ciągach znaków,
"dog"
lub "maple"
. W tym module objaśniamy różne
metod kodowania danych kategorialnych.