Modele uczenia maszynowego mogą się trenować tylko na wartościach zmiennoprzecinkowych. Jednak wiele cech zbioru danych nie ma domyślnie wartości zmiennoprzecinkowe. Dlatego ważną częścią uczenia maszynowego jest przekształcanie cech niebędących liczbami zmiennoprzecinkowymi w reprezentacje liczb zmiennoprzecinkowych.
Załóżmy na przykład, że street names
to funkcja. Większość nazw ulic to ciągi znaków, np. „Broadway” lub „Vilakazi”.
Model nie może się uczyć na podstawie wartości „Broadway”, więc musisz przekształcić „Broadway” na liczbę zmiennoprzecinkową. Z modułu Dane jakościowe dowiesz się, jak to zrobić.
Dodatkowo należy przekształcić większość funkcji zmiennoprzecinkowych. Ten proces przekształcania, zwany normalizacją, polega na konwertowaniu liczb zmiennoprzecinkowych do ograniczonego zakresu, co poprawia trenowanie modelu. W module Dane liczbowe znajdziesz instrukcje, jak to zrobić.
próbkowanie danych, gdy jest ich za dużo;
Niektóre organizacje mają szczęście i posiadają obfitość danych. Jeśli zbiór danych zawiera zbyt wiele przykładów, musisz wybrać podzbiór przykładów do trenowania. Jeśli to możliwe, wybierz podzbiór, który jest najbardziej odpowiedni do prognoz modelu.
Przykłady filtrów zawierających informacje umożliwiające identyfikację
Dobre zbiory danych nie zawierają przykładów zawierających informacje umożliwiające identyfikację. Te zasady pomagają chronić prywatność, ale mogą wpływać na model.
Więcej informacji na te tematy znajdziesz w module Bezpieczeństwo i prywatność, który znajdziesz w dalszej części kursu.