Zbiory danych: przekształcanie danych

Modele systemów uczących się mogą trenować tylko na wartościach zmiennoprzecinkowych. Jednak wiele obiektów zbiorów danych nie jest wartością zmiennoprzecinkową. Ważną częścią systemów uczących się jest przekształcanie funkcji niezmiennoprzecinkowych na reprezentacje zmiennoprzecinkowe.

Załóżmy na przykład, że street names jest funkcją. Większość nazw ulic są ciągami tekstowymi, np. „Broadway” czy „Vilakazi”. Twój model nie może trenować na „Broadwayu”, więc musisz przekształcić „Broadway” na liczbę zmiennoprzecinkową. Dane kategorialne jak to zrobić.

Dodatkowo musisz przekształcać większość obiektów zmiennoprzecinkowych. Ten proces przekształcania, nazywany normalization, konwertuje liczb zmiennoprzecinkowych do ograniczonego zakresu, co usprawnia trenowanie modelu. Wartość danych liczbowych jak to zrobić.

Przykładowe dane, gdy jest ich za dużo

Niektóre organizacje są obdarzone ogromną ilością danych. Jeśli zbiór danych zawiera zbyt wiele przykładów, musisz wybrać podzbiór przykładów do trenowania. Jeśli to możliwe, wybierz podzbiór, który jest najbardziej istotne z prognoz modelu.

Filtruj przykłady zawierające informacje umożliwiające identyfikację osób

Dobre zbiory danych pomijają przykłady zawierające informacje umożliwiające identyfikację osób (umożliwiające identyfikację). Ta zasada pomaga chronić prywatność, ale może mieć wpływ na model.

Więcej informacji na te tematy znajdziesz w module Bezpieczeństwo i prywatność w dalszej części kursu.