Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Zbiory danych: przekształcanie danych

Modele uczenia maszynowego mogą się trenować tylko na wartościach zmiennoprzecinkowych. Jednak wiele cech zbioru danych nie ma domyślnie wartości zmiennoprzecinkowe. Dlatego ważną częścią uczenia maszynowego jest przekształcanie cech niebędących liczbami zmiennoprzecinkowymi w reprezentacje liczb zmiennoprzecinkowych.

Załóżmy na przykład, że street names to funkcja. Większość nazw ulic to ciągi znaków, np. „Broadway” lub „Vilakazi”. Model nie może się uczyć na podstawie wartości „Broadway”, więc musisz przekształcić „Broadway” na liczbę zmiennoprzecinkową. Z modułu Dane jakościowe dowiesz się, jak to zrobić.

Dodatkowo należy przekształcić większość funkcji zmiennoprzecinkowych. Ten proces przekształcania, zwany normalizacją, polega na konwertowaniu liczb zmiennoprzecinkowych do ograniczonego zakresu, co poprawia trenowanie modelu. W module Dane liczbowe znajdziesz instrukcje, jak to zrobić.

próbkowanie danych, gdy jest ich za dużo;

Niektóre organizacje mają szczęście i posiadają obfitość danych. Jeśli zbiór danych zawiera zbyt wiele przykładów, musisz wybrać podzbiór przykładów do trenowania. Jeśli to możliwe, wybierz podzbiór, który jest najbardziej odpowiedni do prognoz modelu.

Przykłady filtrów zawierających informacje umożliwiające identyfikację

Dobre zbiory danych nie zawierają przykładów zawierających informacje umożliwiające identyfikację. Te zasady pomagają chronić prywatność, ale mogą wpływać na model.

Więcej informacji na te tematy znajdziesz w module Bezpieczeństwo i prywatność, który znajdziesz w dalszej części kursu.

Wstecz

Dzielenie pierwotnego zbioru danych (10 min)

Dalej

Generalizacja (5 min)

Zbiory danych: przekształcanie danych Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

próbkowanie danych, gdy jest ich za dużo;

Przykłady filtrów zawierających informacje umożliwiające identyfikację

Zbiory danych: przekształcanie danych