W sierpniu 2024 r. udostępnimy nową, ulepszoną wersję kursu Crash Course poświęconego systemom uczącym się. Śledź ten temat

Ta strona została przetłumaczona przez Cloud Translation API.

Reprezentacja

Model systemów uczących się nie jest w stanie bezpośrednio dostrzec, usłyszeć ani wyczuć przykładów wejściowych. Zamiast tego musisz utworzyć reprezentację danych, aby zapewnić modelowi przydatny punkt obserwacyjny na temat ich kluczowych cech. Oznacza to, że aby wytrenować model, musisz wybrać zbiór cech, które najlepiej reprezentują dane.

Reprezentacja

Od nieprzetworzonych danych do funkcji

Chodzi o przypisanie każdej części wektora po lewej stronie do co najmniej jednego pola wektora cech po prawej stronie.

Nieprzetworzone dane są mapowane na wektor cech w procesie nazywanym inżynierią cech.

Od nieprzetworzonych danych do funkcji

Przykład funkcji, którą można skopiować bezpośrednio z nieprzetworzonych danych

Od nieprzetworzonych danych do funkcji

Przykład obiektu w postaci ciągu znaków (nazwy ulicy), którego nie można skopiować bezpośrednio z nieprzetworzonych danych

Od nieprzetworzonych danych do funkcji

Słownik mapuje nazwę każdej ulicy na liczbę całkowitą w ciągu {0, ...,V-1}
Przedstaw teraz wektor jednogorący powyżej jako <i>

Właściwości cechy dobrej

Wartości cech powinny pojawiać się z wartością inną niż zero więcej niż kilka razy w zbiorze danych.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Właściwości cechy dobrej

Znaczenie cech powinny być zrozumiałe i jednoznaczne.

user_age:23

user_age:123456789

Właściwości cechy dobrej

Cechy nie powinny przyjmować „magicznych” wartości

(użyj dodatkowej funkcji logicznej, takiej jak watch_time_is_defined!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Właściwości cechy dobrej

Definicja cech nie powinna się z czasem zmieniać.

(Uważaj na inne systemy uczące się).

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Właściwości cechy dobrej

Rozkład nie może zawierać skrajnych odchyleń

Najlepiej, gdyby wszystkie cechy zostały przekształcone w podobny zakres, np. (-1, 1) lub (0, 5).

Rozkład z wartościami odstającymi i rozkładem z limitem

Sztuczna inteligencja

Wykres przedstawiający rozkład z pasującą krzywą na podstawie lokalizacji

Sztuczna inteligencja

Utwórz kilka kontenerów wartości logicznych, z których każde jest mapowane na nową unikalną cechę
Umożliwia dopasowanie modelu do innej wartości dla każdej przedziału

Dobre nawyki

POZNAJ SWOJE DANE

Wizualizacja: narysuj histogramy w kolejności od najbardziej do najmniejszej.
Debugowanie: zduplikowane przykłady? Brakuje wartości? Wyniki odstające? Dane są zgodne z danymi w panelach? Czy dane do trenowania i walidacji są podobne?
Monitorowanie: kwantyle cech, liczba przykładów w czasie?

Wstecz

Ćwiczenie z programowania

Dalej

Inżynieria cech