Podane niżej pytania pomogą Ci utrwalić podstawowe pojęcia związane z systemami uczącymi się.
Moc przewidująca
Modele nadzorowanych systemów uczących się są trenowane przy użyciu zbiorów danych z przykładami oznaczonymi etykietami. Model uczy się prognozować etykietę na podstawie cech. Jednak nie każda cecha zbioru danych
ma moc prognozowania. W niektórych przypadkach tylko kilka cech
działa jako predyktory etykiety. W poniższym zbiorze danych użyj ceny jako etykiety, a pozostałych kolumn – funkcji.
Które 3 cechy są prawdopodobnie najistotniejszymi czynnikami wpływającymi na cenę samochodu?
marka_modelu, rok, mile.
Marka/model, rok i mil jazdy samochodu prawdopodobnie należą do najtrudniejszych prognoz dotyczących jego ceny.
Kolor, wysokość, marka_modelu.
Wysokość i kolor samochodu nie są istotnym elementem ceny samochodu.
Mile, skrzynia biegów, marka_modelu.
Skrzynia biegów nie jest główną prognostyką ceny.
Rozmiar_opony, rozstaw_kół, rok.
Rozmiar opon i podstawa kół nie są dobrym prognozą ceny samochodu.
Uczenie nadzorowane i nienadzorowane
W zależności od problemu zastosujesz metodę nadzorowaną lub nienadzorowaną.
Jeśli na przykład znasz już wartość lub kategorię, którą chcesz prognozować,
skorzystasz z uczenia nadzorowanego. Jeśli jednak chcesz sprawdzić, czy Twój zbiór danych zawiera jakiekolwiek podziały na segmenty lub grupy powiązanych przykładów, skorzystaj z uczenia nienadzorowanego.
Załóżmy, że masz zbiór danych użytkowników witryny zakupowej online, który zawiera następujące kolumny:
Chcesz poznać typy użytkowników odwiedzających Twoją stronę. Czy skorzystasz z uczenia nadzorowanego czy nienadzorowanego?
Uczenie się nienadzorowane.
Chcemy, aby model grupował grupy powiązanych klientów, więc wykorzystujemy uczenie nienadzorowane. Gdy model połączył użytkowników, utworzyliśmy dla każdego z nich własne nazwy, np. „poszukiwacze rabatów”, „łowcy okazji”, „surferzy”, „lojalni” i „wielbiciele”.
Nadzorowane uczenie się, ponieważ próbuję przewidzieć, do której klasy należy użytkownik.
W przypadku uczenia nadzorowanego zbiór danych musi zawierać etykietę, którą próbujesz prognozować. W zbiorze danych nie ma etykiety odwołującej się do kategorii użytkownika.
Załóżmy, że masz zbiór danych zużycia energii dla domów zawierający te kolumny:
Jakiego rodzaju systemu uczącego się użyjesz do prognozowania liczby kilowatogodzin zużywanych rocznie w przypadku nowo zbudowanego domu?
Uczenie się nadzorowane.
Nadzorowane uczenie się na przykładach oznaczonych etykietami. W tym zbiorze danych „kilowatogodziny zużyte rocznie” będzie etykietą, ponieważ jest to wartość, którą model ma prognozować. Wybrane obiekty to: „obszar kwadratowy”, „lokalizacja” i „rok budowy”.
Uczenie się nienadzorowane.
W uczeniu nienadzorowanym korzysta się z przykładów bez etykiet. W tym przykładzie etykieta „zużyte kilowatogodziny rocznie” będzie wartością, ponieważ jest to wartość, którą model ma prognozować.
Załóżmy, że masz zbiór danych lotów zawierający te kolumny:
Czy możesz użyć regresji czy klasyfikacji, aby przewidzieć koszt biletu autokarowego?
Regresja
Dane wyjściowe modelu regresji mają wartość liczbową.
Klasyfikacja
Dane wyjściowe modelu klasyfikacji to wartość dyskretna, zwykle słowo. W tym przypadku koszt biletu autokarowego jest wartością liczbową.
Czy na podstawie zbioru danych możesz wytrenować model klasyfikacji, aby sklasyfikować koszt biletu autokarowego jako „wysoki”, „średni” lub „niski”?
Tak, ale najpierw musimy przekonwertować wartości liczbowe w kolumnie coach_ticket_cost
na wartości kategorialne.
Model klasyfikacji można utworzyć na podstawie zbioru danych.
Wykonaj jedną z tych czynności:
- Znajdź średni koszt biletu z lotniska wylotu na lotnisko docelowe.
- Ustal progi, które oznaczają „wysokie”, „średnie” i „niskie”.
- Porównaj przewidywany koszt z progami i podaj kategorię, do której należy wartość.
Nie. Utworzenie modelu klasyfikacji nie jest możliwe. Wartości coach_ticket_cost
są liczbowe, a nie kategorialne.
Wymagają nieco pracy, by utworzyć model klasyfikacji.
Nie. Modele klasyfikacji prognozują tylko 2 kategorie, np. spam
lub not_spam
. Model ten musiałby prognozować 3 kategorie.
Modele klasyfikacji mogą prognozować wiele kategorii. Są one nazywane modelami klasyfikacji wieloklasowej.
Szkolenia i oceny
Po wytrenowaniu modelu oceniamy go za pomocą zbioru danych z przykładami z etykietami i porównujemy przewidywaną wartość modelu z rzeczywistą wartością etykiety.
Wybierz 2 najlepsze odpowiedzi na pytanie.
Jeśli prognozy modelu są odległe, co możesz zrobić, aby je poprawić?
Wytrenuj model ponownie, ale używaj tylko tych funkcji, które Twoim zdaniem mają największą moc przewidywania w przypadku etykiety.
Ponowne wytrenowanie modelu z mniejszą liczbą cech, ale o większej mocy przewidywań, może pomóc w uzyskaniu modelu zapewniającego lepsze prognozy.
Nie można poprawić modelu, którego prognozy są odległe.
Można naprawić model, który ma wyłączone prognozy. Większość modeli wymaga wielu rund trenowania, aż wygenerują przydatne prognozy.
Wytrenuj model ponownie przy użyciu większego i bardziej zróżnicowanego zbioru danych.
Modele wytrenowane na zbiorach danych z większą liczbą przykładów i szerszym zakresem wartości mogą generować lepsze prognozy, ponieważ model ma lepsze uogólnione rozwiązanie dotyczące relacji między cechami a etykietą.
Wypróbuj inne podejście do trenowania. Na przykład jeśli używasz metody nadzorowanej, wypróbuj metodę nienadzorowaną.
Inne podejście do trenowania nie zapewni lepszych prognoz.
Możesz teraz wykonać kolejny krok w pracy z systemami uczącymi się:
People + AI Guidebook (Osoby + AI). Jeśli szukasz zestawu metod, sprawdzonych metod i przykładów przedstawionych przez pracowników Google, ekspertów branżowych i badania akademickie dotyczące używania systemów uczących się,
Problem z kadrowaniem. Jeśli szukasz przetestowanego podejścia do tworzenia modeli ML i unikania typowych błędów,
Szybkie szkolenie z systemów uczących się Jeśli chcesz zdobyć szczegółową wiedzę na temat systemów uczących się w praktyce,