Sprawdź swoją wiedzę

Pytania poniżej pomogą Ci utrwalić wiedzę na temat podstawowych pojęć związanych z ML.

Prognozy

Nadzorowane modele systemów uczących się są trenowane za pomocą zbiorów danych z oznaczonymi etykietami przykładami. Model uczy się przewidywać etykietę na podstawie cech. Nie wszystkie cechy w zbiorze danych mają jednak moc predykcyjną. W niektórych przypadkach tylko kilka funkcji działa jako predyktory etykiety. W danych poniżej użyj kolumny price jako etykiety, a pozostałych kolumn jako cech.

Oznaczony przykład atrybutów samochodu

Które 3 cechy są Twoim zdaniem najlepszymi czynnikami prognostycznymi ceny samochodu?
Make_model, year, miles.
Marka/model, rok i przebieg samochodu to prawdopodobnie najsilniejsze czynniki prognozujące jego cenę.
Color, height, make_model.
Wysokość i kolor samochodu nie są dobrymi czynnikami prognostycznymi ceny.
Miles, gearbox, make_model.
Skrzynia biegów nie jest głównym czynnikiem determinującym cenę.
Tire_size, wheel_base, year.
Rozmiar opon i rozstaw osi nie są dobrymi czynnikami pozwalającymi przewidzieć cenę samochodu.

uczenie nadzorowane i nienadzorowane,

W zależności od problemu użyjesz podejścia nadzorowanego lub nienadzorowanego. Jeśli na przykład z góry znasz wartość lub kategorię, którą chcesz przewidzieć, użyjesz uczenia nadzorowanego. Jeśli jednak chcesz się dowiedzieć, czy Twój zbiór danych zawiera podziały lub grupy powiązanych przykładów, użyjesz uczenia nienadzorowanego.

Załóżmy, że masz zbiór danych o użytkownikach witryny z zakupami online, który zawiera te kolumny:

Obraz wiersza z atrybutami klienta.

Jeśli chcesz poznać typy użytkowników, którzy odwiedzają witrynę, czy użyjesz uczenia nadzorowanego czy nienadzorowanego?
uczenie nienadzorowane;
Chcemy, aby model grupował powiązanych klientów, dlatego użyjemy uczenia nienadzorowanego. Po pogrupowaniu użytkowników przez model tworzymy własne nazwy dla każdego z tych klastrów, np. „poszukujący zniżek”, „łowcy okazji”, „surferzy”, „lojaliści” i „wędrowcy”.
uczenie nadzorowane, ponieważ próbuję przewidzieć, do której klasy należy użytkownik;
W uczeniu nadzorowanym zbiór danych musi zawierać etykietę, którą chcesz prognozować. W zbiorze danych nie ma etykiety odnoszącej się do kategorii użytkowników.

Załóżmy, że masz zbiór danych o zużyciu energii w domach z tymi kolumnami:

Obraz przedstawiający rząd atrybutów domu.

Jakiego typu uczenie maszynowe zastosujesz, aby przewidzieć zużycie energii elektrycznej w kilowatogodzinach na rok w nowo wybudowanym domu?
uczenie nadzorowane,
Uczenie nadzorowane polega na trenowaniu modelu na oznaczonych przykładach. W tym zbiorze danych etykietą byłoby „zużycie energii elektrycznej w kilowattogodzinach na rok”, ponieważ jest to wartość, którą model ma przewidywać. Cechy te to: "square footage" (powierzchnia), "location" (lokalizacja) i "year built" (rok budowy).
uczenie nienadzorowane;
Uczenie nienadzorowane korzysta z przykładów bez etykiet. W tym przykładzie etykietą byłoby „zużycie energii elektrycznej w kilowattogodzinach na rok”, ponieważ jest to wartość, którą model ma prognozować.

Załóżmy, że masz zbiór danych o locie z tymi kolumnami:

Obraz wiersza danych lotu.

Jeśli chcesz przewidzieć koszt biletu na przejazd autobusem, użyjesz regresji czy klasyfikacji?
Regresja
Wyjście modelu regresji to wartość liczbowa.
Klasyfikacja
Wyjście modelu klasyfikacji to wartość dyskretna, zwykle słowo. W tym przypadku koszt biletu na przejazd autobusem jest wyrażony liczbowo.
Czy na podstawie zbioru danych możesz wytrenować model klasyfikacji, który zaklasyfikuje koszt biletu na przejazd autokarem jako „wysoki”, „średni” lub „niski”?
Tak, ale najpierw musimy przekonwertować wartości liczbowe w kolumnie coach_ticket_cost na wartości kategorialne.
Na podstawie zbioru danych można utworzyć model klasyfikacji. Możesz wykonać te czynności:
  1. Znajdź średni koszt biletu z lotniska wylotu do lotniska docelowego.
  2. Określ progi, które będą oznaczać „wysoki”, „średni” i „niski”.
  3. Porównaj przewidywany koszt z progresami i wypisz kategorię, do której należy dana wartość.
Nie. Nie można utworzyć modelu klasyfikacji. Wartości coach_ticket_cost są liczbowe, a nie kategorialne.
Przy odrobinie wysiłku możesz utworzyć model klasyfikacji.
Nie. Modele klasyfikacji przewidują tylko 2 kategorie, np. spam lub not_spam. Model musiałby przewidywać 3 kategorie.
Modele klasyfikacji mogą przewidywać wiele kategorii. Nazywamy je modelami klasyfikacji wieloklasowej.

Trenowanie i ocenianie

Po wytrenowaniu modelu oceniamy go, korzystając ze zbioru danych z oznaczonymi przykładami, i porównujemy przewidywaną wartość modelu z rzeczywistą wartością etykiety.

Wybierz 2 najlepsze odpowiedzi na pytanie.

Jeśli prognozy modelu są bardzo niedokładne, co możesz zrobić, aby je ulepszyć?
Ponownie przetrenować model, ale używać tylko tych cech, które Twoim zdaniem mają największą moc predykcyjną dla etykiety.
Ponownie wytrenowanie modelu z mniejszą liczbą cech, ale o większej zdolności przewidywania, może prowadzić do uzyskania modelu, który będzie lepiej przewidywać.
Nie możesz poprawić modelu, którego prognozy są bardzo niedokładne.
Model, który generuje nieprawidłowe prognozy, można poprawić. Większość modeli wymaga kilku rund trenowania, zanim zaczną generować przydatne prognozy.
ponownie przetrenować model, używając większego i bardziej zróżnicowanego zbioru danych;
Modele trenowane na zbiorach danych z większą liczbą przykładów i szerszym zakresem wartości mogą dawać lepsze prognozy, ponieważ mają one lepsze ogólne rozwiązanie dotyczące relacji między cechami a etykietą.
Wypróbuj inne podejście do szkolenia. Jeśli na przykład używasz podejścia nadzorowanego, spróbuj podejścia nienadzorowanego.
Inne podejście do treningu nie dałoby lepszych prognoz.

Teraz możesz przejść do następnego etapu nauki o ML:

  • Przewodnik: Ludzie + AI. Jeśli szukasz zestawu metod, sprawdzonych metod i przykładów dotyczących korzystania z systemów uczących się, które zostały opracowane przez pracowników Google, ekspertów branżowych i badaczy akademickich.

  • Formułowanie problemu. Jeśli szukasz sprawdzonego podejścia do tworzenia modeli ML i unikania typowych błędów.

  • Szybkie szkolenie z uczenia maszynowego Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym w praktyce.