Pytania poniżej pomogą Ci utrwalić wiedzę na temat podstawowych pojęć związanych z ML.
Prognozy
Nadzorowane modele systemów uczących się są trenowane za pomocą zbiorów danych z oznaczonymi etykietami przykładami. Model uczy się przewidywać etykietę na podstawie cech. Nie wszystkie cechy w zbiorze danych mają jednak moc predykcyjną. W niektórych przypadkach tylko kilka funkcji działa jako predyktory etykiety. W danych poniżej użyj kolumny price jako etykiety, a pozostałych kolumn jako cech.
Które 3 cechy są Twoim zdaniem najlepszymi czynnikami prognostycznymi ceny samochodu?
Tire_size, wheel_base, year.
Rozmiar opon i rozstaw osi nie są dobrymi wskaźnikami ceny samochodu.
Miles, gearbox, make_model.
Skrzynia biegów nie jest głównym czynnikiem determinującym cenę.
Color, height, make_model.
Wysokość i kolor samochodu nie są dobrymi czynnikami prognozowania ceny.
Make_model, year, miles.
Marka/model, rok i przebieg samochodu to prawdopodobnie najsilniejsze czynniki prognozujące jego cenę.
uczenie nadzorowane i nienadzorowane,
W zależności od problemu użyjesz podejścia nadzorowanego lub nienadzorowanego.
Jeśli na przykład z góry znasz wartość lub kategorię, którą chcesz przewidzieć, użyjesz uczenia nadzorowanego. Jeśli jednak chcesz się dowiedzieć, czy Twój zbiór danych zawiera podziały lub grupy powiązanych przykładów, użyjesz uczenia nienadzorowanego.
Załóżmy, że masz zbiór danych o użytkownikach witryny z zakupami online, który zawiera te kolumny:
Jeśli chcesz poznać typy użytkowników, którzy odwiedzają witrynę, czy użyjesz uczenia nadzorowanego czy nienadzorowanego?
uczenie nienadzorowane;
Chcemy, aby model grupował powiązanych klientów, dlatego użyjemy uczenia nienadzorowanego. Po pogrupowaniu użytkowników przez model tworzymy własne nazwy dla każdego z tych klastrów, np. „poszukujący zniżek”, „łowcy okazji”, „surferzy”, „lojalni” i „wędrowcy”.
uczenie nadzorowane, ponieważ próbuję przewidzieć, do której klasy należy użytkownik;
W uczeniu nadzorowanym zbiór danych musi zawierać etykietę, którą chcesz prognozować. W zbiorze danych nie ma etykiety odnoszącej się do kategorii użytkowników.
Załóżmy, że masz zbiór danych o zużyciu energii w domach z tymi kolumnami:
Jakiego typu uczenie maszynowe zastosujesz, aby przewidzieć zużycie energii elektrycznej w kilowatogodzinach na rok w nowo wybudowanym domu?
uczenie nienadzorowane;
Uczenie nienadzorowane korzysta z przykładów bez etykiet. W tym przykładzie etykietą byłoby „zużycie energii elektrycznej w kilowattogodzinach na rok”, ponieważ jest to wartość, którą model ma prognozować.
uczenie nadzorowane,
Uczenie nadzorowane polega na trenowaniu modelu na oznaczonych przykładach. W tym zbiorze danych etykietą byłoby „zużycie energii elektrycznej w kilowattogodzinach na rok”, ponieważ jest to wartość, którą model ma przewidywać. Cechy te to:
„square footage”, „location” i „year built”.
Załóżmy, że masz zbiór danych o locie z tymi kolumnami:
Jeśli chcesz przewidzieć koszt biletu na przejazd autobusem, użyjesz regresji czy klasyfikacji?
Klasyfikacja
Wyjście modelu klasyfikacji to wartość dyskretna,
zwykle słowo. W tym przypadku koszt biletu na przejazd autobusem jest wyrażony liczbowo.
Regresja
Wyjście modelu regresji to wartość liczbowa.
Czy na podstawie zbioru danych możesz wytrenować model klasyfikacji, który zaklasyfikuje koszt biletu na przejazd autokarem jako „wysoki”, „średni” lub „niski”?
Nie. Modele klasyfikacji przewidują tylko 2 kategorie, np. spam
lub not_spam
. Model musiałby przewidywać 3 kategorie.
Modele klasyfikacji mogą przewidywać wiele kategorii. Nazywamy je modelami klasyfikacji wieloklasowej.
Tak, ale najpierw musimy przekonwertować wartości liczbowe w kolumnie
coach_ticket_cost
na wartości jakościowe.
Na podstawie zbioru danych można utworzyć model klasyfikacji.
Możesz wykonać te czynności:
- Znajdź średni koszt biletu z lotniska odlotu do lotniska docelowego.
- Określ progi, które będą oznaczać „wysoki”, „średni” i „niski”.
- Porównaj przewidywany koszt z progresami i wypisz kategorię, do której należy dana wartość.
Nie. Nie można utworzyć modelu klasyfikacji. Wartości coach_ticket_cost
są liczbowe, a nie kategorialne.
Przy odrobinie wysiłku możesz utworzyć model klasyfikacji.
Trenowanie i ocenianie
Po wytrenowaniu modelu oceniamy go, korzystając ze zbioru danych z oznaczonymi przykładami, i porównujemy przewidywaną wartość modelu z rzeczywistą wartością etykiety.
Wybierz 2 najlepsze odpowiedzi na pytanie.
Jeśli prognozy modelu są bardzo niedokładne, co możesz zrobić, aby je ulepszyć?
Ponownie przetrenować model, ale używać tylko tych cech, które Twoim zdaniem mają największą moc predykcyjną dla etykiety.
Ponownie wytrenowanie modelu z mniejszą liczbą cech, ale o większej zdolności predykcyjnej, może prowadzić do uzyskania modelu, który będzie lepiej przewidywać.
Nie możesz poprawić modelu, którego prognozy są bardzo niedokładne.
Model, który generuje nieprawidłowe prognozy, można poprawić. Większość modeli wymaga kilku rund trenowania, zanim zaczną generować przydatne prognozy.
Wypróbuj inne podejście do szkolenia. Jeśli na przykład używasz podejścia nadzorowanego, spróbuj podejścia nienadzorowanego.
Inne podejście do treningu nie dałoby lepszych prognoz.
ponownie przetrenować model, używając większego i bardziej zróżnicowanego zbioru danych;
Modele trenowane na zbiorach danych z większą liczbą przykładów i szerszym zakresem wartości mogą dawać lepsze prognozy, ponieważ mają one lepsze ogólne rozwiązanie dotyczące relacji między cechami a etykietą.
Teraz możesz przejść do następnego etapu nauki o ML:
Przewodnik: Ludzie + AI. Jeśli szukasz zestawu metod, sprawdzonych metod i przykładów dotyczących korzystania z systemów uczących się, które zostały opracowane przez pracowników Google, ekspertów branżowych i badaczy akademickich.
Formułowanie problemu. Jeśli szukasz sprawdzonego podejścia do tworzenia modeli ML i unikania typowych błędów.
Szybkie szkolenie z uczenia maszynowego Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym w praktyce.