Pytania poniżej pomogą Ci utrwalić wiedzę na temat podstawowych pojęć związanych z uczeniem maszynowym.
Moc predykcyjna
Modele nadzorowanego uczenia maszynowego są trenowane przy użyciu zbiorów danych z oznaczonymi etykietami przykładami. Model
uczy się przewidywać etykietę na podstawie cech. Nie każda cecha w zbiorze danych ma jednak moc predykcyjną. W niektórych przypadkach tylko kilka cech jest predyktorami etykiety. W poniższym zbiorze danych użyj ceny jako etykiety, a pozostałych kolumn jako cech.
Które 3 cechy Twoim zdaniem najlepiej pozwalają przewidzieć cenę samochodu?
Marka_model, rok, przebieg.
Marka i model samochodu, rok produkcji i przebieg to prawdopodobnie najsilniejsze predyktory ceny.
Kolor, wysokość, marka_model.
Wysokość i kolor samochodu nie są silnymi predyktorami jego ceny.
Miles, gearbox, make_model.
Skrzynia biegów nie jest głównym czynnikiem wpływającym na cenę.
Rozmiar_opon, rozstaw_osi, rok.
Rozmiar opon i rozstaw kół nie są dobrymi predyktorami ceny samochodu.
Uczenie nadzorowane i nienadzorowane
W zależności od problemu zastosujesz podejście nadzorowane lub nienadzorowane.
Jeśli na przykład znasz z góry wartość lub kategorię, którą chcesz przewidzieć, użyj uczenia nadzorowanego. Jeśli jednak chcesz się dowiedzieć, czy Twój zbiór danych zawiera jakieś segmentacje lub grupy powiązanych przykładów, użyj uczenia bez nadzoru.
Załóżmy, że masz zbiór danych o użytkownikach witryny zakupów online, który zawiera te kolumny:
Jeśli chcesz poznać typy użytkowników odwiedzających witrynę, użyjesz uczenia z nadzorem czy bez nadzoru?
uczenie nienadzorowane,
Chcemy, aby model grupował powiązanych ze sobą klientów, dlatego użyjemy uczenia bez nadzoru. Po pogrupowaniu użytkowników przez model nadawaliśmy każdemu klastrowi własną nazwę, np. „osoby szukające zniżek”, „osoby szukające okazji”, „osoby przeglądające strony”, „lojalni” i „osoby wędrujące”.
uczenie nadzorowane, ponieważ próbuję przewidzieć, do której klasy należy użytkownik;
W uczeniu nadzorowanym zbiór danych musi zawierać etykietę, którą chcesz prognozować. W zbiorze danych nie ma etykiety, która odnosi się do kategorii użytkowników.
Załóżmy, że masz zbiór danych dotyczący zużycia energii w domach, który zawiera te kolumny:
Jakiego rodzaju uczenia maszynowego użyjesz, aby przewidzieć roczne zużycie kilowatogodzin w nowo wybudowanym domu?
uczenie nadzorowane,
Uczenie nadzorowane odbywa się na podstawie oznaczonych przykładów. W tym zbiorze danych etykietą będzie „kilowatogodziny zużyte w ciągu roku”, ponieważ jest to wartość, którą model ma prognozować. Cechami byłyby „powierzchnia”, „lokalizacja” i „rok budowy”.
uczenie nienadzorowane,
Uczenie bez nadzoru wykorzystuje przykłady bez etykiet. W tym przykładzie etykietą będzie „kilowatogodziny zużyte w ciągu roku”, ponieważ jest to wartość, którą model ma prognozować.
Załóżmy, że masz zbiór danych o lotach z tymi kolumnami:
Jeśli chcesz przewidzieć koszt biletu lotniczego, użyjesz regresji czy klasyfikacji?
Regresja
Wartością wyjściową modelu regresji jest wartość liczbowa.
Klasyfikacja
Wynikiem modelu klasyfikacji jest wartość dyskretna, zwykle słowo. W tym przypadku koszt biletu lotniczego jest wartością liczbową.
Czy na podstawie zbioru danych możesz wytrenować model klasyfikacji, który będzie klasyfikować koszt biletu lotniczego jako „wysoki”, „średni” lub „niski”?
Tak, ale najpierw musimy przekonwertować wartości liczbowe w kolumnie airplane_ticket_cost na wartości kategorialne.
Na podstawie zbioru danych można utworzyć model klasyfikacji.
Możesz to zrobić w ten sposób:
- Znajdź średni koszt biletu z lotniska wylotu na lotnisko docelowe.
- Określ progi, które będą oznaczać „wysoki”, „średni” i „niski” poziom.
- Porównaj prognozowany koszt z wartościami progowymi i podaj kategorię, do której należy ta wartość.
Nie. Nie można utworzyć modelu klasyfikacji. Wartości airplane_ticket_cost są liczbowe, a nie kategoryczne.
Poświęcając trochę czasu, możesz utworzyć model klasyfikacji.
Nie. Modele klasyfikacji prognozują tylko 2 kategorie, np. spam lub not_spam. Ten model musi prognozować 3 kategorie.
Modele klasyfikacji mogą prognozować wiele kategorii. Są one nazywane modelami klasyfikacji wieloklasowej.
Trenowanie i ocenianie
Po wytrenowaniu modelu oceniamy go, korzystając ze zbioru danych z oznakowanymi przykładami, i porównujemy przewidywaną wartość modelu z rzeczywistą wartością etykiety.
Wybierz 2 najlepsze odpowiedzi na pytanie.
Jeśli prognozy modelu są bardzo niedokładne, co możesz zrobić, aby je poprawić?
Ponownie wytrenuj model, ale użyj tylko tych cech, które Twoim zdaniem mają największą moc predykcyjną w przypadku etykiety.
Ponowne trenowanie modelu z mniejszą liczbą cech, ale o większej mocy predykcyjnej, może dać model, który będzie generować lepsze prognozy.
Nie możesz naprawić modelu, którego prognozy są bardzo niedokładne.
Możesz poprawić model, którego prognozy są nieprawidłowe. Większość modeli wymaga wielu rund trenowania, zanim zaczną generować przydatne prognozy.
Ponownie wytrenuj model, używając większego i bardziej zróżnicowanego zbioru danych.
Modele trenowane na zbiorach danych z większą liczbą przykładów i szerszym zakresem wartości mogą generować lepsze prognozy, ponieważ mają lepsze uogólnione rozwiązanie dotyczące relacji między cechami a etykietą.
Spróbuj innego podejścia do trenowania. Jeśli na przykład używasz podejścia nadzorowanego, spróbuj podejścia nienadzorowanego.
Inne podejście do trenowania nie przyniosłoby lepszych
prognoz.
Możesz teraz przejść do kolejnego etapu na drodze do opanowania uczenia maszynowego: