Jeśli rozważasz korzystanie z AutoML, możesz mieć pytania o to, jak to działa i jak zacząć. W tej sekcji znajdziesz szczegółowe informacje o popularnych wzorcach AutoML, dowiesz się, jak działa AutoML, oraz jakie kroki musisz wykonać, zanim zaczniesz używać AutoML w projekcie.
Narzędzia AutoML
Narzędzia AutoML dzielą się na 2 główne kategorie:
- Narzędzia, które nie wymagają kodowania, zwykle mają postać aplikacji internetowych, które umożliwiają konfigurowanie i przeprowadzanie eksperymentów za pomocą interfejsu użytkownika. Dzięki nim możesz znaleźć najlepszy model dla swoich danych bez pisania kodu.
- Narzędzia API i CLI zapewniają zaawansowane funkcje automatyzacji, ale wymagają większej (czasem znacznie większej) wiedzy z zakresu programowania i ML.
Narzędzia AutoML, które wymagają kodowania, mogą być bardziej wydajne i elastyczne niż narzędzia bez kodowania, ale mogą też być trudniejsze w użyciu. Ten moduł skupia się na opcjach tworzenia modeli bez kodowania, ale jeśli potrzebujesz niestandardowej automatyzacji, możesz skorzystać z opcji interfejsu API i CLI.
Przepływ pracy AutoML
Przeanalizujmy typowy przepływ pracy związany z systemami uczącymi się i sprawdźmy, jak działa AutoML. Ogólne kroki w tym procesie są takie same jak w przypadku trenowania niestandardowego. Główna różnica polega na tym, że AutoML wykonuje za Ciebie niektóre zadania.
Definicja problemu
Pierwszym krokiem w każdym procesie uczenia się maszynowego jest określenie problemu. Jeśli używasz AutoML, upewnij się, że wybrane przez Ciebie narzędzie może obsługiwać cele projektu ML. Większość narzędzi AutoML obsługuje różne algorytmy uczenia maszynowego z nadzorem i różne typy danych wejściowych.
Więcej informacji o formułowaniu problemów znajdziesz w module Wprowadzenie do formułowania problemów z użyciem systemów uczących się.
Zbieranie danych
Zanim zaczniesz korzystać z AutoML, musisz zebrać dane w jednym źródle danych. Sprawdź dokumentację usługi, aby się upewnić, że Twoje narzędzie obsługuje: źródło danych, typy danych w danych, rozmiar danych.
Przygotowanie danych
Przygotowanie danych to obszar, w którym narzędzia AutoML mogą Ci pomóc, ale żadne narzędzie nie może zrobić wszystkiego automatycznie, więc musisz wykonać pewną pracę, zanim zaimportujesz dane do narzędzia. Przygotowanie danych do AutoML jest podobne do tego, co musisz zrobić, aby wytrenować model ręcznie. Jeśli chcesz dowiedzieć się więcej o przygotowywaniu danych do trenowania, zapoznaj się z sekcją Przygotowanie danych.
Więcej informacji o przygotowywaniu danych znajdziesz w module Praca z danymi liczbowymi i Praca z danymi kategorialnymi.
Przed importowaniem danych do trenowania AutoML musisz wykonać te czynności:
Oznaczanie danych etykietą
Każdy przykład w zbiorze danych musi mieć etykietę.
Oczyszczanie i formatowanie danych
Dane z rzeczywistego świata są zwykle nieuporządkowane, dlatego przed ich użyciem należy je oczyścić. Nawet w AutoML musisz określić najlepsze metody przetwarzania w przypadku konkretnego zbioru danych i problemu. Zanim uzyskasz najlepsze wyniki, może być konieczne przeprowadzenie kilku eksploracji i kilku uruchomień AutoML.
Przekształcanie cech
Niektóre narzędzia AutoML wykonują za Ciebie niektóre przekształcenia cech. Jeśli jednak narzędzie, którego używasz, nie obsługuje potrzebnej Ci funkcji lub obsługuje ją niewystarczająco, konieczne może być przeprowadzenie wcześniejszych przekształceń.
Tworzenie modelu (z AutoML bez kodowania)
AutoML wykonuje pracę za Ciebie podczas trenowania. Zanim jednak zaczniesz prowadzić szkolenie, musisz skonfigurować eksperyment. Aby skonfigurować uruchomienie procesu trenowania AutoML, musisz wykonać te czynności:
Importowanie danych
Aby zaimportować dane, określ ich źródło. Podczas importowania narzędzie AutoML przypisuje do każdej wartości danych typ danych semantycznych.
Analizowanie danych
Produkty AutoML zwykle udostępniają narzędzia do analizowania zbioru danych przed i po trenowaniu. Sprawdzoną metodą jest korzystanie z tych narzędzi analitycznych, aby zrozumieć i zweryfikować dane przed rozpoczęciem wykonywania AutoML.
Precyzowanie danych
Narzędzia AutoML często udostępniają mechanizmy, które pomagają ulepszać dane po ich zaimportowaniu i przed trenowaniem. Oto kilka czynności, które możesz wykonać, aby doprecyzować dane:
Sprawdzanie semantyczne: podczas importowania narzędzia AutoML próbują określić poprawny typ semantyczny dla każdej właściwości, ale są to tylko przypuszczenia. Sprawdź typy przypisane do wszystkich funkcji i je zmień, jeśli zostały przypisane nieprawidłowo.
W bazie danych możesz mieć np. kody pocztowe zapisane jako liczby w kolumnie. Większość systemów AutoML wykryje te dane jako ciągłe dane liczbowe. W przypadku kodu pocztowego jest to nieprawidłowe, dlatego użytkownik powinien zmienić typ semantyczny z ciągłego na kategorialny w przypadku tej kolumny cech.
Przekształcenia: niektóre narzędzia umożliwiają użytkownikom dostosowywanie przekształceń danych w ramach procesu udoskonalania. Czasami jest to konieczne, gdy zbiór danych zawiera potencjalnie funkcje prognostyczne, które należy przekształcić lub połączyć w sposób trudny do określenia przez narzędzia AutoML bez pomocy.
Rozważ na przykład zbiór danych o nieruchomościach, którego używasz do przewidywania ceny sprzedaży domu. Załóżmy, że istnieje funkcja reprezentująca opis informacji o domu o nazwie
description
i chcesz użyć tych danych, aby utworzyć nową funkcję o nazwiedescription_length
. Niektóre systemy AutoML umożliwiają korzystanie z niestandardowych przekształceń. W tym przykładzie może być funkcjaLENGTH
, która generuje nową cechę długości opisu, np.:LENGTH(description)
.
Konfigurowanie parametrów uruchomienia AutoML
Ostatnim krokiem przed uruchomieniem eksperymentu trenowania jest wybranie kilku ustawień konfiguracji, aby wskazać narzędziu, jak ma trenować model. Każde narzędzie AutoML ma własny zestaw opcji konfiguracji, ale oto kilka ważnych zadań konfiguracyjnych, które możesz musieć wykonać:
- Wybierz typ problemu związanego z ML, który chcesz rozwiązać. Czy na przykład rozwiązujesz problem klasyfikacji czy regresji?
- Wybierz kolumnę w zbiorze danych, która ma być etykietą.
- Wybierz zestaw funkcji, których chcesz użyć do trenowania modelu.
- Wybierz zestaw algorytmów ML, które AutoML bierze pod uwagę podczas wyszukiwania modelu.
- Wybierz wskaźnik oceny, którego AutoML używa do wybierania najlepszego modelu.
Po skonfigurowaniu eksperymentu AutoML możesz rozpocząć proces trenowania. Trenowanie może potrwać kilka godzin.
Oceń model
Po przeprowadzeniu treningu możesz sprawdzić wyniki za pomocą narzędzi dostępnych w AutoML:
- Oceniaj funkcje, analizując dane o ich znaczeniu.
- Poznaj model, analizując jego architekturę i hiperparametry.
- Oceniaj skuteczność modelu na najwyższym poziomie za pomocą wykresów i danych zebranych podczas jego trenowania.
Wdrożenie
Chociaż nie jest to objęte tym modułem, niektóre systemy AutoML mogą pomóc w testowaniu i wdrażaniu modelu.
Naucz ponownie model
Być może konieczne będzie wytrenowanie modelu na podstawie nowych danych. Może się to zdarzyć po ocenie sesji trenowania AutoML lub po pewnym czasie korzystania z modelu w środowisku produkcyjnym. W obu przypadkach systemy AutoML mogą też pomóc w przeszkoleniu. Nierzadko zdarza się, że po uruchomieniu AutoML ponownie analizujesz dane i trenujesz model na ulepszonym zbiorze danych.
Co dalej?
Gratulujemy ukończenia tego modułu.
Zachęcamy do samodzielnego odkrywania różnych modułów MLCC. Jeśli chcesz postępować zgodnie z zalecanym porządkiem, przejdź do tego modułu: Uczciwość modeli uczenia maszynowego.