AutoML: pierwsze kroki

Jeśli zastanawiasz się nad wykorzystaniem AutoML, możesz mieć wątpliwości, oraz o tym, co należy zrobić, aby zacząć z niej korzystać. W tej sekcji znajdziesz więcej informacji na typowe wzorce AutoML, bada, jak działa AutoML, i analizuje, jakie kroki które musisz wykonać, zanim zaczniesz używać AutoML w projekcie.

Narzędzia AutoML

Narzędzia AutoML dzielą się na 2 główne kategorie:

  • Narzędzia, które nie wymagają kodowania, mają zwykle postać aplikacji internetowych. który pozwala konfigurować i przeprowadzać eksperymenty w interfejsie najlepszy model dla Twoich danych bez konieczności pisania kodu.
  • Narzędzia interfejsu API i interfejsu wiersza poleceń zapewniają zaawansowane funkcje automatyzacji, ale wymagają więcej (czasami znacznie bardziej) w zakresie programowania i systemów uczących się.

Narzędzia AutoML, które wymagają kodowania, mogą być bardziej wydajne i elastyczne niż niewymagające umiejętności kodowania, ale mogą być też trudniejsze w użyciu. Ten moduł dotyczy na temat opcji tworzenia modeli bez kodowania, ale pamiętaj, że API i interfejs wiersza poleceń mogą być przydatne, jeśli potrzebujesz niestandardowej automatyzacji.

Przepływ pracy AutoML

Przyjrzyjmy się typowemu przepływowi pracy ML i zobaczmy, jak wszystko działa, gdy używasz AutoML. Ogólne kroki przepływu pracy są takie same jak te, których używasz trenowanie niestandardowe; Główna różnica polega na tym, że AutoML wykonuje niektóre zadania za Ciebie.

Definicja problemu

Pierwszym krokiem w każdym przepływie pracy ML jest zdefiniowanie problemu. Jeśli korzystasz z AutoML, upewnij się, że wybrane narzędzie obsługuje w Twoim projekcie ML. Większość narzędzi AutoML obsługuje różne nadzorowane algorytmami systemów uczących się i typami danych wejściowych.

Więcej informacji na temat kadrowania problemów znajdziesz w module Wprowadzenie do kadrowania problemów z systemami uczącymi się.

Zbieranie danych

Zanim zaczniesz korzystać z narzędzia AutoML, musisz zebrać swoje dane w jedne źródło danych. Zapoznaj się z dokumentacją usługi, by upewnić się, że Twoje narzędzie obsługuje: źródło danych, typy danych w zbiorze danych, rozmiar zbioru danych.

Przygotowanie danych

Przygotowywanie danych to obszar, w którym mogą Ci się przydać narzędzia AutoML, ale nie narzędzie może zrobić wszystko automatycznie, więc najpierw importowanie danych do narzędzia. Przygotowanie danych dla AutoML działa podobnie jak co trzeba zrobić, aby wytrenować model ręcznie. Jeśli chcesz dowiedzieć się więcej na temat przygotowywania danych do trenowania, zapoznaj się z poradnikiem dotyczącym przygotowywania danych .

Więcej informacji o przygotowywaniu danych znajdziesz w korzystanie z danych liczbowych, oraz korzystanie z danych kategorialnych modułów.

Zanim zaimportujesz dane do trenowania AutoML, musisz wykonać te czynności: kroki:

  • Oznaczanie danych etykietami

    Każdy przykład w zbiorze danych musi mieć etykietę.

  • Czyszczenie i formatowanie danych

    Rzeczywiste dane są zwykle niejasne, więc pamiętaj o oczyszczeniu danych przed ich użyciem . Nawet w przypadku AutoML musisz określić najlepsze terapie dla swoich do określonego zbioru danych i problemu. Może to wymagać pewnych informacji oraz aby uzyskać najlepsze wyniki, może obejmować kilka uruchomień AutoML.

  • Przekształcanie cech

    Niektóre narzędzia AutoML obsługują przekształcenia określonych funkcji za Ciebie. Ale jeśli używane narzędzie nie obsługuje przekształcenia cech, którego potrzebujesz, nie jest dobrze obsługiwana, może być konieczne wprowadzenie transformacji z wyprzedzeniem czasu.

Tworzenie modelu (przy użyciu AutoML bez kodu)

AutoML wykonuje całą pracę za Ciebie podczas trenowania. Zanim jednak musisz skonfigurować eksperyment. Aby skonfigurować trenowanie AutoML musisz zwykle określić te ogólne kroki:

  1. Importowanie danych

    Aby zaimportować dane, wskaż źródło danych. Podczas importowania narzędzie AutoML przypisze do każdej wartości danych semantyczny typ danych.

  2. Analizowanie danych

    Usługi AutoML zwykle dostarczają narzędzia do analizowania zbioru danych przed po zakończeniu trenowania. Zalecamy korzystanie z tych narzędzi analitycznych aby zrozumieć i zweryfikować dane przed rozpoczęciem uruchomienia AutoML.

  3. Zawężanie danych

    Narzędzia AutoML często oferują mechanizmy, które pomagają zawężać dane przed trenowaniem i importowaniem. Oto kilka zadań, które możesz wykonać aby zawęzić dane:

    • Sprawdzanie semantyczne: podczas importowania narzędzia AutoML próbują określić poprawny typ semantyczny dla każdej cechy, ale są to tylko dane szacunkowe. Sprawdź typy przypisane do wszystkich funkcji i je zmień jeśli zostały przypisane nieprawidłowo.

      Na przykład kody pocztowe mogą być przechowywane jako liczby w kolumnie w bazie danych. Większość systemów AutoML wykrywa dane jako ciągłe dane liczbowe. Jest to nieprawidłowe w przypadku kodu pocztowego, a użytkownik wolałby zmienić typ semantyczny na kategoryczny, niż ciągły dla tej kolumny cech.

    • Przekształcenia: niektóre narzędzia umożliwiają użytkownikom dostosowywanie danych. przekształceniami w ramach procesu zawężania. Czasem tak jest potrzebna, gdy zbiór danych zawiera potencjalnie predykcyjne funkcje, być przekształcane lub łączone w sposób trudny dla narzędzi AutoML; określić bez pomocy.

      Weźmy np. zbiór danych nieruchomości, którego używasz do prognozowania to cena sprzedaży domu. Załóżmy, że istnieje cecha, która reprezentuje funkcję dla listy domów o nazwie description oraz chcą używać tych danych do tworzenia nowej funkcji o nazwie description_length Niektóre systemy AutoML oferują sposoby użycia przekształcenia danych. W tym przykładzie może istnieć funkcja LENGTH aby wygenerować nową funkcję długości tekstu reklamy, taką jak: LENGTH(description)

  4. Konfigurowanie parametrów uruchamiania AutoML

    Ostatnim krokiem przed rozpoczęciem eksperymentu jest wybranie kilku ustawień konfiguracji, aby poinformować narzędzie, jak ma trenować model. Chociaż każde narzędzie AutoML ma własny, unikalny zestaw opcji konfiguracji, oto kilka najważniejszych zadań konfiguracyjnych, które mogą być wymagane zakończono:

    • Wybierz typ problemu ML, który chcesz rozwiązać. Na przykład: rozwiążesz problem z klasyfikacją lub regresją?
    • Wybierz, która kolumna w zbiorze danych jest etykietą.
    • Wybierz zbiór funkcji do wykorzystania do trenowania modelu.
    • Wybierz zbiór algorytmów ML, które AutoML bierze pod uwagę w wyszukiwaniu modeli.
    • Wybierz wskaźnik oceny, którego AutoML używa, aby wybrać najlepszy model.

Po skonfigurowaniu eksperymentu AutoML możesz rozpocząć trenowanie. bieganie. Ukończenie szkolenia może zająć trochę czasu (w kolejności od godzin).

Oceń model

Po wytrenowaniu możesz sprawdzić wyniki za pomocą narzędzi AutoML. pomaga:

  • Oceń swoje cechy, przeglądając wskaźniki ważności cech.
  • Poznaj swój model, analizując architekturę i użyte hiperparametry aby go stworzyć.
  • Oceń skuteczność modelu najwyższego poziomu, korzystając z wykresów i danych zebranych podczas do trenowania modelu wyjściowego.

Produkcja

To nie jest temat tego modułu, ale niektóre systemy AutoML mogą pomóc przetestować i wdrożyć model.

Wytrenuj model ponownie

Być może trzeba będzie ponownie wytrenować model z zastosowaniem nowych danych. Może to nastąpić po lub gdy model jest w wersji produkcyjnej przez jakiś czas obecnie się znajdujesz. W obu przypadkach systemy AutoML również mogą pomóc w ponownym trenowaniu. Nie rzadko ponownie przyjrzeć się danym po uruchomieniu AutoML i podczas trenowania i ulepszaniu zbioru danych.

Co dalej?

Gratulacje! Udało Ci się ukończyć ten moduł.

Zachęcamy do zapoznania się z różnymi modułami MLCC we własnym tempie i we własnym tempie. Jeśli chcesz postępować zgodnie z zalecaną kolejnością, zalecamy przejście do następującego modułu: Obiektywność ML.