AutoML: Erste Schritte

Wenn Sie AutoML nutzen möchten, haben Sie vielleicht Fragen dazu, und wie Sie loslegen können. In diesem Abschnitt wird ausführlich darauf eingegangen gängige AutoML-Muster kennenlernen, erfahren, wie AutoML funktioniert und welche Schritte die Sie möglicherweise ausführen müssen, bevor Sie AutoML für Ihr Projekt verwenden.

AutoML-Tools

AutoML-Tools lassen sich in zwei Hauptkategorien einteilen:

  • Tools, die nicht programmiert werden müssen, sind in der Regel Webanwendungen mit der Sie Tests über eine Benutzeroberfläche konfigurieren und ausführen können, das beste Modell für Ihre Daten zu finden, ohne Code schreiben zu müssen.
  • API- und Befehlszeilentools bieten erweiterte Automatisierungsfunktionen, erfordern aber auch mehr (manchmal deutlich mehr) Programmier- und ML-Fachwissen.

AutoML-Tools, die Programmierung erfordern, können leistungsstärker und flexibler sein als No-Code-Tools, können aber auch schwieriger zu bedienen sein. In diesem Modul geht es um zu den No-Code-Optionen für die Modellentwicklung. können Sie eine individuelle Automatisierung auswählen.

AutoML-Workflow

Sehen wir uns einen typischen ML-Workflow durch. AutoML. Die übergeordneten Schritte im Workflow entsprechen denen, die Sie für benutzerdefiniertes Training; ist der Hauptunterschied, dass AutoML einige Aufgaben für Sie übernimmt.

Problem definition

Der erste Schritt in jedem ML-Workflow besteht darin, das Problem zu definieren. Wenn Sie sollten Sie darauf achten, dass das von Ihnen gewählte Tool die Anforderungen die Ziele Ihres ML-Projekts. Die meisten AutoML-Tools unterstützen eine Vielzahl von Algorithmen für maschinelles Lernen und Eingabedatentypen.

Weitere Informationen zum Framing von Problemen finden Sie im Modul Introduction to Machine Learning Problem Framing.

Datenerfassung

Bevor Sie mit einem AutoML-Tool arbeiten können, müssen Sie Ihre Daten erfassen in einer einzigen Datenquelle zusammenfassen. Prüfen Sie in der Produktdokumentation, die Ihr Tool unterstützt: Ihre Datenquelle, die Datentypen in Ihrem Dataset, die Ihres Datasets.

Datenvorbereitung

Die Datenvorbereitung ist ein Bereich, in dem Ihnen AutoML-Tools helfen können. da alles automatisch erledigt wird. Ihre Daten in das Tool importieren können. Die Datenvorbereitung für AutoML ähnelt der was Sie tun müssten, um ein Modell manuell zu trainieren. Weitere Informationen wie Sie Ihre Daten für das Training vorbereiten, sehen Sie sich die Datenvorbereitung .

Weitere Informationen zur Vorbereitung Ihrer Daten finden Sie in der mit numerischen Daten arbeiten und Arbeiten mit kategorialen Daten Module.

Bevor Sie Ihre Daten für das AutoML-Training importieren, müssen Sie diese Schritte ausführen Schritte:

  • Daten mit Labels versehen

    Jedes Beispiel in Ihrem Dataset benötigt ein Label.

  • Daten bereinigen und formatieren

    Daten aus der realen Welt sind in der Regel chaotisch, deshalb sollten Sie Ihre Daten bereinigen, bevor Sie sie verwenden . Auch bei AutoML müssen Sie die beste Behandlungsmethode für Ihre eines bestimmten Datasets und eines bestimmten Problems. Dies erfordert möglicherweise etwas Recherche und möglicherweise mehrere AutoML-Ausführungen, bevor Sie die besten Ergebnisse erzielen.

  • Featuretransformationen ausführen

    Einige AutoML-Tools übernehmen bestimmte Merkmalstransformationen. Wenn aber das verwendete Tool keine Featuretransformation, die Sie benötigen oder nicht gut unterstützt wird, müssen Sie die Transformationen möglicherweise der Zeit.

Modellentwicklung (mit einem programmierfreien AutoML)

AutoML erledigt diese Aufgaben während des Trainings für Sie. Bevor Sie jedoch müssen Sie den Test konfigurieren. So richten Sie ein AutoML-Training ein ausgeführt wird, müssen Sie in der Regel die folgenden übergeordneten Schritte angeben:

  1. Daten importieren

    Geben Sie die Datenquelle an, um Ihre Daten zu importieren. Während des Imports weist das AutoML-Tool jedem Datenwert einen semantischen Datentyp zu.

  2. Daten analysieren

    AutoML-Produkte bieten in der Regel Tools, mit denen Sie Ihr Dataset vor und nach nach dem Training. Die folgenden Analysetools sind eine bewährte Methode, um Ihre Daten zu verstehen und zu überprüfen, bevor Sie AutoML-Ausführungen starten.

  3. Daten optimieren

    AutoML-Tools bieten häufig Mechanismen, mit denen Sie Ihre Daten nach dem Datenimport und vor dem Training. Hier sind ein paar Aufgaben, die Sie möglicherweise erledigen sollten zur Verfeinerung Ihrer Daten:

    • Semantische Überprüfung:Während des Imports versuchen AutoML-Tools, die richtigen semantischen Typ für jede Funktion vor. Dies sind jedoch nur Vermutungen. Aktivieren Sie die für alle Elemente vorgesehenen Typen und ändern Sie sie. wenn sie falsch zugewiesen wurden.

      Beispiel: Sie haben Postleitzahlen als Zahlen in einer Spalte in in Ihrer Datenbank. Die meisten AutoML-Systeme erkennen die Daten als kontinuierliche numerische Daten. Für eine Postleitzahl und den Nutzer den semantischen Typ in „kategorial“ ändern, als kontinuierlich.

    • Transformationen:Einige Tools ermöglichen es Nutzern, Daten anzupassen. im Rahmen des Optimierungsprozesses anpassen. Manchmal ist dies wenn ein Dataset potenziell Vorhersagemerkmale enthält, die so transformiert oder kombiniert werden, dass es für AutoML-Tools schwierig ist. ohne Hilfe feststellen können.

      Stellen Sie sich beispielsweise ein Dataset mit einem Wohnraum vor, mit dem Sie Vorhersagen erstellen den Verkaufspreis eines Hauses. Angenommen, es gibt ein Feature, das die für einen Hauseintrag mit dem Namen description erstellen, nutzen diese Daten gerne, um eine neue Funktion namens description_length. Einige AutoML-Systeme bieten Möglichkeiten, benutzerdefinierte Transformationen. In diesem Beispiel könnte es eine LENGTH-Funktion geben, um eine neue Funktion wie die folgende zu generieren: LENGTH(description).

  4. AutoML-Ausführungsparameter konfigurieren

    Wählen Sie im letzten Schritt Konfigurationseinstellungen, um dem Tool mitzuteilen, wie das Modell trainiert werden soll. Obwohl jedes AutoML-Tool eigene Konfigurationsoptionen hat, Hier sind einige der wichtigsten Konfigurationsaufgaben, die Sie möglicherweise Abgeschlossen:

    • Wählen Sie den Typ des ML-Problems aus, das Sie lösen möchten. Sind Sie zum Beispiel ein Klassifizierungs- oder Regressionsproblem lösen?
    • Wählen Sie aus, welche Spalte in Ihrem Dataset das Label sein soll.
    • Wählen Sie die Features aus, die zum Trainieren des Modells verwendet werden sollen.
    • Wählen Sie die ML-Algorithmen aus, die AutoML bei der Modellsuche berücksichtigt.
    • Wählen Sie den Bewertungsmesswert aus, den AutoML verwendet, um das beste Modell auszuwählen.

Nachdem Sie den AutoML-Test konfiguriert haben, können Sie mit dem Training beginnen ausführen. Das Training kann einige Stunden dauern.

Modell bewerten

Nach dem Training können Sie die Ergebnisse mit den Tools von AutoML überprüfen. das Produkt bietet, um Ihnen bei Folgendem zu helfen:

  • Bewerten Sie Ihre Features, indem Sie die Messwerte zur Featurewichtigkeit untersuchen.
  • Ihr Modell durch Untersuchung der verwendeten Architektur und der verwendeten Hyperparameter verstehen um sie zu erstellen.
  • Bewerten Sie die Leistung des Modells der obersten Ebene mit Diagrammen und Messwerten, die während Training für das Ausgabemodell.

Produktion

Auch wenn dies nicht in diesem Modul behandelt wird, können Sie mit einigen AutoML-Systemen das Modell zu testen und bereitzustellen.

Modell neu trainieren

Möglicherweise müssen Sie das Modell mit neuen Daten neu trainieren. Dies kann passieren, nachdem Sie die AutoML-Trainingsausführung oder die Produktion des Modells für einige . In beiden Fällen können AutoML-Systeme auch beim erneuten Trainieren helfen. Es ist nicht Ihre Daten nach einer AutoML-Ausführung noch einmal zu überprüfen und das Training mit verbessertes Dataset.

Nächste Schritte

Sie haben dieses Modul abgeschlossen.

Wir empfehlen Ihnen, sich die verschiedenen MLCC-Module anzusehen. in Ihrem eigenen Tempo und Ihren Interessen. Wenn Sie einer empfohlenen Reihenfolge folgen möchten, sollten Sie als Nächstes mit dem folgenden Modul fortfahren: ML-Fairness: