AutoML: Erste Schritte

Wenn Sie AutoML verwenden möchten, haben Sie möglicherweise Fragen dazu, wie es funktioniert und welche Schritte Sie ausführen müssen, um loszulegen. In diesem Abschnitt werden gängige AutoML-Muster näher erläutert, die Funktionsweise von AutoML beschrieben und die Schritte beschrieben, die Sie möglicherweise ausführen müssen, bevor Sie AutoML für Ihr Projekt verwenden können.

AutoML-Tools

AutoML-Tools lassen sich in zwei Hauptkategorien unterteilen:

  • Tools ohne Programmierkenntnisse sind in der Regel Webanwendungen, mit denen Sie Tests über eine Benutzeroberfläche konfigurieren und ausführen können, um das beste Modell für Ihre Daten zu finden, ohne Code schreiben zu müssen.
  • API- und Befehlszeilentools bieten erweiterte Automatisierungsfunktionen, erfordern aber mehr (manchmal deutlich mehr) Programmier- und ML-Kenntnisse.

AutoML-Tools, für die Programmieren erforderlich ist, können leistungsfähiger und flexibler sein als No-Code-Tools, aber auch schwieriger zu verwenden. In diesem Modul liegt der Schwerpunkt auf den No-Code-Optionen für die Modellentwicklung. API- und Befehlszeilenoptionen können jedoch hilfreich sein, wenn Sie eine benutzerdefinierte Automatisierung benötigen.

AutoML-Workflow

Sehen wir uns einen typischen ML-Workflow an und wie die Dinge bei der Verwendung von AutoML funktionieren. Die allgemeinen Schritte im Workflow sind dieselben wie bei benutzerdefinierten Trainings. Der Hauptunterschied besteht darin, dass AutoML einige Aufgaben für Sie übernimmt.

Problem definition

Der erste Schritt in jedem ML-Workflow besteht darin, das Problem zu definieren. Achten Sie bei der Verwendung von AutoML darauf, dass das ausgewählte Tool die Ziele Ihres ML-Projekts unterstützen kann. Die meisten AutoML-Tools unterstützen eine Vielzahl von Algorithmen für die überwachte maschinelle Lerne und Eingabedatentypen.

Weitere Informationen zum Problemformulieren finden Sie im Modul Einführung in das Problemformulieren für maschinelles Lernen.

Datenerhebung

Bevor Sie mit einem AutoML-Tool arbeiten können, müssen Sie Ihre Daten in einer einzigen Datenquelle zusammenführen. Lesen Sie in der Produktdokumentation nach, ob Ihr Tool Ihre Datenquelle, die Datentypen in Ihrem Datensatz und die Größe Ihres Datensatzes unterstützt.

Datenvorbereitung

Bei der Datenvorbereitung können AutoML-Tools hilfreich sein. Kein Tool kann jedoch alles automatisch erledigen. Sie müssen also etwas Arbeit investieren, bevor Sie Ihre Daten in das Tool importieren können. Die Datenvorbereitung für AutoML ähnelt dem, was Sie tun müssten, um ein Modell manuell zu trainieren. Weitere Informationen zum Vorbereiten Ihrer Daten für das Training finden Sie im Abschnitt zur Datenvorbereitung.

Weitere Informationen zur Datenvorbereitung finden Sie in den Modulen Mit numerischen Daten arbeiten und Mit kategorischen Daten arbeiten.

Bevor Sie Ihre Daten für das AutoML-Training importieren, müssen Sie die folgenden Schritte ausführen:

  • Daten beschriften

    Jedes Beispiel in Ihrem Datensatz benötigt ein Label.

  • Daten bereinigen und formatieren

    Realistische Daten sind in der Regel unübersichtlich. Sie müssen also Ihre Daten bereinigen, bevor Sie sie verwenden. Auch mit AutoML müssen Sie die besten Verfahren für Ihr Dataset und Ihr Problem ermitteln. Möglicherweise müssen Sie einige explorative Datenanalysen durchführen und möglicherweise mehrere AutoML-Ausführungen ausführen, bevor Sie die besten Ergebnisse erzielen.

  • Featuretransformationen ausführen

    Einige AutoML-Tools übernehmen bestimmte Feature-Transformationen für Sie. Wenn das von Ihnen verwendete Tool jedoch eine erforderliche oder nicht ausreichend unterstützte Feature-Transformation nicht unterstützt, müssen Sie die Transformationen möglicherweise im Voraus ausführen.

Modellentwicklung (mit No-Code-AutoML)

Während des Trainings übernimmt AutoML die Arbeit für Sie. Bevor Sie mit dem Training beginnen, müssen Sie jedoch Ihren Test konfigurieren. Wenn Sie einen AutoML-Trainingslauf einrichten, müssen Sie in der Regel die folgenden allgemeinen Schritte ausführen:

  1. Daten importieren

    Geben Sie Ihre Datenquelle an, um Ihre Daten zu importieren. Während des Importprozesses weist das AutoML-Tool jedem Datenwert einen semantischen Datentyp zu.

  2. Daten analysieren

    AutoML-Produkte bieten in der Regel Tools, mit denen Sie Ihr Dataset vor und nach dem Training analysieren können. Es empfiehlt sich, diese Analysetools zu verwenden, um Ihre Daten zu verstehen und zu überprüfen, bevor Sie eine AutoML-Ausführung starten.

  3. Daten verfeinern

    AutoML-Tools bieten oft Mechanismen, mit denen Sie Ihre Daten nach dem Importieren und vor dem Training optimieren können. Hier sind einige Aufgaben, die Sie ausführen können, um Ihre Daten zu optimieren:

    • Semantikprüfung:Beim Import versuchen AutoML-Tools, den richtigen semantischen Typ für jedes Merkmal zu ermitteln. Dies sind jedoch nur Vermutungen. Sie sollten die Typen prüfen, die allen Funktionen zugewiesen sind, und sie ändern, falls sie falsch zugewiesen wurden.

      Angenommen, Sie haben Postleitzahlen als Zahlen in einer Spalte in Ihrer Datenbank gespeichert. Die meisten AutoML-Systeme würden die Daten als kontinuierliche numerische Daten erkennen. Das wäre für eine Postleitzahl falsch und der Nutzer würde den semantischen Typ für diese Feature-Spalte wahrscheinlich von „kontinuierlich“ in „kategorisch“ ändern.

    • Transformationen:Mit einigen Tools können Nutzer Datentransformationen im Rahmen des Optimierungsprozesses anpassen. Manchmal ist dies erforderlich, wenn ein Datensatz potenziell prognostische Funktionen enthält, die so transformiert oder kombiniert werden müssen, dass es für AutoML-Tools schwierig ist, dies ohne Hilfe zu bestimmen.

      Angenommen, Sie verwenden einen Datensatz zu Immobilien, um den Verkaufspreis eines Hauses vorherzusagen. Angenommen, es gibt ein Element, das die Beschreibung eines Eintrags für ein Haus namens description darstellt, und Sie möchten diese Daten verwenden, um ein neues Element namens description_length zu erstellen. Einige AutoML-Systeme bieten Möglichkeiten zur Verwendung benutzerdefinierter Transformationen. In diesem Beispiel könnte es eine LENGTH-Funktion geben, um eine neue Funktion für die Beschreibungslänge zu generieren, z. B.: LENGTH(description).

  4. AutoML-Ausführungsparameter konfigurieren

    Im letzten Schritt vor dem Ausführen des Trainingstests wählen Sie einige Konfigurationseinstellungen aus, um dem Tool mitzuteilen, wie das Modell trainiert werden soll. Jedes AutoML-Tool hat zwar eigene Konfigurationsoptionen, aber hier sind einige der wichtigsten Konfigurationsaufgaben, die Sie möglicherweise ausführen müssen:

    • Wählen Sie den Typ des ML-Problems aus, das Sie lösen möchten. Lösen Sie beispielsweise ein Klassifizierungs- oder ein Regressionsproblem?
    • Wählen Sie die Spalte in Ihrem Datensatz aus, die das Label enthält.
    • Wählen Sie die Features aus, die zum Trainieren des Modells verwendet werden sollen.
    • Wählen Sie die ML-Algorithmen aus, die bei der Modellsuche berücksichtigt werden sollen.
    • Wählen Sie den Bewertungsmesswert aus, anhand dessen AutoML das beste Modell auswählt.

Nachdem Sie den AutoML-Test konfiguriert haben, können Sie mit dem Training beginnen. Das Training kann einige Zeit dauern (etwa mehrere Stunden).

Modell bewerten

Nach dem Training können Sie die Ergebnisse mithilfe der Tools Ihres AutoML-Produkts analysieren. So können Sie Folgendes tun:

  • Bewerten Sie Ihre Features anhand der Messwerte zur Merkmalwichtigkeit.
  • Sehen Sie sich die Architektur und die Hyperparameter an, die zum Erstellen des Modells verwendet wurden.
  • Bewerten Sie die Modellleistung auf oberster Ebene anhand von Diagrammen und Messwerten, die während des Trainings für das Ausgabemodell erfasst wurden.

Produktion

Einige AutoML-Systeme können Ihnen beim Testen und Bereitstellen Ihres Modells helfen, auch wenn dies nicht in den Rahmen dieses Moduls fällt.

Modell neu trainieren

Möglicherweise müssen Sie das Modell mit neuen Daten neu trainieren. Das kann passieren, nachdem Sie den AutoML-Trainingslauf ausgewertet oder Ihr Modell schon einige Zeit in der Produktion verwendet haben. In jedem Fall können AutoML-Systeme auch bei der Umschulung helfen. Es ist nicht ungewöhnlich, dass Sie sich nach einer AutoML-Ausführung noch einmal Ihre Daten ansehen und mit einem verbesserten Dataset neu trainieren.

Nächste Schritte

Sie haben dieses Modul abgeschlossen.

Wir empfehlen Ihnen, die verschiedenen MLCC-Module in Ihrem eigenen Tempo und nach Ihrem Interesse zu erkunden. Wenn Sie der empfohlenen Reihenfolge folgen möchten, sollten Sie als Nächstes mit dem folgenden Modul fortfahren: Fairness bei ML.