AutoML: premiers pas

Si vous envisagez d'utiliser AutoML, vous vous demandez peut-être comment il et les étapes à suivre pour commencer. Cette section approfondit des modèles AutoML courants, explore le fonctionnement d'AutoML et examine les étapes que vous devrez peut-être suivre avant de commencer à utiliser AutoML pour votre projet.

Outils AutoML

Les outils AutoML se divisent en deux grandes catégories:

  • Les outils qui ne nécessitent aucun codage prennent généralement la forme d'applications Web qui vous permettent de configurer et d'exécuter des tests via une interface utilisateur le meilleur modèle pour vos données sans écrire de code.
  • Les outils d'API et d'interface de ligne de commande offrent des fonctionnalités d'automatisation avancées, mais ils nécessitent des (parfois beaucoup plus) en programmation et en ML.

Les outils AutoML qui nécessitent du codage peuvent être plus puissants et plus flexibles que sans code, mais ils peuvent aussi être plus difficiles à utiliser. Ce module se concentre sur sur les options sans code pour le développement de modèles, mais sachez que les API et CLI peuvent être utiles si vous avez besoin d'une automatisation personnalisée.

Workflow avec AutoML

Examinons un workflow de ML typique et découvrons le fonctionnement des choses lorsque l'on utilise AutoML. Les étapes de haut niveau du workflow sont les mêmes que celles que vous utilisez pour l'entraînement personnalisé, la principale différence est qu'AutoML gère certaines tâches à votre place.

Définition du problème

La première étape d'un workflow de ML consiste à définir votre problème. Lorsque vous utilisez AutoML, assurez-vous que l'outil que vous choisissez est compatible avec les objectifs de votre projet de ML. La plupart des outils AutoML sont compatibles avec divers les algorithmes de machine learning et les types de données d'entrée.

Pour en savoir plus sur la conception de problèmes, regardez le module sur Introduction to Machine Learning Problem Framing.

Data gathering

Avant de pouvoir utiliser un outil AutoML, vous devez collecter vos données en une seule source de données. Consultez la documentation du produit pour vous assurer que compatible avec votre outil: votre source de données, les types de données de votre ensemble de données, la taille de votre ensemble de données.

Préparation des données

La préparation des données est un domaine dans lequel les outils AutoML peuvent vous aider, peut tout faire automatiquement. Attendez-vous donc à faire un travail avant vous pouvez importer vos données dans l'outil. La préparation des données pour AutoML est semblable ce qu'il faut faire pour entraîner un modèle manuellement. Pour en savoir plus sur la façon de préparer vos données pour l'entraînement, consultez le cours "Préparation des données" .

Pour en savoir plus sur la préparation de vos données, consultez le travailler avec des données numériques et travailler avec des données catégorielles modules.

Avant d'importer vos données pour l'entraînement AutoML, vous devez effectuer ces étapes:

  • Ajouter un libellé à vos données

    Chaque exemple de l'ensemble de données doit être associé à une étiquette.

  • Nettoyer et formater les données

    Les données du monde réel ont tendance à être désordonnées, alors attendez-vous à les nettoyer avant de les utiliser Même avec AutoML, vous devez déterminer les meilleurs traitements d'un ensemble de données et d'un problème particuliers. Cela peut nécessiter un peu d’exploration et plusieurs exécutions d'AutoML avant d'obtenir les meilleurs résultats.

  • Effectuer des transformations de caractéristiques

    Certains outils AutoML gèrent certaines transformations de caractéristiques pour vous. Mais, si l'outil que vous utilisez n'est pas compatible avec la transformation de caractéristiques dont vous avez besoin ; n'est pas compatible, vous devrez peut-être effectuer les transformations à l'avance. de temps.

Développement du modèle (avec AutoML sans code)

AutoML s'occupe de tout pendant l'entraînement. Toutefois, avant de commencer vous devez configurer votre test. Configurer un entraînement AutoML vous devez généralement spécifier les étapes générales suivantes:

  1. Importer vos données

    Pour importer vos données, spécifiez votre source de données. Pendant l'importation l'outil AutoML attribue un type de données sémantique à chaque valeur de données.

  2. Analyser vos données

    Les produits AutoML fournissent généralement des outils permettant d'analyser votre ensemble de données après l'entraînement. En tant que meilleure pratique, vous pouvez utiliser ces outils d'analyse pour comprendre et vérifier vos données avant de lancer une exécution AutoML.

  3. Affiner vos données

    Les outils AutoML offrent souvent des mécanismes permettant d'affiner vos données après l'importation et avant l'entraînement. Voici quelques tâches que vous pouvez effectuer pour affiner vos données:

    • Vérification sémantique:lors de l'importation, les outils AutoML tentent de déterminer le type sémantique correct de chaque caractéristique, mais ce ne sont que des suppositions. Nous vous conseillons de vérifier les types attribués à tous les éléments géographiques et de les modifier. s’ils n’ont pas été affectés correctement.

      Par exemple, vous pouvez stocker des codes postaux sous forme de nombres dans une colonne votre base de données. La plupart des systèmes AutoML détectent les données comme des données données numériques. Ce serait incorrect pour un code postal et l'utilisateur voudrait probablement remplacer le type sémantique par une catégorie que continu pour cette colonne de caractéristiques.

    • Transformations:certains outils permettent aux utilisateurs de personnaliser les données. dans le cadre du processus d'affinement. Parfois, c’est est nécessaire lorsqu'un ensemble de données contient des caractéristiques potentiellement prédictives être transformées ou combinées d'une manière difficile pour les outils AutoML de déterminer sans aide.

      Prenons l'exemple d'un ensemble de données sur l'immobilier que vous utilisez pour prédire le prix de vente d'une maison. Supposons qu'il existe une caractéristique qui représente pour une annonce de maison intitulée "description" et que vous utiliser ces données pour créer une caractéristique appelée description_length Certains systèmes AutoML permettent d'utiliser des Transformer. Pour cet exemple, il pourrait y avoir une fonction LENGTH pour générer une nouvelle caractéristique de longueur de description comme celle-ci: LENGTH(description)

  4. Configurer les paramètres d'exécution AutoML

    La dernière étape avant d'exécuter votre test d'entraînement consiste à choisir de configuration pour indiquer à l'outil comment vous souhaitez qu'il entraîne votre modèle. Même si chaque outil AutoML possède son propre ensemble d'options de configuration, voici quelques-unes des principales tâches de configuration terminer:

    • Sélectionnez le type de problème de ML que vous prévoyez de résoudre. Par exemple, êtes-vous à résoudre un problème de classification ou de régression ?
    • Sélectionnez la colonne de l'ensemble de données correspondant à l'étiquette.
    • Sélectionnez l'ensemble de caractéristiques à utiliser pour entraîner le modèle.
    • Sélectionnez l'ensemble d'algorithmes de ML pris en compte par AutoML dans la recherche de modèles.
    • Sélectionner la métrique d'évaluation utilisée par AutoML pour choisir le meilleur modèle.

Après avoir configuré votre test AutoML, vous pouvez commencer l'entraînement exécuter. L'entraînement peut prendre un certain temps (de l'ordre de plusieurs heures).

Évaluer le modèle

Après l'entraînement, vous pouvez examiner les résultats à l'aide des outils utilisés par AutoML fournit pour vous aider à:

  • Évaluez vos caractéristiques en examinant leurs métriques d'importance.
  • comprendre votre modèle en examinant l'architecture et les hyperparamètres utilisés ; pour la construire.
  • Évaluer les performances du modèle de premier niveau à l'aide de tracés et de métriques collectés pendant l'entraînement du modèle de sortie.

Passage en production

Bien que ce module ne soit pas abordé dans ce module, certains systèmes AutoML peuvent vous aider pour tester et déployer votre modèle.

Réentraîner le modèle

Vous devrez peut-être réentraîner le modèle avec de nouvelles données. Cela peut se produire une fois que vous évaluer l'exécution de votre entraînement AutoML ou après la mise en production de votre modèle en temps réel. Dans tous les cas, les systèmes AutoML peuvent également faciliter le réentraînement. Il n'est pas Il n'est pas courant d'examiner à nouveau vos données après une exécution AutoML, puis de réentraîner le modèle avec un ensemble de données amélioré.

Étape suivante

Félicitations, vous avez terminé ce module !

Nous vous invitons à explorer les différents modules du MLCC à votre propre rythme et dans vos centres d'intérêt. Pour suivre une commande recommandée, nous vous suggérons de passer au module suivant: Équité dans le ML.