Si vous envisagez d'utiliser AutoML, vous vous posez peut-être des questions sur son fonctionnement et sur les étapes à suivre pour vous lancer. Cette section explore plus en détail les modèles AutoML courants, le fonctionnement d'AutoML et les étapes que vous devrez peut-être suivre avant de commencer à utiliser AutoML pour votre projet.
Outils AutoML
Les outils AutoML se répartissent en deux grandes catégories:
- Les outils sans codage prennent généralement la forme d'applications Web qui vous permettent de configurer et d'exécuter des tests via une interface utilisateur afin de trouver le meilleur modèle pour vos données sans écrire de code.
- Les outils d'API et de CLI offrent des fonctionnalités d'automatisation avancées, mais nécessitent davantage (parfois beaucoup plus) d'expertise en programmation et en ML.
Les outils AutoML qui nécessitent du codage peuvent être plus puissants et plus flexibles que les outils sans code, mais ils peuvent aussi être plus difficiles à utiliser. Ce module se concentre sur les options sans code pour le développement de modèles, mais sachez que les options d'API et de CLI peuvent vous aider si vous avez besoin d'une automatisation personnalisée.
Workflow avec AutoML
Examinons un workflow de ML typique et voyons comment cela fonctionne lorsque vous utilisez AutoML. Les étapes générales du workflow sont les mêmes que celles que vous utilisez pour l'entraînement personnalisé. La principale différence est qu'AutoML gère certaines tâches à votre place.
Définition du problème
La première étape de tout workflow de ML consiste à définir votre problème. Lorsque vous utilisez AutoML, assurez-vous que l'outil que vous choisissez peut répondre aux objectifs de votre projet de ML. La plupart des outils AutoML sont compatibles avec différents types de données d'entrée et d'algorithmes de machine learning supervisés.
Pour en savoir plus sur l'identification des problèmes, consultez le module sur l'introduction à l'identification des problèmes de machine learning.
Data gathering
Avant de pouvoir commencer à utiliser un outil AutoML, vous devez collecter vos données dans une seule source de données. Consultez la documentation du produit pour vous assurer que votre outil est compatible avec votre source de données, les types de données de votre ensemble de données et la taille de votre ensemble de données.
Préparation des données
La préparation des données est un domaine dans lequel les outils AutoML peuvent vous aider, mais aucun outil ne peut tout faire automatiquement. Vous devrez donc vous attendre à effectuer un certain travail avant de pouvoir importer vos données dans l'outil. La préparation des données pour AutoML est semblable à ce que vous devez faire pour entraîner un modèle manuellement. Pour en savoir plus sur la préparation de vos données pour l'entraînement, consultez la section "Préparation des données".
Pour en savoir plus sur la préparation de vos données, consultez les modules Utiliser des données numériques et Utiliser des données catégorielles.
Avant d'importer vos données pour l'entraînement AutoML, vous devez suivre ces étapes:
Ajouter un libellé à vos données
Chaque exemple de votre ensemble de données doit être associé à une étiquette.
Nettoyer et mettre en forme les données
Les données réelles ont tendance à être désordonnées. Attendez-vous donc à devoir les nettoyer avant de les utiliser. Même avec AutoML, vous devez déterminer les meilleurs traitements pour votre ensemble de données et votre problème spécifiques. Vous devrez peut-être effectuer des explorations et plusieurs exécutions d'AutoML avant d'obtenir les meilleurs résultats.
Effectuer des transformations de caractéristiques
Certains outils AutoML gèrent certaines transformations de fonctionnalités à votre place. Toutefois, si l'outil que vous utilisez ne prend pas en charge une transformation de fonctionnalités dont vous avez besoin ou ne la prend pas en charge correctement, vous devrez peut-être effectuer les transformations à l'avance.
Développement de modèles (avec AutoML sans code)
AutoML effectue le travail à votre place pendant l'entraînement. Toutefois, avant de commencer l'entraînement, vous devez configurer votre test. Pour configurer une exécution d'entraînement AutoML, vous devez généralement spécifier les étapes générales suivantes:
Importer vos données
Pour importer vos données, spécifiez votre source de données. Lors du processus d'importation, l'outil AutoML attribue un type de données sémantique à chaque valeur de données.
Analyser vos données
Les produits AutoML fournissent généralement des outils pour analyser votre ensemble de données avant et après l'entraînement. Il est recommandé d'utiliser ces outils d'analyse pour comprendre et valider vos données avant de lancer une exécution AutoML.
Affiner vos données
Les outils AutoML fournissent souvent des mécanismes pour vous aider à affiner vos données après l'importation et avant l'entraînement. Voici quelques tâches que vous pouvez effectuer pour affiner vos données:
Vérification sémantique:lors de l'importation, les outils AutoML tentent de déterminer le type sémantique approprié pour chaque caractéristique, mais il ne s'agit que de suppositions. Vous devez vérifier les types attribués à toutes les fonctionnalités et les modifier si elles ont été attribuées de manière incorrecte.
Par exemple, vous pouvez stocker des codes postaux sous forme de nombres dans une colonne de votre base de données. La plupart des systèmes AutoML détecteraient les données comme des données numériques continues. Ce serait incorrect pour un code postal, et l'utilisateur souhaiterait probablement définir le type sémantique sur "catégorique" plutôt que sur "continu" pour cette colonne d'éléments géographiques.
Transformations:certains outils permettent aux utilisateurs de personnaliser les transformations de données dans le cadre du processus d'affinage. Cela est parfois nécessaire lorsqu'un ensemble de données comporte des fonctionnalités potentiellement prédictives qui doivent être transformées ou combinées d'une manière difficile à déterminer par les outils AutoML sans aide.
Prenons l'exemple d'un ensemble de données sur l'immobilier que vous utilisez pour prédire le prix de vente d'une maison. Supposons qu'il existe une fonctionnalité qui représente la description d'une annonce de maison appelée
description
et que vous souhaitiez utiliser ces données pour créer une fonctionnalité appeléedescription_length
. Certains systèmes AutoML permettent d'utiliser des transformations personnalisées. Pour cet exemple, il peut y avoir une fonctionLENGTH
pour générer une nouvelle fonctionnalité de longueur de description comme suit :LENGTH(description)
.
Configurer les paramètres d'exécution AutoML
La dernière étape avant d'exécuter votre test d'entraînement consiste à choisir quelques paramètres de configuration pour indiquer à l'outil comment vous souhaitez qu'il entraîne votre modèle. Bien que chaque outil AutoML dispose de son propre ensemble d'options de configuration, voici quelques-unes des tâches de configuration importantes que vous devrez peut-être effectuer:
- Sélectionnez le type de problème de ML que vous prévoyez de résoudre. Par exemple, résolvez-vous un problème de classification ou de régression ?
- Sélectionnez la colonne de votre ensemble de données qui correspond au libellé.
- Sélectionnez l'ensemble de fonctionnalités à utiliser pour entraîner le modèle.
- Sélectionnez l'ensemble d'algorithmes de ML que AutoML prend en compte dans la recherche de modèles.
- Sélectionnez la métrique d'évaluation utilisée par AutoML pour choisir le meilleur modèle.
Une fois votre test AutoML configuré, vous pouvez commencer l'exécution de l'entraînement. L'entraînement peut prendre un certain temps (environ une heure).
Évaluer le modèle
Après l'entraînement, vous pouvez examiner les résultats à l'aide des outils fournis par votre produit AutoML pour vous aider:
- Évaluez vos caractéristiques en examinant les métriques d'importance des caractéristiques.
- Comprenez votre modèle en examinant l'architecture et les hyperparamètres utilisés pour le créer.
- Évaluez les performances du modèle de premier niveau à l'aide de graphiques et de métriques collectées lors de l'entraînement du modèle de sortie.
Passage en production
Bien que cela ne relève pas du champ d'application de ce module, certains systèmes AutoML peuvent vous aider à tester et à déployer votre modèle.
Réentraîner le modèle
Vous devrez peut-être réentraîner le modèle avec de nouvelles données. Cela peut se produire après avoir évalué votre exécution d'entraînement AutoML ou après que votre modèle est en production depuis un certain temps. Dans tous les cas, les systèmes AutoML peuvent également vous aider à réentraîner vos modèles. Il n'est pas rare de réexaminer vos données après un entraînement AutoML et de réentraîner le modèle avec un ensemble de données amélioré.
Étape suivante
Félicitations, vous avez terminé ce module !
Nous vous encourageons à explorer les différents modules MLCC à votre rythme et selon vos centres d'intérêt. Si vous souhaitez suivre l'ordre recommandé, nous vous suggérons de passer au module suivant : Équité du ML.