Se stai pensando di utilizzare AutoML, potresti avere domande su come funziona e su quali passaggi devi seguire per iniziare. Questa sezione esamina più in dettaglio i pattern AutoML comuni, il funzionamento di AutoML e i passaggi che potresti dover seguire prima di iniziare a utilizzare AutoML per il tuo progetto.
Strumenti AutoML
Gli strumenti AutoML si suddividono in due categorie principali:
- Gli strumenti che non richiedono la programmazione in genere si presentano come applicazioni web che ti consentono di configurare ed eseguire esperimenti tramite un'interfaccia utente per trovare il modello migliore per i tuoi dati senza scrivere codice.
- Gli strumenti API e CLI forniscono funzionalità di automazione avanzate, ma richiedono maggiori (a volte molto maggiori) competenze di programmazione e ML.
Gli strumenti AutoML che richiedono la programmazione possono essere più potenti e flessibili degli strumenti senza codice, ma possono anche essere più difficili da utilizzare. Questo modulo si concentra sulle opzioni no-code per lo sviluppo di modelli, ma tieni presente che le opzioni API e CLI possono essere utili se hai bisogno di automazione personalizzata.
Flusso di lavoro AutoML
Vediamo un flusso di lavoro ML tipico e come funziona quando utilizzi AutoML. I passaggi di alto livello del flusso di lavoro sono gli stessi che utilizzi per l'addestramento personalizzato. La differenza principale è che AutoML gestisce alcune attività per te.
Definizione del problema
Il primo passaggio di qualsiasi flusso di lavoro di ML consiste nel definire il problema. Quando utilizzi AutoML, assicurati che lo strumento scelto possa supportare gli scopi del tuo progetto di ML. La maggior parte degli strumenti AutoML supporta una serie di algoritmi di machine learning supervisionati e tipi di dati di input.
Per ulteriori informazioni sulla definizione del problema, consulta il modulo su Introduzione alla definizione del problema di machine learning.
Raccolta dei dati
Prima di poter iniziare a utilizzare uno strumento AutoML, devi raccogliere i dati in un'unica origine dati. Controlla la documentazione del prodotto per assicurarti che lo strumento supporti: l'origine dati, i tipi di dati nel set di dati e le dimensioni del set di dati.
Preparazione dei dati
La preparazione dei dati è un'area in cui gli strumenti AutoML possono aiutarti, ma nessun strumento può fare tutto automaticamente, quindi dovrai fare un po' di lavoro prima di poterlo fare puoi importare i dati nello strumento. La preparazione dei dati per AutoML è simile a quanto dovresti fare per addestrare un modello manualmente. Se vuoi saperne di più su come preparare i dati per l'addestramento, consulta la sezione Preparazione dei dati.
Per saperne di più sulla preparazione dei dati, consulta i moduli su come lavorare con i dati numerici e lavorare con i dati categorici.
Prima di importare i dati per l'addestramento AutoML, devi completare i seguenti passaggi:
Etichettare i dati
Ogni esempio nel set di dati ha bisogno di un'etichetta.
Pulire e formattare i dati
I dati reali tendono a essere disordinati, quindi preparati a pulirli prima di utilizzarli. Anche con AutoML devi determinare le migliori strategie per il tuo set di dati e problema specifici. Potrebbe essere necessaria un'esplorazione e potentially multiple AutoML runs prima di ottenere i risultati migliori.
Eseguire trasformazioni delle funzionalità
Alcuni strumenti AutoML gestiscono automaticamente determinate trasformazioni delle funzionalità. Tuttavia, se lo strumento che utilizzi non supporta una trasformazione di funzionalità di cui hai bisogno o non la supporta bene, potresti dover eseguire le trasformazioni in anticipo.
Sviluppo del modello (con AutoML no-code)
AutoML esegue il lavoro per te durante l'addestramento. Tuttavia, prima di iniziare la formazione, devi configurare l'esperimento. Per configurare un'esecuzione di addestramento AutoML, in genere devi specificare questi passaggi di alto livello:
Importare i dati
Per importare i dati, specifica l'origine dati. Durante il processo di importazione, lo strumento AutoML assegna un tipo di dati semantico a ogni valore di dati.
Analizzare i dati
I prodotti AutoML in genere forniscono strumenti per analizzare il set di dati prima e dopo l'addestramento. Come best practice, ti consigliamo di utilizzare questi strumenti di analisi per comprendere e verificare i dati prima di avviare un'esecuzione di AutoML.
Perfezionare i dati
Gli strumenti AutoML spesso forniscono meccanismi per aiutarti a perfezionare i dati dopo l'importazione e prima dell'addestramento. Ecco alcune attività che potresti voler completare per perfezionare i dati:
Controllo semantico: durante l'importazione, gli strumenti AutoML tentano di determinare il tipo semantico corretto per ogni funzionalità, ma si tratta solo di supposizioni. Devi controllare i tipi assegnati a tutte le funzionalità e modificarli se sono stati assegnati in modo errato.
Ad esempio, potresti avere codici postali memorizzati come numeri in una colonna del tuo database. La maggior parte dei sistemi AutoML rileverebbe i dati come numerici continui. Questo non sarebbe corretto per un codice postale e l'utente probabilmente vorrà modificare il tipo semantico in categorico anziché continuo per questa colonna di funzionalità.
Trasformazioni:alcuni strumenti consentono agli utenti di personalizzare le trasformazioni dei dati nell'ambito del processo di perfezionamento. A volte è necessario quando un set di dati contiene funzionalità potenzialmente predittive che devono essere trasformate o combinate in un modo difficile da determinare per gli strumenti AutoML senza assistenza.
Ad esempio, prendi in considerazione un set di dati sulle abitazioni che utilizzi per prevedere il prezzo di vendita di una casa. Supponiamo che esista una funzionalità che rappresenti la descrizione di una scheda di una casa chiamata
description
e che tu voglia utilizzare questi dati per creare una nuova funzionalità chiamatadescription_length
. Alcuni sistemi AutoML offrono modi per utilizzare trasformazioni personalizzate. Per questo esempio, potrebbe esserci una funzioneLENGTH
per generare una nuova funzionalità di lunghezza della descrizione come questa:LENGTH(description)
.
Configurare i parametri di esecuzione di AutoML
L'ultimo passaggio prima di eseguire l'esperimento di addestramento consiste nel scegliere alcune impostazioni di configurazione per indicare allo strumento come addestrare il modello. Sebbene ogni strumento AutoML abbia il proprio insieme unico di opzioni di configurazione, qui sono riportate alcune delle attività di configurazione significative che potresti dover completare:
- Seleziona il tipo di problema di ML che intendi risolvere. Ad esempio, stai risolvendo un problema di classificazione o regressione?
- Seleziona la colonna del set di dati che corrisponde all'etichetta.
- Seleziona l'insieme di funzionalità da utilizzare per addestrare il modello.
- Seleziona l'insieme di algoritmi di ML presi in considerazione da AutoML nella ricerca del modello.
- Seleziona la metrica di valutazione utilizzata da AutoML per scegliere il modello migliore.
Dopo aver configurato l'esperimento AutoML, puoi avviare l'esecuzione dell'addestramento. L'addestramento potrebbe richiedere un po' di tempo (nell'ordine di alcune ore).
Valuta il modello
Dopo l'addestramento, puoi esaminare i risultati utilizzando gli strumenti forniti dal tuo prodotto AutoML per:
- Valuta le funzionalità esaminando le metriche relative all'importanza delle funzionalità.
- Comprendi il tuo modello esaminando l'architettura e gli iperparametri utilizzati per crearlo.
- Valuta le prestazioni del modello di primo livello con grafici e metriche raccolti durante l'addestramento del modello di output.
Produzione
Sebbene non rientri nell'ambito di questo modulo, alcuni sistemi AutoML possono aiutarti a eseguire il test e il deployment del modello.
Riaddestra il modello
Potresti dover addestrare nuovamente il modello con nuovi dati. Questo può accadere dopo aver valutato l'esecuzione dell'addestramento AutoML o dopo che il modello è in produzione da un po' di tempo. In ogni caso, i sistemi AutoML possono essere utili anche per la ricollocazione. Non è raro rivedere i dati dopo un'esecuzione di AutoML e addestrare nuovamente il modello con un set di dati migliorato.
Passaggi successivi
Congratulazioni per aver completato questo modulo.
Ti invitiamo a esplorare i vari moduli MLCC in base ai tuoi ritmi e interessi. Se vuoi seguire un ordine consigliato, ti suggeriamo di passare al seguente modulo: Equità dell'IA.