AutoML: iniziare

Se stai pensando di utilizzare AutoML, potresti avere domande su come funziona e i passaggi da seguire per iniziare. Questa sezione approfondisce nei pattern AutoML comuni, esplora il funzionamento di AutoML ed esamina i passaggi che potresti dover seguire prima di iniziare a utilizzare AutoML per il tuo progetto.

Strumenti AutoML

Gli strumenti AutoML rientrano in due categorie principali:

  • Gli strumenti che non richiedono programmazione generalmente sono sotto forma di applicazioni web. che ti consentono di configurare ed eseguire esperimenti tramite un'interfaccia utente per trovare il modello migliore per i tuoi dati senza scrivere alcun codice.
  • Gli strumenti API e interfaccia a riga di comando offrono funzionalità di automazione avanzate, ma richiedono molto di più (a volte di più) esperienza di programmazione e ML.

Gli strumenti AutoML che richiedono la programmazione possono essere più potenti e flessibili strumenti no-code, ma possono anche essere più difficili da usare. Questo modulo è incentrato sulle opzioni no-code per lo sviluppo del modello, ma tieni presente che API e interfaccia a riga di comando possono essere utili se hai bisogno di un'automazione personalizzata.

Flusso di lavoro AutoML

Esaminiamo un tipico flusso di lavoro ML e vediamo come funzionano quando usi con AutoML I passaggi di alto livello nel flusso di lavoro sono gli stessi di quelli che utilizzi per addestramento personalizzato; la differenza principale è che AutoML gestisce alcune attività per te.

Definizione del problema

Il primo passaggio di qualsiasi flusso di lavoro ML consiste nel definire il problema. Quando utilizzi AutoML, assicurati che lo strumento che scegli possa supportare gli obiettivi del tuo progetto ML. La maggior parte degli strumenti AutoML supporta algoritmi di machine learning e tipi di dati di input.

Per ulteriori informazioni sull'inquadratura dei problemi, dai un'occhiata al modulo Introduzione all'inquadratura dei problemi di machine learning.

Raccolta dati

Prima di poter iniziare a utilizzare uno strumento AutoML, devi raccogliere i dati in un'unica origine dati. Controlla la documentazione del prodotto per assicurarti che lo strumento supporta: origine dati, tipi di dati nel set di dati, dimensioni del set di dati.

Preparazione dei dati

La preparazione dei dati è un'area in cui gli strumenti AutoML possono aiutarti, ma non strumento può eseguire tutte le operazioni automaticamente, quindi è consigliabile eseguire alcune operazioni prima importare i dati nello strumento. La preparazione dei dati per AutoML è simile a cosa devi fare per addestrare un modello manualmente. Per saperne di più su come preparare i dati per l'addestramento, dai un'occhiata al corso .

Per ulteriori informazioni sulla preparazione dei dati, consulta lavorare con i dati numerici e lavorare con dati categorici moduli.

Prima di importare i dati per l'addestramento con AutoML, devi completare questi passaggi:

  • Etichettare i dati

    Ogni esempio nel set di dati richiede un'etichetta.

  • Pulisci e formatta i dati

    Poiché i dati reali tendono a essere disorganizzati, è bene pulirli prima di utilizzarli li annotino. Anche con AutoML devi determinare i trattamenti migliori per il tuo un set di dati e un problema specifici. Potrebbero essere necessarie alcune esplorazioni potenzialmente più esecuzioni AutoML prima di ottenere i risultati migliori.

  • Eseguire trasformazioni delle caratteristiche

    Alcuni strumenti AutoML gestiscono automaticamente determinate trasformazioni delle funzionalità. Ma se lo strumento che stai utilizzando non supporta una trasformazione delle caratteristiche di cui hai bisogno o non lo supporta bene, potresti dover eseguire le trasformazioni del tempo.

Sviluppo di modelli (con AutoML senza codice)

AutoML lavora per te durante l'addestramento. Tuttavia, prima di iniziare devi configurare l'esperimento. Per configurare un addestramento AutoML devi specificare questi passaggi di alto livello:

  1. Importare i dati

    Per importare i dati, specifica l'origine dati. Durante l'importazione lo strumento AutoML assegna un tipo di dati semantici a ciascun valore dati.

  2. Analizzare i dati

    I prodotti AutoML di solito forniscono strumenti per analizzare il set di dati prima e dopo l'addestramento. Come best practice, ti consigliamo di usare questi strumenti di analisi per comprendere e verificare i dati prima di iniziare un'esecuzione AutoML.

  3. Perfezionare i dati

    Gli strumenti AutoML spesso forniscono meccanismi per aiutarti a perfezionare i dati dopo l'importazione e prima dell'addestramento. Ecco alcune attività che ti consigliamo di completare per perfezionare i dati:

    • Controllo semantico: durante l'importazione, gli strumenti AutoML tentano di determinare tipo semantico corretto per ogni caratteristica, ma queste sono solo ipotesi. Devi controllare i tipi designati per tutte le funzionalità e modificarli se assegnati in modo errato.

      Ad esempio, potresti avere codici postali memorizzati come numeri in una colonna in del database. La maggior parte dei sistemi AutoML rileverebbe i dati come continui come dati numerici. Questo dato sarebbe errato per un codice postale e l'utente probabilmente vorrai cambiare il tipo semantico in categorico rispetto a continuo per questa colonna delle caratteristiche.

    • Trasformazioni:alcuni strumenti consentono agli utenti di personalizzare i dati. trasformazioni nell'ambito del processo di perfezionamento. A volte necessaria quando un set di dati ha caratteristiche potenzialmente predittive che devono trasformare o combinare in un modo difficile per gli strumenti AutoML da determinare senza aiuto.

      Ad esempio, considera un set di dati relativo agli alloggi che utilizzi per prevedere il prezzo di vendita di una casa. Supponiamo che una caratteristica che rappresenta di una casa chiamata description e dovresti usare questi dati per creare una nuova caratteristica chiamata description_length. Alcuni sistemi AutoML offrono modalità di utilizzo e piccole trasformazioni. Per questo esempio, potrebbe essere presente una funzione LENGTH per generare una nuova caratteristica di lunghezza della descrizione come questa: LENGTH(description).

  4. Configurare i parametri di esecuzione di AutoML

    L'ultimo passaggio prima di eseguire l'esperimento di addestramento è la scelta impostazioni di configurazione per indicare allo strumento come vuoi che addestra il modello. Sebbene ogni strumento AutoML abbia il proprio insieme univoco di opzioni di configurazione, Ecco alcune delle importanti attività di configurazione completato:

    • Seleziona il tipo di problema ML che prevedi di risolvere. Ad esempio, risolvere un problema di classificazione o regressione?
    • Seleziona quale colonna del set di dati corrisponde all'etichetta.
    • Seleziona l'insieme di caratteristiche da utilizzare per addestrare il modello.
    • Seleziona il set di algoritmi ML che AutoML prende in considerazione nella ricerca dei modelli.
    • Seleziona la metrica di valutazione utilizzata da AutoML per scegliere il modello migliore.

Dopo aver configurato l'esperimento AutoML, puoi iniziare l'addestramento vengono eseguiti tutti i test delle unità. Il completamento dell'addestramento potrebbe richiedere un po' di tempo (nell'ordine delle ore).

Valuta il modello

Dopo l'addestramento, puoi esaminare i risultati utilizzando gli strumenti fornito per aiutarti a:

  • Valuta le tue caratteristiche esaminando le metriche relative all'importanza delle caratteristiche.
  • Comprendi il tuo modello esaminando l'architettura e gli iperparametri utilizzati per realizzarla.
  • Valuta le prestazioni del modello di primo livello con grafici e metriche raccolti durante per il modello di output.

Produzione

Sebbene non rientri nell'ambito di questo modulo, alcuni sistemi AutoML possono aiutarti per testare ed eseguire il deployment del modello.

Reimposta modello

Potresti dover riaddestrare il modello con nuovi dati. Questo potrebbe accadere dopo che valuta l'esecuzione dell'addestramento con AutoML o dopo che il modello è in produzione per nel tempo. In ogni caso, anche i sistemi AutoML possono aiutare con il riaddestramento. Non è è raro esaminare di nuovo i dati dopo un'esecuzione AutoML e riaddestrarli con un set di dati migliorato.

Passaggi successivi

Congratulazioni per aver completato il modulo.

Ti invitiamo a esplorare i vari moduli MLCC secondo i tuoi interessi e i tuoi tempi. Se vuoi seguire un ordine consigliato: ti consigliamo di passare al modulo seguente: Equità dell'ML.