Panoramica delle pipeline ML

Complimenti! Il modello è pronto per il deployment in una pipeline di produzione ML. Questa sezione del corso introduce le linee guida per i test per le pipeline ML. Tuttavia, questa sezione non mostra queste linee guida perché tale demo non è possibile in un ambiente sandbox.

Scoprirai:

  • Scrivere test appropriati per il lancio e la produzione.
  • Rilevamento delle modalità di errore nella pipeline ML tramite test.
  • Valutare la qualità del modello in produzione.

Che cos'è una pipeline ML?

Una pipeline ML è composta da diversi componenti, come mostra il diagramma. Acquisiremo familiarità con questi componenti in seguito. Per ora, noterai che il "modello" (la casella nera) è una piccola parte dell'infrastruttura della pipeline necessaria per il machine learning di produzione.

Uno schema di una tipica pipeline di machine learning. Lo schema mostra diverse caselle, una per ogni componente della pipeline. La casella con l'etichetta "model" è al centro dello schema. Le altre confezioni sono disposte attorno alla scatola "model". Le caselle sono etichettate: raccolta dati, verifica dei dati, gestione delle risorse delle macchine, infrastruttura di gestione, estrazione delle funzionalità, strumenti di analisi, strumenti di gestione dei processi, configurazione e monitoraggio.
Figura 1: schema di una tipica pipeline di machine learning.

Ruolo di test nelle pipeline ML

Nello sviluppo di software, il flusso di lavoro ideale segue lo sviluppo basato su test (TDD). Tuttavia, nel machine learning, iniziare con i test non è semplice. I test dipendono dai dati, dal modello e dal problema. Ad esempio, prima di addestrare il modello, non puoi scrivere un test per convalidare la perdita. Puoi invece scoprire la perdita raggiungibile durante lo sviluppo del modello e poi testare nuove versioni del modello rispetto alla perdita raggiungibile.

Sono necessari test per:

  • Convalida dei dati di input.
  • Convalida delle funzionalità di engineering.
  • Convalida della qualità delle nuove versioni del modello.
  • Convalida dell'infrastruttura di gestione.
  • Test dell'integrazione tra componenti della pipeline.