Come fai a sapere se l'implementazione del machine learning è valsa la pena? Quando conviene iniziare a festeggiare: subito dopo che il modello è entrato in produzione e ha registrato la sua prima previsione o solo dopo che una metrica aziendale quantitativa inizia a muoversi nella giusta direzione?
Prima di iniziare un progetto, è fondamentale definire le metriche di successo e concordare i risultati finali. Dovrai definire e monitorare i due tipi di metriche seguenti:
Metriche aziendali. Metriche per quantificare le prestazioni aziendali, ad esempio entrate, percentuale di clic o numero di utenti.
Metriche del modello. Metriche per quantificare la qualità del modello, ad esempio Root Mean Squared Error, precisione o richiamo.
Metriche aziendali
Le metriche aziendali sono le più importanti. È per questo che usi il ML: vuoi migliorare il business.
Inizia con metriche quantificabili sul prodotto o sull'attività. La metrica deve essere il più dettagliata e mirata possibile. Di seguito sono riportati alcuni esempi di metriche aziendali focalizzate e quantificabili:
- Riduci i costi elettrici mensili di un data center del 30%.
- Aumenta del 12% le entrate provenienti dai suggerimenti sui prodotti.
- Aumentare la percentuale di clic del 9%.
- Aumenta del 20% il sentiment dei clienti provenienti dai sondaggi ad attivazione
- Aumenta il tempo sulla pagina del 4%.
Monitoraggio delle metriche aziendali
Se non stai monitorando la metrica aziendale che vuoi migliorare, inizia implementando l'infrastruttura per farlo. Non è logico impostare un obiettivo per aumentare la percentuale di clic del 15% se al momento non stai misurando le percentuali di clic.
Ancora più importante, assicurati di misurare la metrica giusta per il tuo problema. Ad esempio, non perdere tempo a scrivere la strumentazione per monitorare le percentuali di clic se la metrica più importante potrebbero essere le entrate generate dai suggerimenti.
Man mano che il progetto progredisce, ti renderai conto se la metrica di successo target è in realtà un target realistico. In alcuni casi, potresti determinare che il progetto non è utilizzabile in base alle metriche di successo definite.
Metriche del modello
Quando dovresti mettere il modello in produzione? Quando il valore della metrica AUC raggiunge un determinato valore? Quando il modello raggiunge un determinato punteggio F1? La risposta a questa domanda dipende dal tipo di problema da risolvere e dalla qualità della previsione che ritieni necessaria per migliorare la metrica aziendale.
Nel determinare le metriche in base a cui valutare il tuo modello, tieni presente quanto segue:
Determina una singola metrica da ottimizzare. Ad esempio, i modelli di classificazione possono essere valutati in base a una serie di metriche (AUC, AUC-PR e così via). Scegliere il modello migliore può essere difficile quando metriche diverse favoriscono modelli diversi. Trovate accordo su un'unica metrica in base a cui valutare i modelli.
Stabilisci gli obiettivi di accettabilità da raggiungere. Gli obiettivi di accettabilità sono diversi dalle metriche di valutazione del modello. Fanno riferimento agli obiettivi che un modello deve raggiungere per essere considerati accettabili per il caso d'uso previsto. Ad esempio, un obiettivo di accettabilità potrebbe essere "l'output errato è inferiore allo 0,1%" o "il richiamo per le prime cinque categorie è maggiore del 97%".
Ad esempio, supponiamo che un modello di classificazione binario rilevi le transazioni fraudolente. La metrica di ottimizzazione potrebbe essere richiamo, mentre l'accettabilità potrebbe essere precisa. In altre parole, daremo la priorità al richiamo (identificando correttamente la maggior parte delle volte le frodi), cercando al contempo che la precisione rimanga entro un determinato valore o al di sopra di un determinato valore (identificando le effettive transazioni fraudolente).
Connessione tra le metriche del modello e le metriche aziendali
Essenzialmente, stai cercando di sviluppare un modello la cui qualità della previsione è causata da questa metrica aziendale. Ottime metriche dei modelli non implicano necessariamente il miglioramento delle metriche aziendali. Il tuo team potrebbe sviluppare un modello con metriche impressionanti, ma le previsioni del modello potrebbero non riuscire a migliorare la metrica aziendale.
Quando la qualità della previsione del modello ti soddisfa, prova a determinare in che modo le metriche del modello influiscono sulla metrica aziendale. In genere i team eseguono il deployment del modello nell'1% degli utenti e poi monitorano la metrica aziendale.
Ad esempio, supponiamo che il tuo team sviluppi un modello per aumentare le entrate prevedendo il tasso di abbandono dei clienti. In teoria, se riesci a prevedere le probabilità che un cliente abbandoni la piattaforma o meno, puoi incoraggiarlo a rimanere.
Il tuo team crea un modello con una qualità di previsione del 95% e lo testa su un piccolo campione di utenti. Tuttavia, le entrate non aumentano. Il tasso di abbandono dei clienti aumenta. Di seguito sono riportate alcune possibili spiegazioni:
Le previsioni non vengono fornite con largo anticipo per poter essere utilizzate. Il modello è in grado di prevedere solo il tasso di abbandono dei clienti in un periodo di sette giorni, cosa che non è sufficiente per offrire incentivi per mantenere i clienti sulla piattaforma.
Funzionalità incomplete. Forse ci sono altri fattori che non sono inclusi nel set di dati di addestramento per aumentare il tasso di abbandono dei clienti.
La soglia non è sufficientemente elevata. Affinché possa essere utile, il modello deve avere una qualità di previsione pari o superiore al 97%.
Questo semplice esempio mette in evidenza i due punti:
- È importante eseguire primi test sugli utenti per dimostrare (e comprendere) la connessione tra le metriche del modello e le metriche aziendali.
- Ottime metriche dei modelli non garantiscono il miglioramento delle metriche aziendali.
IA generativa
Valutare l'output dell'IA generativa presenta sfide uniche. In molti casi, ad esempio in risposta a domande aperte o con creatività, è più difficile che valutare i tradizionali output di ML.
gli LLM possono essere misurati e valutati in base a una serie di metriche. La determinazione delle metriche in base a cui valutare il modello dipende dal caso d'uso. Per ulteriori informazioni, consulta Introduzione alla valutazione degli LLM.
Aspetti da considerare
Non confondere il successo del modello con il successo aziendale. In altre parole, un modello con metriche in evidenza non garantisce il successo dell'attività.
Molti ingegneri qualificati sono in grado di creare modelli con metriche impressionanti. L'addestramento di un modello sufficientemente valido in genere non è il problema. Piuttosto, il modello non migliora la metrica aziendale. Un progetto ML può essere destinato a fallire a causa di un disallineamento tra le metriche aziendali e quelle del modello.