Come fai a sapere se l'implementazione dell'ML è valsa la pena? Quando dovresti iniziare a festeggiare: subito dopo che il modello viene messo in produzione e fornisce la sua prima previsione o solo dopo che una metrica aziendale quantitativa inizia a muoversi nella giusta direzione?
Prima di iniziare un progetto, è fondamentale definire le metriche di successo e concordare i risultati finali. Devi definire e monitorare i seguenti due tipi di metriche:
Metriche aziendali. Metriche per quantificare il rendimento aziendale, ad esempio entrate, percentuale di clic o numero di utenti.
Metriche del modello. Metriche per quantificare la qualità del modello, ad esempio, errore quadratico medio, precisione o richiamo.
Metriche aziendali
Le metriche aziendali sono le più importanti. Sono il motivo per cui utilizzi ML: vuoi migliorare l'attività.
Inizia con metriche aziendali o di prodotto quantificabili. La metrica deve essere il più granulare e mirata possibile. Di seguito sono riportati alcuni esempi di metriche aziendali mirate e quantificabili:
- Ridurre i costi dell'energia elettrica mensili di un data center del 30%.
- Aumentare le entrate derivanti dai consigli sui prodotti del 12%.
- Aumentare la percentuale di clic del 9%.
- Aumentare il sentiment dei clienti dai sondaggi di attivazione del 20%.
- Aumenta il tempo sulla pagina del 4%.
Monitoraggio delle metriche aziendali
Se non monitori la metrica aziendale che vuoi migliorare, inizia implementando l'infrastruttura per farlo. Impostare un obiettivo per aumentare la percentuale di clic del 15% non è logico se al momento non misuri le percentuali di clic.
Ancora più importante, assicurati di misurare la metrica giusta per il tuo problema. Ad esempio, non perdere tempo a scrivere la strumentazione per monitorare i tassi di clickthrough se la metrica più importante potrebbe essere il fatturato generato dai consigli.
Man mano che il progetto procede, ti renderai conto se la metrica di successo target è effettivamente un target realistico. In alcuni casi, potresti determinare che il progetto non è fattibile in base alle metriche di successo definite.
Metriche del modello
Quando devi mettere in produzione il modello? Quando l'AUC raggiunge un determinato valore? Quando il modello raggiunge un determinato punteggio F1? La risposta a questa domanda dipende dal tipo di problema che stai risolvendo e dalla qualità della previsione che ritieni necessaria per migliorare la metrica aziendale.
Quando determini le metriche in base alle quali valutare il modello, tieni conto di quanto segue:
Determina una singola metrica da ottimizzare. Ad esempio, i modelli di classificazione possono essere valutati in base a una serie di metriche (AUC, AUC-PR, ecc.). Scegliere il modello migliore può essere difficile quando metriche diverse favoriscono modelli diversi. Pertanto, concorda una singola metrica per valutare i modelli.
Determinare gli obiettivi di accettabilità da raggiungere. Gli obiettivi di accettabilità sono diversi dalle metriche di valutazione del modello. Si riferiscono agli obiettivi che un modello deve soddisfare per essere considerato accettabile per un caso d'uso previsto. Ad esempio, un obiettivo di accettabilità potrebbe essere "l'output errato è inferiore allo 0,1%" o "il richiamo per le prime cinque categorie è superiore al 97%".
Ad esempio, supponiamo che un modello di classificazione binaria rilevi transazioni fraudolente. La metrica di ottimizzazione potrebbe essere il richiamo, mentre l'obiettivo di accettabilità potrebbe essere la precisione. In altre parole, daremo la priorità al richiamo (identificare correttamente la frode la maggior parte delle volte) e vogliamo che la precisione rimanga a un valore particolare o superiore (identificare le transazioni fraudolente reali).
Connessione tra le metriche del modello e le metriche aziendali
Fondamentalmente, stai cercando di sviluppare un modello la cui qualità di previsione sia collegata in modo causale alla metrica della tua attività. Ottime metriche del modello non implicano necessariamente un miglioramento delle metriche aziendali. Il tuo team potrebbe sviluppare un modello con metriche impressionanti, ma le previsioni del modello potrebbero non migliorare la metrica aziendale.
Quando ritieni che la qualità della previsione del modello sia soddisfacente, prova a determinare in che modo le metriche del modello influiscono sulla metrica aziendale. In genere, i team eseguono il deployment del modello per l'1% degli utenti e poi monitorano la metrica aziendale.
Ad esempio, supponiamo che il tuo team sviluppi un modello per aumentare le entrate prevedendo l'abbandono dei clienti. In teoria, se riesci a prevedere se un cliente probabilmente abbandonerà la piattaforma, puoi incoraggiarlo a rimanere.
Il tuo team crea un modello con una qualità di previsione del 95% e lo testa su un piccolo campione di utenti. Tuttavia, le entrate non aumentano. Il tasso di abbandono dei clienti aumenta. Ecco alcune possibili spiegazioni:
Le previsioni non si verificano abbastanza presto per essere utilizzabili. Il modello può prevedere l'abbandono dei clienti solo entro un periodo di sette giorni, che non è sufficiente per offrire incentivi per mantenerli sulla piattaforma.
Funzionalità incomplete. Forse altri fattori contribuiscono all'abbandono dei clienti che non erano presenti nel set di dati di addestramento.
La soglia non è abbastanza alta. Il modello potrebbe dover avere una qualità di previsione pari o superiore al 97% per essere utile.
Questo semplice esempio evidenzia i due punti:
- È importante eseguire test sugli utenti in fase iniziale per dimostrare (e comprendere) la connessione tra le metriche del modello e quelle aziendali.
- Metriche del modello ottimali non garantiscono un miglioramento delle metriche aziendali.
AI generativa
La valutazione dell'output dell'AI generativa presenta sfide uniche. In molti casi, come l'output creativo o open-ended, è più difficile rispetto alla valutazione degli output ML tradizionali.
I LLM possono essere misurati e valutati in base a una serie di metriche. La scelta delle metriche in base alle quali valutare il modello dipende dal caso d'uso.
Aspetti da considerare
Non confondere il successo del modello con il successo dell'attività. In altre parole, un modello con metriche eccezionali non garantisce il successo dell'attività.
Molti ingegneri esperti possono creare modelli con metriche impressionanti. L'addestramento di un modello sufficientemente buono in genere non è il problema. ma che il modello non migliora la metrica aziendale. Un progetto ML può essere destinato al fallimento a causa di un disallineamento tra le metriche aziendali e le metriche del modello.