Sistemi di ML di produzione: domande da porsi

Questa lezione si concentra sulle domande che dovresti porti sui tuoi dati e sul tuo modello nei sistemi di produzione.

Ogni funzionalità è utile?

Devi monitorare continuamente il modello per rimuovere le funzionalità che contribuiscono poco o nulla alla capacità predittiva del modello. Se i dati di input per la funzionalità cambiano improvvisamente, anche il comportamento del modello potrebbe cambiare improvvisamente in modi indesiderati.

Prendi in considerazione anche la seguente domanda correlata:

  • L'utilità della funzionalità giustifica il costo di inclusione?

È sempre allettante aggiungere altre funzionalità al modello. Ad esempio, supponiamo che tu trovi una nuova funzionalità la cui aggiunta migliori leggermente le previsioni del tuo modello. Le previsioni leggermente migliori sembrano certamente migliori di quelle leggermente peggiori, ma la funzionalità aggiuntiva aumenta il carico di manutenzione.

L'origine dati è affidabile?

Alcune domande da porre sull'affidabilità dei dati inseriti:

  • L'indicatore sarà sempre disponibile o proviene da una fonte non attendibile? Ad esempio:
    • Il segnale proviene da un server che si arresta in modo anomalo sotto un carico elevato?
    • Il segnale proviene da persone che vanno in vacanza ogni agosto?
  • Il sistema che calcola i dati di input del modello cambia mai? In questo caso:
    • Con che frequenza?
    • Come farai a sapere quando il sistema cambia?

Valuta la possibilità di creare una tua copia dei dati che ricevi dal processo precedente. Passa alla versione successiva dei dati di upstream solo quando hai la certezza che sia sicuro farlo.

Il tuo modello fa parte di un ciclo di feedback?

A volte un modello può influire sui propri dati di addestramento. Ad esempio, i risultati di alcuni modelli diventano a loro volta (direttamente o indirettamente) funzionalità di input per lo stesso modello.

A volte un modello può influire su un altro modello. Ad esempio, considera due modelli per la previsione dei prezzi delle azioni:

  • Modello A, che è un modello predittivo scadente.
  • Modello B.

Poiché il modello A presenta dei bug, decide erroneamente di acquistare azioni di Stock X. Questi acquisti fanno aumentare il prezzo dell'azione X. Il modello B utilizza il prezzo della risorsa X come caratteristica di input, pertanto può trarre alcune conclusioni sbagliate sul valore della risorsa X. Il modello B potrebbe quindi acquistare o vendere azioni di Azione X in base al comportamento con bug del modello A. Il comportamento del modello B, a sua volta, può influire sul modello A, eventualmente attivando una tulip mania o un calo delle azioni della società X.

Esercizio: verifica di aver compreso

Quali tre dei seguenti modelli sono soggetti a un loop di feedback?
Un modello di ranking delle università che valuta gli istituti in parte in base alla loro selezionatività, ovvero la percentuale di studenti che hanno presentato domanda e sono stati ammessi.
Un modello di valore degli immobili che prevede i prezzi delle case utilizzando come caratteristiche le dimensioni (area in metri quadrati), il numero di camere da letto e la posizione geografica.
Un modello di attributi del viso che rileva se una persona sorride in una foto. Il modello viene addestrato regolarmente su un database di fotografia stock aggiornato automaticamente ogni mese.
Un modello di consigli sui libri che suggerisce romanzi che potrebbero piacere ai suoi utenti in base alla loro popolarità (ovvero al numero di volte in cui i libri sono stati acquistati).
Un modello di previsione del traffico che prevede le ingorghi alle uscite dell'autostrada vicino alla spiaggia, utilizzando il numero di persone sulla spiaggia come una delle sue funzionalità.
Un modello dei risultati elettorali che prevede il vincitore di una competizione per la carica di sindaco dopo aver intervistato il 2% degli elettori al termine delle votazioni.