Sistemi di ML di produzione: domande da porsi

Questa lezione si concentra sulle domande che dovresti porre in merito ai tuoi dati e il modello nei sistemi di produzione.

Ogni funzionalità è utile?

Devi monitorare continuamente il modello per rimuovere le caratteristiche che contribuiscono poco o nulla alla capacità predittiva del modello. Se i dati di input per che cambiano bruscamente le caratteristiche, il comportamento del modello potrebbe anche cambiamento in modi indesiderati.

Considera anche la seguente domanda correlata:

  • L'utilità della funzionalità giustifica il costo della sua inclusione?

Si ha sempre la tentazione di aggiungere altre caratteristiche al modello. Ad esempio: supponi di trovare una nuova caratteristica la cui aggiunta genera le previsioni del modello leggermente migliore. Previsioni leggermente migliori sembrano sicuramente migliori di previsioni leggermente peggiori; ma la funzionalità aggiuntiva si aggiunge per la manutenzione.

L'origine dati è affidabile?

Ecco alcune domande da porsi sull'affidabilità dei dati di input:

  • L'indicatore sarà sempre disponibile o proviene da un una fonte inaffidabile? Ad esempio:
    • Il segnale proviene da un server che si arresta in modo anomalo sotto carico elevato?
    • Il segnale proviene da esseri umani che vanno in vacanza ogni agosto?
  • Il sistema che calcola i dati di input del modello cambia mai? Se sì:
    • Con quale frequenza?
    • Come fai a sapere quando cambia quel sistema?

Considera l'idea di creare una tua copia dei dati che ricevi processo upstream. Quindi, passa solo alla versione successiva dell'upstream quando hai la certezza che sia sicuro farlo.

Il tuo modello fa parte di un feedback loop?

A volte un modello può influire sui suoi dati di addestramento. Ad esempio, i risultati di alcuni modelli, a loro volta, diventano (direttamente o indirettamente) input caratteristiche allo stesso modello.

A volte un modello può influire su un altro modello. Ad esempio, considera due per prevedere i prezzi delle azioni:

  • Il modello A, che è un modello predittivo errato.
  • Modello B.

Poiché il Modello A presenta dei bug, decide erroneamente di acquistare azioni disponibili nell'Azione X. Questi acquisti fanno aumentare il prezzo del titolo X. Il modello B utilizza il prezzo del titolo X come caratteristica di input, quindi il Modello B può giungere a qualche Conclusioni sul valore dell'azione X. Di conseguenza, il modello B potrebbe acquistare o vendere azioni del Titolo X in base al comportamento bug del Modello A. Il comportamento del Modello B, a sua volta, può influenzare il Modello A, attivando potenzialmente una tulip mania o una scivolata Azioni della società X.

Allenamento: verifica le tue conoscenze

Quali tre dei seguenti modelli sono vulnerabili a un ciclo di feedback?
Un modello di previsione del traffico che prevede la congestione alle uscite autostradali vicino alla spiaggia, considerando l'affollamento della spiaggia come una delle sue caratteristiche.
Alcuni bagnanti probabilmente baseranno i loro piani sul traffico previsione. Se la spiaggia è molto affollata e si prevede un traffico pesante, molte persone potrebbero fare piani alternativi. Potrebbe essere deprimente di traffico, con conseguente riduzione del traffico, che a sua volta potrebbe aumenta la partecipazione e il ciclo si ripete.
Un modello di consigli di libri che suggerisce romanzi che potrebbero piacere agli utenti in base alla loro popolarità (ovvero, il numero di volte in cui i libri sono stati acquistato).
È probabile che i consigli sui libri incentivano gli acquisti e questi le vendite aggiuntive vengono reinserite nel modello come input, aumentando le probabilità di consigliare questi stessi libri nel per il futuro.
un modello di ordinamento universitario che valuta le scuole in parte in base al proprio selettività: la percentuale di studenti che hanno presentato domanda che hanno ammessi.
I ranking del modello possono attirare ulteriore interesse verso i posizionamenti più votati scuole, aumentando il numero di domande che ricevono. Se questi le scuole continuano ad ammettere lo stesso numero di studenti, la selettività aumenta (la percentuale di studenti ammessi diminuirà). Questo darà impulso a queste scuole ranking, che aumenteranno ulteriormente gli interessi dei potenziali studenti e così via...
Un modello dei risultati elettorali che prevede il vincitore di un al sindaco intervistando il 2% degli elettori alla chiusura dei seggi.
Se il modello non pubblica la sua previsione fino a quando i sondaggi non sono stati chiuso, le sue previsioni non possono incidere sugli elettori comportamento degli utenti.
Un modello di valore immobiliare che prevede i prezzi delle abitazioni, utilizzando dimensioni (area in metri quadrati), numero di camere da letto e posizione geografica come caratteristiche.
Non è possibile cambiare rapidamente la posizione di una casa, dimensioni o numero di camere da letto in risposta alle previsioni dei prezzi, rendendo improbabile un ciclo di feedback. Tuttavia, c'è potenzialmente una correlazione tra le dimensioni e il numero di camere da letto (abitazioni più grandi avranno più stanze) che potrebbero dover essere separate.
Un modello degli attributi dei volti che rileva se una persona sta sorridendo in una foto, che viene regolarmente addestrata su un database di foto di stock che viene aggiornato automaticamente ogni mese.
Non c'è alcun feedback loop, perché le previsioni del modello non contengono un impatto sul database delle foto. Tuttavia, il controllo delle versioni preoccupano i dati, in quanto questi aggiornamenti mensili potrebbero si verificano effetti imprevisti sul modello.