Questa lezione si concentra sulle domande che dovresti porre in merito ai tuoi dati
e il modello nei sistemi di produzione.
Ogni funzionalità è utile?
Devi monitorare continuamente il modello per rimuovere le caratteristiche che contribuiscono
poco o nulla alla capacità predittiva del modello. Se i dati di input per
che cambiano bruscamente le caratteristiche, il comportamento del modello potrebbe anche
cambiamento in modi indesiderati.
Considera anche la seguente domanda correlata:
- L'utilità della funzionalità giustifica il costo della sua inclusione?
Si ha sempre la tentazione di aggiungere altre caratteristiche al modello. Ad esempio:
supponi di trovare una nuova caratteristica la cui aggiunta genera le previsioni del modello
leggermente migliore. Previsioni leggermente migliori sembrano sicuramente migliori di
previsioni leggermente peggiori; ma la funzionalità aggiuntiva si aggiunge
per la manutenzione.
L'origine dati è affidabile?
Ecco alcune domande da porsi sull'affidabilità dei dati di input:
- L'indicatore sarà sempre disponibile o proviene da un
una fonte inaffidabile? Ad esempio:
- Il segnale proviene da un server che si arresta in modo anomalo sotto carico elevato?
- Il segnale proviene da esseri umani che vanno in vacanza ogni agosto?
- Il sistema che calcola i dati di input del modello cambia mai? Se sì:
- Con quale frequenza?
- Come fai a sapere quando cambia quel sistema?
Considera l'idea di creare una tua copia dei dati che ricevi
processo upstream. Quindi, passa solo alla versione successiva dell'upstream
quando hai la certezza che sia sicuro farlo.
Il tuo modello fa parte di un feedback loop?
A volte un modello può influire sui suoi dati di addestramento. Ad esempio,
i risultati di alcuni modelli, a loro volta, diventano (direttamente o indirettamente) input
caratteristiche allo stesso modello.
A volte un modello può influire su un altro modello. Ad esempio, considera due
per prevedere i prezzi delle azioni:
- Il modello A, che è un modello predittivo errato.
- Modello B.
Poiché il Modello A presenta dei bug, decide erroneamente di acquistare azioni disponibili nell'Azione X.
Questi acquisti fanno aumentare il prezzo del titolo X. Il modello B utilizza il prezzo
del titolo X come caratteristica di input, quindi il Modello B può giungere a qualche
Conclusioni sul valore dell'azione X. Di conseguenza, il modello B potrebbe
acquistare o vendere azioni del Titolo X in base al comportamento bug del Modello A.
Il comportamento del Modello B, a sua volta, può influenzare il Modello A, attivando potenzialmente una
tulip mania o una scivolata
Azioni della società X.
Allenamento: verifica le tue conoscenze
Quali tre dei seguenti modelli sono vulnerabili a
un ciclo di feedback?
Un modello di previsione del traffico che prevede la congestione alle uscite autostradali
vicino alla spiaggia, considerando l'affollamento della spiaggia come una delle sue caratteristiche.
Alcuni bagnanti probabilmente baseranno i loro piani sul traffico
previsione. Se la spiaggia è molto affollata e si prevede un traffico
pesante, molte persone potrebbero fare piani alternativi. Potrebbe essere deprimente
di traffico, con conseguente riduzione del traffico, che a sua volta potrebbe
aumenta la partecipazione e il ciclo si ripete.
Un modello di consigli di libri che suggerisce romanzi che potrebbero piacere agli utenti
in base alla loro popolarità (ovvero, il numero di volte in cui i libri sono stati
acquistato).
È probabile che i consigli sui libri incentivano gli acquisti e questi
le vendite aggiuntive vengono reinserite nel modello come input,
aumentando le probabilità di consigliare questi stessi libri nel
per il futuro.
un modello di ordinamento universitario che valuta le scuole in parte in base al proprio
selettività: la percentuale di studenti che hanno presentato domanda che hanno
ammessi.
I ranking del modello possono attirare ulteriore interesse verso i posizionamenti più votati
scuole, aumentando il numero di domande che ricevono. Se questi
le scuole continuano ad ammettere lo stesso numero di studenti, la selettività
aumenta (la percentuale di studenti ammessi diminuirà). Questo
darà impulso a queste scuole ranking, che aumenteranno ulteriormente
gli interessi dei potenziali studenti e così via...
Un modello dei risultati elettorali che prevede il vincitore di un
al sindaco intervistando il 2% degli elettori alla chiusura dei seggi.
Se il modello non pubblica la sua previsione fino a quando i sondaggi non sono stati
chiuso, le sue previsioni non possono incidere sugli elettori
comportamento degli utenti.
Un modello di valore immobiliare che prevede i prezzi delle abitazioni, utilizzando
dimensioni (area in metri quadrati), numero di camere da letto e posizione geografica
come caratteristiche.
Non è possibile cambiare rapidamente la posizione di una casa,
dimensioni o numero di camere da letto in risposta alle previsioni dei prezzi,
rendendo improbabile un ciclo di feedback. Tuttavia, c'è potenzialmente
una correlazione tra le dimensioni e il numero di camere da letto (abitazioni più grandi
avranno più stanze) che potrebbero dover essere separate.
Un modello degli attributi dei volti che rileva se una persona sta sorridendo
in una foto, che viene regolarmente addestrata su un database di foto di stock
che viene aggiornato automaticamente ogni mese.
Non c'è alcun feedback loop, perché le previsioni del modello non contengono
un impatto sul database delle foto. Tuttavia, il controllo delle versioni
preoccupano i dati, in quanto questi aggiornamenti mensili potrebbero
si verificano effetti imprevisti sul modello.