Il modulo precedente ha introdotto il partizionamento di un set di dati in un set di addestramento e in un set di test. Questo partizionamento ha permesso di addestrare un insieme di esempi e quindi di testare il modello rispetto a un altro insieme di esempi. Con due partizioni, il flusso di lavoro potrebbe essere:
Figura 1. Un flusso di lavoro possibile?
Nella figura, "Modifica modello" significa modificare qualsiasi aspetto del modello che puoi immaginare, dalla modifica del tasso di apprendimento, all'aggiunta o rimozione di caratteristiche, alla progettazione di un modello completamente nuovo da zero. Al termine di questo flusso di lavoro, scegli il modello con il miglior rendimento nel set di test.
Suddividere il set di dati in due insiemi è una buona idea, ma non una panacea. Puoi ridurre notevolmente le probabilità di overfitting partizionando il set di dati nei tre sottoinsiemi mostrati nella figura seguente:
Figura 2. Suddividere un singolo set di dati in tre sottoinsiemi.
Utilizza il set di convalida per valutare i risultati del set di addestramento. Quindi, utilizza il set di test per verificare la valutazione dopo che il modello ha "superato" il set di convalida. La figura seguente mostra questo nuovo flusso di lavoro:
Figura 3. Un flusso di lavoro migliore.
In questo flusso di lavoro migliorato:
- Scegli il modello con il miglior rendimento nel set di convalida.
- Verifica il modello rispetto al set di test.
Si tratta di un flusso di lavoro migliore perché crea meno esposizioni per il set di test.