In questa lezione imparerai a eseguire il debug di un problema ML reale* relativo alla letteratura del XVIII secolo.
Esempio di mondo reale: letteratura del XVIII secolo
Esempio di mondo reale: letteratura del XVIII secolo
- Professore di letteratura del 18° secolo voleva prevedere l'affiliazione politica degli autori in base solo alle "metafore mentali"; autore utilizzato.
Esempio di mondo reale: letteratura del XVIII secolo
- Professore di letteratura del 18° secolo voleva prevedere l'affiliazione politica degli autori in base solo alle "metafore mentali"; autore utilizzato.
- Un team di ricercatori ha creato un grande set di dati etichettato con molti autori, opere, frase per frase, e suddiviso in set di test/convalida/test.
Esempio di mondo reale: letteratura del XVIII secolo
- Professore di letteratura del 18° secolo voleva prevedere l'affiliazione politica degli autori in base solo alle "metafore mentali"; autore utilizzato.
- Un team di ricercatori ha creato un grande set di dati etichettato con molti autori, opere, frase per frase, e suddiviso in set di test/convalida/test.
- Il modello addestrato funzionava quasi perfettamente con i dati del test, ma i ricercatori ritenevano che i risultati fossero stranamente accurati. Cosa potrebbe essere andato storto?
Esempio di mondo reale: letteratura del XVIII secolo
Perché ritieni che l'accuratezza del test sia stata stranamente elevata? Prova a capire il problema e fai clic sul pulsante Gioca ▶ di seguito per scoprire se hai risolto il problema.
Esempio di mondo reale: letteratura del XVIII secolo
- Suddivisione dati A: i ricercatori inseriscono alcuni esempi nel set di addestramento, alcuni nel set di convalida, altri nel set di test.
Tutti gli esempi di Richardson potrebbero essere nel set di addestramento, mentre tutti gli esempi di Swift potrebbero essere nel set di convalida.
Esempio di mondo reale: letteratura del XVIII secolo
- Suddivisione dati B: i ricercatori inseriscono tutti gli esempi di ogni autore in un unico set.
Esempio di mondo reale: letteratura del XVIII secolo
- Suddivisione dati A: i ricercatori inseriscono alcuni esempi nel set di addestramento, alcuni nel set di convalida, altri nel set di test.
- Suddivisione dati B: i ricercatori inseriscono tutti gli esempi di ogni autore in un unico set.
- Risultati: il modello addestrato sulla suddivisione dati ha una precisione molto più elevata rispetto al modello addestrato sulla suddivisione dati B.
Esempio di mondo reale: letteratura del XVIII secolo
La morale: valuta attentamente come suddividere gli esempi.
Scopri cosa rappresentano i dati.
* Abbiamo basato questo modulo molto vagamente (apportando alcune modifiche lungo il percorso) a "Significato e estrazione: l'impatto delle ipotesi implicite nel mining di dati per le materie umanistiche" di Sculley e Pasanek.