La raccolta dei dati è il passaggio più importante per risolvere qualsiasi problema di machine learning supervisionato. La qualità del classificatore di testo può essere uguale al set di dati da cui è stato creato.
Se non hai un problema specifico da risolvere e ti interessa solo esplorare la classificazione del testo in generale, hai a disposizione molti set di dati open source. Puoi trovare i link ad alcuni di questi nel nostro repository GitHub. Se invece stai affrontando un problema specifico, dovrai raccogliere i dati necessari. Molte organizzazioni forniscono API pubbliche per accedere ai dati, ad esempio l'API X o l'API NY Times. Potresti riuscire a sfruttare queste API per il problema che stai cercando di risolvere.
Di seguito sono riportati alcuni aspetti importanti da ricordare durante la raccolta dei dati:
- Se utilizzi un'API pubblica, esamina le limitazioni dell'API prima di utilizzarla. Ad esempio, alcune API impostano un limite per la frequenza con cui è possibile eseguire query.
- Maggiore è il numero di esempi di addestramento (indicati come esempi nel resto di questa guida), meglio è. In questo modo il modello può essere generalizzato meglio.
- Assicurati che il numero di campioni per ogni classe o argomento non sia eccessivamente sbilanciato. Vale a dire che dovresti avere un numero comparabile di campioni in ogni classe.
- Assicurati che i campioni coprano adeguatamente lo spazio dei possibili input, non solo i casi comuni.
In questa guida, utilizzeremo il set di dati per le recensioni dei film Internet Movie Database (IMDb) per illustrare il flusso di lavoro. Questo set di dati contiene le recensioni dei film pubblicate dagli utenti sul sito web di IMDb, nonché le etichette corrispondenti ("positiva" o "negativa") che indicano se il film è piaciuto o meno al recensore. Questo è un classico esempio di problema di analisi del sentiment.