La recopilación de datos es el paso más importante para resolver cualquier problema de aprendizaje automático supervisado. Tu clasificador de texto solo puede ser tan bueno como el conjunto de datos a partir del cual se creó.
Si no tienes un problema específico que quieras resolver y solo te interesa explorar la clasificación de texto en general, hay muchos conjuntos de datos de código abierto disponibles. Puedes encontrar los vínculos a algunos de ellos en nuestro repositorio de GitHub. Por otro lado, si abordas un problema específico, deberás recopilar los datos necesarios. Muchas organizaciones proporcionan APIs públicas para acceder a sus datos, por ejemplo, la API de X o la API de NY Times. Es posible que puedas aprovechar estas APIs para el problema que intentas resolver.
Estos son algunos aspectos importantes que debes recordar al recopilar datos:
- Si usas una API pública, debes comprender las limitaciones de la API antes de utilizarlas. Por ejemplo, algunas APIs establecen un límite en la velocidad con la que puedes realizar consultas.
- Cuantos más ejemplos de entrenamiento (denominados muestras en el resto de esta guía), tengas, mejor. Esto ayudará a que el modelo se generalice mejor.
- Asegúrate de que la cantidad de muestras para cada clase o tema no esté demasiado desequilibrada. Es decir, debes tener una cantidad comparable de muestras en cada clase.
- Asegúrate de que tus muestras cubran de forma adecuada el espacio de entradas posibles, no solo los casos comunes.
En esta guía, se usará el conjunto de datos de opiniones sobre películas de Internet Movie Database (IMDb) para ilustrar el flujo de trabajo. Este conjunto de datos contiene opiniones sobre películas publicadas por personas en el sitio web de IMDb, así como las etiquetas correspondientes (“positivas” o “negativas”) que indican si al usuario le gustó la película o no. Este es un ejemplo clásico de un problema de análisis de opiniones.