Ejemplo de división de datos

Después de recopilar tus datos y muestrearlos cuando sea necesario, el siguiente paso es dividirlos en conjuntos de entrenamiento, conjuntos de validación y conjuntos de pruebas.

Cuando la división aleatoria no es el mejor enfoque

Si bien la división aleatoria es el mejor enfoque para muchos problemas de AA, no siempre es la solución correcta. Por ejemplo, considera los conjuntos de datos en los que los ejemplos se agrupan de manera natural en ejemplos similares.

Supongamos que deseas que tu modelo clasifique el tema a partir del texto de un artículo de noticias. ¿Por qué una división aleatoria sería problemática?

Cuatro grupos de artículos separados (Historia etiquetada 1, Historia 2 y Historia 3) aparecen en un cronograma. Figura 1: Las noticias se agrupan.

Las noticias aparecen en clústeres: se publican varias noticias sobre el mismo tema al mismo tiempo. Por lo tanto, si dividimos los datos de forma aleatoria, es probable que el conjunto de prueba y el conjunto de entrenamiento contengan las mismas historias. En realidad, no funcionaría de esta manera, ya que todas las historias llegarían al mismo tiempo, por lo que hacer una división como esta provocaría un sesgo.

Los mismos artículos de la figura 1 ya no están en un cronograma. En cambio, los artículos ahora se dividen de forma aleatoria en un conjunto de entrenamiento y uno de prueba. El conjunto de entrenamiento y el de prueba contienen una combinación de diferentes ejemplos de las cuatro historias. Figura 2: Una división aleatoria dividirá un clúster en conjuntos, lo que provocará un sesgo.

Un enfoque simple para solucionar este problema sería dividir nuestros datos en función de cuándo se publicó la historia, quizás por día. Esto hace que las historias del mismo día se ubiquen en la misma división.

El cronograma original de la Figura 1 ahora se divide en un conjunto de entrenamiento y un conjunto de prueba. Todos los artículos de la "Historia 1" y la "Historia 2" están en el conjunto de entrenamiento, y todos los artículos de la "Historia 3" y la "Historia 4" están en el conjunto de prueba. Figura 3: La división a tiempo permite que los clústeres terminen principalmente en el mismo conjunto.

Con decenas de miles o más noticias, un porcentaje puede dividirse a lo largo de los días. Sin embargo, está bien; en realidad, estas historias se dividieron en dos días del ciclo de noticias. Como alternativa, puedes descartar datos dentro de una cierta distancia de tu límite para asegurarte de que no se superpongan. Por ejemplo, podrías entrenar historias para el mes de abril y, luego, usar la segunda semana de mayo como el conjunto de prueba, con el intervalo de semana para evitar la superposición.