Muestreo y división de datos

Introducción al muestreo

Suele ser difícil recopilar suficientes datos para un proyecto de aprendizaje automático. Sin embargo, a veces hay demasiados datos y debes seleccionar un subconjunto de ejemplos para el entrenamiento.

¿Cómo selecciona ese subconjunto? A modo de ejemplo, considera la Búsqueda de Google. ¿Con qué nivel de detalle tomarías muestras de sus enormes cantidades de datos? ¿Usarías consultas aleatorias? ¿Sesiones aleatorias? ¿Usuarios aleatorios?

En última instancia, la respuesta depende del problema: ¿qué queremos predecir y qué atributos queremos?

  • Para usar la función de consulta anterior, debes tomar muestras a nivel de sesión, ya que las sesiones contienen una secuencia de consultas.
  • Para usar la función comportamiento del usuario de días anteriores, debes muestrear a nivel del usuario.

Filtrado de PII (información de identificación personal)

Si tus datos incluyen PII (información de identificación personal), es posible que debas filtrarlos. Una política puede requerir que quites las funciones poco frecuentes, por ejemplo.

Este filtro distorsionará la distribución. Perderás información en la cola (la parte de la distribución con valores muy bajos, lejos de la media).

Este filtrado es útil porque las funciones que no son frecuentes son difíciles de aprender. Sin embargo, es importante tener en cuenta que tu conjunto de datos se inclinará hacia las consultas principales. En el momento de la entrega, puedes esperar que la situación sea peor con los ejemplos de la cola, ya que estos fueron los ejemplos que se filtraron de los datos de entrenamiento. Si bien no se puede evitar este sesgo, tenga en cuenta este aspecto durante el análisis.