Antes de crear vectores de características, te recomendamos que estudies los datos numéricos de estas dos maneras:
- Visualiza tus datos en gráficos o diagramas.
- Obtén estadísticas sobre tus datos.
Visualiza tus datos
Los gráficos pueden ayudarte a encontrar anomalías o patrones ocultos en los datos. Por lo tanto, antes de avanzar demasiado en el análisis, observa tus datos de forma gráfica, ya sea como diagramas de dispersión o histogramas. Consulta los gráficos no solo al comienzo de la canalización de datos, sino también durante las transformaciones de datos. Las visualizaciones te ayudan a verificar tus suposiciones de forma continua.
Te recomendamos trabajar con pandas para la visualización:
- Cómo trabajar con datos faltantes (documentación de pandas)
- Visualizaciones (documentación de pandas)
Ten en cuenta que algunas herramientas de visualización están optimizadas para ciertos formatos de datos. Es posible que una herramienta de visualización que te ayude a evaluar los búferes de protocolo pueda o no ayudarte a evaluar los datos CSV.
Evalúa tus datos de forma estadística
Además del análisis visual, también recomendamos evaluar las posibles funciones y etiquetas de forma matemática y recopilar estadísticas básicas, como las siguientes:
- media y mediana
- standard deviation
- los valores en las divisiones de cuartil: los percentiles 0, 25, 50, 75 y 100. El percentil 0 es el valor mínimo de esta columna, y el percentil 100 es el valor máximo de esta columna. (el percentil 50 es la mediana).
Cómo encontrar valores atípicos
Un valor atípico es un valor distante de la mayoría de los otros valores de un atributo o una etiqueta. Los valores atípicos suelen causar problemas en el entrenamiento del modelo, por lo que es importante encontrarlos.
Cuando la diferencia entre el percentil 0 y el 25 difiere significativamente de la diferencia entre el percentil 75 y el 100, es probable que el conjunto de datos contenga valores atípicos.
Los valores atípicos pueden pertenecer a cualquiera de las siguientes categorías:
- El valor atípico se debe a un error. Por ejemplo, es posible que un experimentador haya ingresado por error un cero adicional o que un instrumento que recopiló datos haya fallado. Por lo general, borrarás los ejemplos que contengan valores extremos por errores.
- El valor atípico es un dato legítimo, no un error.
En este caso, ¿tu modelo entrenado necesitará, en última instancia, inferir buenas predicciones sobre estos valores atípicos?
- Si es así, mantén estos valores atípicos en tu conjunto de entrenamiento. Después de todo, los valores extremos de ciertas características a veces reflejan los valores extremos de la etiqueta, por lo que los valores extremos podrían ayudar a tu modelo a realizar mejores predicciones. Ten cuidado, los valores atípicos extremos aún pueden perjudicar tu modelo.
- De lo contrario, borra los valores atípicos o aplica técnicas de ingeniería de atributos más invasivas, como el recorte.