Antes de crear vectores de atributos, recomendamos estudiar los datos numéricos dos maneras:
- Visualiza tus datos en diagramas o gráficos.
- Obtén estadísticas sobre tus datos.
Visualiza tus datos
Los gráficos pueden ayudarte a encontrar anomalías o patrones ocultos en los datos. Por lo tanto, antes de adentrarte en el análisis, datos de forma gráfica, ya sea como histogramas o diagramas de dispersión. Ver gráficos no sino también a lo largo de los datos de datos. Las visualizaciones te ayudan a comprobar continuamente tus suposiciones.
Recomendamos trabajar con Pandas para la visualización:
Ten en cuenta que algunas herramientas de visualización están optimizadas para ciertos formatos de datos. Una herramienta de visualización que te ayuda a evaluar los búferes de protocolo puede o no ayudarte a evaluar los datos CSV.
Evalúa tus datos de forma estadística
Además del análisis visual, también recomendamos evaluar las posibles características y etiqueta matemáticamente, recopilando estadísticas básicas como:
- media y mediana
- desviación estándar
- los valores en las divisiones de cuartiles: 0, 25, 50, 75 y 100 percentiles. El percentil 0 es el valor mínimo de esta columna. el El percentil 100 es el valor máximo de esta columna. (El percentil 50% es la mediana).
Encontrar valores atípicos
Un valor atípico es un valor distante de la mayoría de los otros valores en un atributo o etiqueta. Los valores atípicos suelen causar problemas en el entrenamiento de modelos, por lo que es importante encontrar valores atípicos.
Cuando el delta entre los percentiles 0 y 25 difiere significativamente del delta entre los percentiles 75 y 100, es probable que contiene valores atípicos.
Los valores atípicos pueden pertenecer a cualquiera de las siguientes categorías:
- El valor atípico se debe a un error. Por ejemplo, quizás un investigador ingresó por error un cero extra, o tal vez un instrumento que recopiló datos no funcionaba. Por lo general, borrarás los ejemplos que contienen valores atípicos de error.
- El valor atípico es un dato legítimo, no un error.
En este caso, ¿el modelo entrenado
necesita inferir buenas predicciones
sobre estos valores atípicos?
- Si es así, mantén estos valores atípicos en el conjunto de entrenamiento. Después de todo, los valores atípicos en ciertos atributos a veces replican valores atípicos en la etiqueta, los valores atípicos podrían ayudar a que tu modelo haga mejores predicciones. Ten cuidado, los valores atípicos extremos pueden dañar tu modelo.
- Si no es así, borra los valores atípicos o aplica una ingeniería de atributos más invasiva. técnicas, como el recorte.