Datos numéricos: primeros pasos

Antes de crear vectores de atributos, recomendamos estudiar los datos numéricos dos maneras:

  • Visualiza tus datos en diagramas o gráficos.
  • Obtén estadísticas sobre tus datos.

Visualiza tus datos

Los gráficos pueden ayudarte a encontrar anomalías o patrones ocultos en los datos. Por lo tanto, antes de adentrarte en el análisis, datos de forma gráfica, ya sea como histogramas o diagramas de dispersión. Ver gráficos no sino también a lo largo de los datos de datos. Las visualizaciones te ayudan a comprobar continuamente tus suposiciones.

Recomendamos trabajar con Pandas para la visualización:

Ten en cuenta que algunas herramientas de visualización están optimizadas para ciertos formatos de datos. Una herramienta de visualización que te ayuda a evaluar los búferes de protocolo puede o no ayudarte a evaluar los datos CSV.

Evalúa tus datos de forma estadística

Además del análisis visual, también recomendamos evaluar las posibles características y etiqueta matemáticamente, recopilando estadísticas básicas como:

  • media y mediana
  • desviación estándar
  • los valores en las divisiones de cuartiles: 0, 25, 50, 75 y 100 percentiles. El percentil 0 es el valor mínimo de esta columna. el El percentil 100 es el valor máximo de esta columna. (El percentil 50% es la mediana).

Encontrar valores atípicos

Un valor atípico es un valor distante de la mayoría de los otros valores en un atributo o etiqueta. Los valores atípicos suelen causar problemas en el entrenamiento de modelos, por lo que es importante encontrar valores atípicos.

Cuando el delta entre los percentiles 0 y 25 difiere significativamente del delta entre los percentiles 75 y 100, es probable que contiene valores atípicos.

Los valores atípicos pueden pertenecer a cualquiera de las siguientes categorías:

  • El valor atípico se debe a un error. Por ejemplo, quizás un investigador ingresó por error un cero extra, o tal vez un instrumento que recopiló datos no funcionaba. Por lo general, borrarás los ejemplos que contienen valores atípicos de error.
  • El valor atípico es un dato legítimo, no un error. En este caso, ¿el modelo entrenado necesita inferir buenas predicciones sobre estos valores atípicos?
    • Si es así, mantén estos valores atípicos en el conjunto de entrenamiento. Después de todo, los valores atípicos en ciertos atributos a veces replican valores atípicos en la etiqueta, los valores atípicos podrían ayudar a que tu modelo haga mejores predicciones. Ten cuidado, los valores atípicos extremos pueden dañar tu modelo.
    • Si no es así, borra los valores atípicos o aplica una ingeniería de atributos más invasiva. técnicas, como el recorte.