Preparación de datos

En esta sección, se revisan los pasos de preparación de datos más relevantes para el agrupamiento en clústeres de la Trabaja con datos numéricos del Curso intensivo de aprendizaje automático.

En el agrupamiento en clústeres, calculas la similitud entre dos ejemplos combinando todos los datos de atributos de esos ejemplos en un valor numérico. Esto requiere la tengan la misma escala, lo que se puede lograr mediante la normalización, transformar o crear cuantiles. Si quieres transformar datos sin inspeccionar su distribución, puedes usar cuantiles de forma predeterminada.

Normalización de datos

Puedes transformar los datos de varios atributos a la misma escala con la normalización los datos.

Puntuaciones Z

Cuando veas un conjunto de datos con la forma aproximada de Distribución gaussiana, deberías calcular las puntuaciones z para los datos. Las puntuaciones z son el número de desviaciones estándar que tiene un valor respecto del medio. También puedes utilizar las puntuaciones z cuando el conjunto de datos no es lo suficientemente grande para cuantiles.

Consulta Escalamiento de puntuación Z para revisar los pasos.

Aquí hay una visualización de dos atributos de un conjunto de datos antes y después Escalamiento de puntuación z:

Dos gráficos que comparan los datos de atributos antes y después de la normalización
Figura 1: Comparación de los datos de atributos antes y después de la normalización.

En el conjunto de datos no normalizado de la izquierda, Feature 1 y Feature 2, respectivamente en los ejes x e y, no tienen la misma escala. En la a la izquierda, el ejemplo rojo se ve más cerca o más similar al azul que al amarillo. A la derecha, después de la escala de puntuación z, los atributos 1 y 2 tienen la misma escala, y los atributos ejemplo más cerca del amarillo. El conjunto de datos normalizado ofrece un una medida más precisa de la similitud entre puntos.

Transformaciones de registros

Cuando un conjunto de datos se ajusta perfectamente a un de la ley de poder, en la que los datos esté muy agrupada en los valores más bajos, usa una transformación logarítmica. Consulta Escalamiento de registros para revisar los pasos.

Aquí hay una visualización de un conjunto de datos de ley de poder antes y después de una transformación logarítmica:

Un gráfico de barras con la mayoría de los datos en el extremo inferior
Figura 2: Distribución de la ley de potencia.
Gráfico que muestra una distribución normal (gaussiana)
Figura 3: Una transformación logarítmica de la Figura 2.

Antes del escalamiento logarítmico (Figura 2), el ejemplo rojo se parece más al amarillo. Después del escalamiento logarítmico (Figura 3), el rojo se parece más al azul.

Cuantiles

La discretización de los datos en cuantiles funciona bien cuando el conjunto de datos no se ajusta a una distribución conocida. Tomemos este conjunto de datos, por ejemplo:

Gráfico que muestra una distribución de datos antes de cualquier procesamiento previo
Figura 4: Una distribución no categorizable antes de cualquier procesamiento previo.

De manera intuitiva, dos ejemplos son más similares si solo unos pocos ejemplos se encuentran entre de ellos, sin importar sus valores, y más diferentes si muchos ejemplos entre ellas. La visualización anterior hace que sea difícil ver el total la cantidad de ejemplos que están entre rojo y amarillo, o entre rojo y azul.

Esta comprensión de la similitud se puede sacar dividiendo el conjunto de datos en cuantiles o intervalos que contienen la misma cantidad de ejemplos asignando el índice del cuantil a cada ejemplo. Consulta Agrupamiento en cuantiles para revisar los pasos.

Esta es la distribución anterior dividida en cuantiles, que muestra que el rojo es a un cuantil de distancia del amarillo y a tres cuantiles del azul:

Gráfico que muestra los datos después de la conversión
  en cuantiles. La línea representa 20 intervalos.]
Figura 5: La distribución en la Figura 4 después de la conversión en 20 cuantiles.

Puedes elegir cualquier cantidad \(n\) de cuantiles. Sin embargo, para que los cuantiles representar de manera significativa los datos subyacentes, tu conjunto de datos debe tener al menos \(10n\) ejemplos. Si no tienes datos suficientes, normalízalos.

Verifica tus conocimientos

Para las siguientes preguntas, supón que tienes suficientes datos para crear cuantiles.

Pregunta uno

Un diagrama en el que se muestran tres distribuciones de datos
¿Cómo debes procesar la distribución de datos que se muestra en el ejemplo anterior? gráfico?
Crear cuantiles.
Correcto. Dado que la distribución no coincide con un una distribución de datos estándar, deberías usar creando cuantiles.
Normalizar.
Normalmente, normalizas los datos si sucede lo siguiente:
  • La distribución de datos es gaussiana.
  • Tienes algo de información sobre lo que representan los datos en el que sugiere que los datos no se deberían transformar de forma no lineal.
En este caso, no se aplica ninguno de los dos casos. La distribución de datos no es gaussiana porque no es simétrica. Y no sabes cuáles son estos valores representan en el mundo real.
Transformación de registros.
Esta no es una distribución de ley de poder perfecta, así que no uses un transformará.

Pregunta dos

Un diagrama en el que se muestran tres distribuciones de datos
¿Cómo procesarías esta distribución de datos?
Normalizar.
Correcto. Esta es una distribución gaussiana.
Crear cuantiles.
Incorrecto. Como se trata de una distribución gaussiana, la forma preferida es la normalización.
Transformación de registros.
Incorrecto. Solo aplica una transformación logarítmica a las distribuciones de ley de potencia.

Faltan datos

Si tu conjunto de datos tiene ejemplos en los que faltan valores para un atributo determinado, pero estos ejemplos rara vez ocurren, puedes quitarlos. Si esos ejemplos con frecuencia, puedes quitar ese elemento por completo o puedes predecir los valores faltantes a partir de otros ejemplos con una máquina de aprendizaje automático. Por ejemplo, puedes imputa datos numéricos faltantes mediante un modelo de regresión entrenado con datos de atributos existentes.