En esta sección, se revisan los pasos de preparación de datos más relevantes para el agrupamiento en clústeres de la Trabaja con datos numéricos del Curso intensivo de aprendizaje automático.
En el agrupamiento en clústeres, calculas la similitud entre dos ejemplos combinando todos los datos de atributos de esos ejemplos en un valor numérico. Esto requiere la tengan la misma escala, lo que se puede lograr mediante la normalización, transformar o crear cuantiles. Si quieres transformar datos sin inspeccionar su distribución, puedes usar cuantiles de forma predeterminada.
Normalización de datos
Puedes transformar los datos de varios atributos a la misma escala con la normalización los datos.
Puntuaciones Z
Cuando veas un conjunto de datos con la forma aproximada de Distribución gaussiana, deberías calcular las puntuaciones z para los datos. Las puntuaciones z son el número de desviaciones estándar que tiene un valor respecto del medio. También puedes utilizar las puntuaciones z cuando el conjunto de datos no es lo suficientemente grande para cuantiles.
Consulta Escalamiento de puntuación Z para revisar los pasos.
Aquí hay una visualización de dos atributos de un conjunto de datos antes y después Escalamiento de puntuación z:
En el conjunto de datos no normalizado de la izquierda, Feature 1 y Feature 2, respectivamente en los ejes x e y, no tienen la misma escala. En la a la izquierda, el ejemplo rojo se ve más cerca o más similar al azul que al amarillo. A la derecha, después de la escala de puntuación z, los atributos 1 y 2 tienen la misma escala, y los atributos ejemplo más cerca del amarillo. El conjunto de datos normalizado ofrece un una medida más precisa de la similitud entre puntos.
Transformaciones de registros
Cuando un conjunto de datos se ajusta perfectamente a un de la ley de poder, en la que los datos esté muy agrupada en los valores más bajos, usa una transformación logarítmica. Consulta Escalamiento de registros para revisar los pasos.
Aquí hay una visualización de un conjunto de datos de ley de poder antes y después de una transformación logarítmica:
Antes del escalamiento logarítmico (Figura 2), el ejemplo rojo se parece más al amarillo. Después del escalamiento logarítmico (Figura 3), el rojo se parece más al azul.
Cuantiles
La discretización de los datos en cuantiles funciona bien cuando el conjunto de datos no se ajusta a una distribución conocida. Tomemos este conjunto de datos, por ejemplo:
De manera intuitiva, dos ejemplos son más similares si solo unos pocos ejemplos se encuentran entre de ellos, sin importar sus valores, y más diferentes si muchos ejemplos entre ellas. La visualización anterior hace que sea difícil ver el total la cantidad de ejemplos que están entre rojo y amarillo, o entre rojo y azul.
Esta comprensión de la similitud se puede sacar dividiendo el conjunto de datos en cuantiles o intervalos que contienen la misma cantidad de ejemplos asignando el índice del cuantil a cada ejemplo. Consulta Agrupamiento en cuantiles para revisar los pasos.
Esta es la distribución anterior dividida en cuantiles, que muestra que el rojo es a un cuantil de distancia del amarillo y a tres cuantiles del azul:
Puedes elegir cualquier cantidad \(n\) de cuantiles. Sin embargo, para que los cuantiles representar de manera significativa los datos subyacentes, tu conjunto de datos debe tener al menos \(10n\) ejemplos. Si no tienes datos suficientes, normalízalos.
Verifica tus conocimientos
Para las siguientes preguntas, supón que tienes suficientes datos para crear cuantiles.
Pregunta uno
- La distribución de datos es gaussiana.
- Tienes algo de información sobre lo que representan los datos en el que sugiere que los datos no se deberían transformar de forma no lineal.
Pregunta dos
Faltan datos
Si tu conjunto de datos tiene ejemplos en los que faltan valores para un atributo determinado, pero estos ejemplos rara vez ocurren, puedes quitarlos. Si esos ejemplos con frecuencia, puedes quitar ese elemento por completo o puedes predecir los valores faltantes a partir de otros ejemplos con una máquina de aprendizaje automático. Por ejemplo, puedes imputa datos numéricos faltantes mediante un modelo de regresión entrenado con datos de atributos existentes.