Medición de similitud manual

Como se acaba de mostrar, k-means asigna puntos a su centroide más cercano. Pero ¿qué significa "más cercano" ¿medias?

Para aplicar k-means a los datos de atributos, deberás definir una medida de que combina todos los datos de los atributos en un único valor numérico, se denomina medida de similitud manual.

Piensa en un conjunto de datos sobre calzado. Si ese conjunto de datos tiene el tamaño de calzado como su único atributo, puedes definir la similitud de dos zapatos en términos de la diferencia entre sus tamaños. Cuanto menor sea la diferencia numérica entre los tamaños, mayor similitud entre zapatos.

Si ese conjunto de datos sobre calzado tuviera dos atributos numéricos, tamaño y precio, puedes combinar en un solo número que representa la similitud. Primero, escala los datos para Ambos atributos son comparables:

  • Talla (s): La talla del calzado probablemente forme una distribución gaussiana. Confirma esto. Luego, normaliza los datos.
  • Precio (p): Los datos probablemente sean una distribución de Poisson. Confirma esto. Si Si no tienes datos suficientes, conviértelos en cuantiles y escala a \([0,1]\).

A continuación, combina los dos atributos calculando el raíz cuadrada del error cuadrático medio (RMSE). Esta medida aproximada de similitud está dada por \(\sqrt{\frac{(s_i - s_j)^2+(p_i - p_j)^2}{2}}\)

Para un ejemplo simple, calcula la similitud de dos zapatos con tallas de EE.UU. 8 y 11, y los precios 120 y 150. Como no tenemos suficientes datos para entender escalaremos los datos sin normalizarlos ni usarlos cuantiles.

AcciónMétodo
Ajustar el tamaño Supongamos que el tamaño máximo de calzado es 20. Divide 8 y 11 por el tamaño máximo 20 para obtener 0.4 y 0.55.
Ajustar el precio Divide 120 y 150 por el precio máximo 150 para obtener 0.8 y 1.
Encuentra la diferencia en el tamaño. \(0.55 - 0.4 = 0.15\)
Busca la diferencia en el precio. \(1 - 0.8 = 0.2\)
Calcula el RMSE. \(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\)

De manera intuitiva, la medida de similitud debería aumentar cuando los datos de atributos similares. En su lugar, tu medida de similitud (RMSE) disminuye. Haz que tu experiencia de similitud siguen tu intuición al restarla de 1.

\[\text{Similarity} = 1 - 0.17 = 0.83\]

En general, puedes preparar datos numéricos como se describe en Prepare los datos y, luego, combine usando la distancia euclidiana.

¿Qué pasaría si ese conjunto de datos incluyera tanto la talla como el color del calzado? El color es datos categóricos, analizados en el Curso intensivo de aprendizaje automático en Trabaja con datos categóricos. Los datos categóricos son más difíciles de combinar con los datos de tamaño numérico. Puede ser:

  • Valor único (univalente), como el color de un automóvil ("blanco" o "azul", pero nunca ambas)
  • Varios valores (multivalentes), como el género de una película (una película puede ser tanto “acción” y "comedia", o solo “acción”)

Si los datos univariables coinciden, por ejemplo, en el caso de dos pares de zapatos azules, la similitud entre los ejemplos es 1. De lo contrario, la similitud es 0.

Es más difícil trabajar con datos multivalentes, como los géneros de películas. Si hay un elemento con un conjunto fijo de géneros de películas, la similitud se puede calcular usando la proporción valores comunes, llamados Similitud con Jaccard. Ejemplo Cálculos de similitud de Jaccard:

  • [“comedia”,”acción”] y [“comedia”,”acción”] = 1
  • [“comedia”, “acción”] y [“acción”] = 1⁄2
  • [“comedia”,”acción”] y [“acción”, “drama”] = 1⁄3
  • [“comedia”,”acción”] y [“no ficción”,”biográfica”] = 0

La similitud de Jaccard no es la única medida de similitud manual posible para datos categóricos. Otros dos ejemplos:

  • Los códigos postales se pueden convertir a latitud y longitud antes de para calcular la distancia euclidiana entre ellos.
  • El color se puede convertir en valores RGB numéricos, con diferencias en valores combinados en distancia euclidiana.

Consulta Trabaja con datos categóricos. para obtener más información.

En general, una medida de similitud manual debe corresponder directamente a la similitud real. Si la métrica elegida no lo hace, no está codificando el información que quieres que codifique.

Procesa previamente tus datos con cuidado antes de calcular una medida de similitud. El ejemplos de esta página. La mayoría de los conjuntos de datos del mundo real son grandes y compleja. Como se mencionó anteriormente, los cuantiles son una buena opción predeterminada para procesar datos numéricos.

A medida que aumenta la complejidad de los datos, se hace más difícil crear un modelo medida de similitud. En ese caso, cambia a un medida de similitud supervisada, en la que se usa una de aprendizaje automático calcula la similitud. Esto se analizará con más detalle más adelante.