Medición de similitud manual

Como se acaba de mostrar, k-means asigna puntos a su centroide más cercano. Pero, ¿qué significa "más cercano"?

Para aplicar k-medias a los datos de atributos, deberás definir una medida de similitud que combine todos los datos de atributos en un solo valor numérico, que se denomina medida de similitud manual.

Considera un conjunto de datos de zapatos. Si ese conjunto de datos tiene el tamaño de calzado como su única característica, puedes definir la similitud de dos calzados en términos de la diferencia entre sus tamaños. Cuanto menor sea la diferencia numérica entre los tamaños, mayor será la similitud entre los zapatos.

Si ese conjunto de datos de calzado tuviera dos atributos numéricos, el tamaño y el precio, puedes combinarlos en un solo número que represente la similitud. Primero, escala los datos para que ambos atributos sean comparables:

  • Tamaño: Es probable que el tamaño del calzado forme una distribución de Gauss. Confirma esto. Luego, normaliza los datos.
  • Precio (p): Es probable que los datos sean una distribución de Poisson. Confirma esto. Si tienes suficientes datos, conviértelos en cuantiles y escales a [0,1].

A continuación, combina las dos características calculando la raíz cuadrada del error cuadrático medio (RMSE). Esta medida aproximada de similitud se obtiene con(sisj)2+(pipj)22.

A modo de ejemplo, calcula la similitud de dos zapatos con tallas 8 y 11 de EE.UU., y precios de 120 y 150. Como no tenemos suficientes datos para comprender la distribución, escalaremos los datos sin normalizarlos ni usar cuantiles.

AcciónMétodo
Escala el tamaño. Supongamos que el tamaño máximo de calzado posible es 20. Divide 8 y 11 por el tamaño máximo 20 para obtener 0.4 y 0.55.
Escala el precio. Divide 120 y 150 por el precio máximo 150 para obtener 0.8 y 1.
Encuentra la diferencia de tamaño. 0.550.4=0.15
Encuentra la diferencia de precio. 10.8=0.2
Calcula el RMSE. 0.22+0.1522=0.17

De forma intuitiva, tu medida de similitud debería aumentar cuando los datos de atributos sean más similares. En cambio, tu medida de similitud (RMSE) disminuye. Para que tu medida de similitud siga tu intuición, réstale 1.

Similarity=10.17=0.83

En general, puedes preparar datos numéricos como se describe en Cómo preparar datos y, luego, combinarlos con la distancia euclidiana.

¿Qué sucede si ese conjunto de datos incluye el tamaño y el color del calzado? El color es un dato categórico, que se analiza en el Curso intensivo de aprendizaje automático en Cómo trabajar con datos categóricos. Los datos categóricos son más difíciles de combinar con los datos de tamaño numérico. Puede ser lo siguiente:

  • De un solo valor (univalente), como el color de un automóvil ("blanco" o "azul", pero nunca ambos)
  • De varios valores (multivalentes), como el género de una película (una película puede ser “acción” y “comedia”, o solo “acción”)

Si los datos univalentes coinciden, por ejemplo, en el caso de dos pares de zapatos azules, la similitud entre los ejemplos es 1. De lo contrario, la similitud es 0.

Es más difícil trabajar con datos multivalentes, como los géneros de películas. Si hay un conjunto fijo de géneros de películas, la similitud se puede calcular con la proporción de valores comunes, llamada similitud de Jaccard. Ejemplos de cálculos de similitud de Jaccard:

  • [“comedy”,”action”] y [“comedy”,”action”] = 1
  • [“comedy”,”action”] y [“action”] = ½
  • [“comedy”,”action”] and [“action”, "drama"] = ⅓
  • [“comedy”,”action”] and [“non-fiction”,”biographical”] = 0

La similitud de Jaccard no es la única medida de similitud manual posible para los datos categóricos. Otros dos ejemplos:

  • Los códigos postales se pueden convertir en latitud y longitud antes de calcular la distancia euclidiana entre ellos.
  • El color se puede convertir en valores RGB numéricos, con diferencias en los valores combinados en la distancia euclidiana.

Consulta Cómo trabajar con datos categóricos para obtener más información.

En general, una medida de similitud manual debe corresponder directamente a la similitud real. Si la métrica que elegiste no lo hace, significa que no está codificando la información que deseas.

Procesa tus datos con cuidado antes de calcular una medida de similitud. Los ejemplos de esta página están simplificados. La mayoría de los conjuntos de datos del mundo real son grandes y complejos. Como se mencionó anteriormente, los cuantiles son una buena opción predeterminada para procesar datos numéricos.

A medida que aumenta la complejidad de los datos, se vuelve más difícil crear una medida de similitud manual. En esa situación, cambia a una medida de similitud supervisada, en la que un modelo de aprendizaje automático supervisado calcula la similitud. Esto se analizará con más detalle más adelante.