Ejercicio de medición de similitud manual

En el siguiente ejercicio, se explica el proceso de creación manual de una medida de similitud.

Imagina que tienes un conjunto de datos simple en las casas de la siguiente manera:

AtributoTipo
PrecioNúmero entero positivo
Tamaño Valor de punto flotante positivo en unidades de metros cuadrados
Código postalInteger
Cantidad de dormitoriosInteger
Tipo de casaUn valor de texto de "single_family", "multi-family", "apartment", "condo"
Cochera0/1 para no/sí
Colorescategórico multivalente: Uno o más valores de los colores estándar “blanco”, “amarillo”, “verde”, etcétera

Procesamiento previo:

El primer paso es el procesamiento previo de los atributos numéricos: precio, tamaño, cantidad de habitaciones y código postal. Para cada una de estas funciones, tendrás que realizar una operación diferente. Por ejemplo, en este caso, supongamos que los datos de precios siguen una distribución bimodal. ¿Qué debes hacer?

¿Qué acción deberías realizar si tus datos siguen una distribución bimodal?
Crea cuantiles a partir de los datos y escala a [0,1].
Este es el paso correcto cuando los datos siguen una distribución bimodal.
Transformación de registros y escalamiento a [0,1].
Este es el paso que se debe realizar cuando los datos siguen una distribución de ley.
Normalizar y escalar a [0,1]
Este es el paso que debes seguir cuando los datos siguen una distribución gaussiana.

En el siguiente campo, intenta explicar cómo procesarías los datos de tamaño.

En el siguiente campo, intenta explicar cómo procesarías los datos sobre la cantidad de habitaciones.

¿Cómo debería representar los códigos postales? Convierte los códigos postales en longitud y latitud. Luego, procesa esos valores como lo harías con otros valores numéricos.

Calcula la similitud por función

Ahora es el momento de calcular la similitud por atributo. Para los atributos numéricos, solo se encuentra la diferencia. Para atributos binarios, como si una casa tiene un garaje, también puedes encontrar la diferencia para obtener 0 o 1. Pero ¿qué ocurre con los atributos categóricos? Responde las siguientes preguntas para averiguarlo.

¿Cuál de estas características es multivalente (puede tener varios valores)?
Color
Una residencia puede tener más de un color, por ejemplo, azul con ribete blanco. Por lo tanto, el color es una función multivalente.
Código postal
Cada vivienda solo puede tener un código postal. Esta es una función univalente.
Tipo
Tu casa solo puede ser de un tipo, casa, apartamento, condominio, etc., lo que significa que es una función no dominante.
¿Qué tipo de medida de similitud deberías usar a fin de calcular la similitud para un atributo multivalente?
Similitud con Jaccard
Supongamos que a las casas se les asignan colores de un conjunto fijo de colores. Luego, calcula la similitud mediante la proporción de valores comunes (similaridad de Jaccard).
Distancia euclidiana
Para los atributos "código postal" y "tipo" que tienen solo un valor (atributos univalentes), si el atributo coincide, la medida de similitud es 0; de lo contrario, la medida de similitud es 1.

Calcula la similitud general

Calculaste la similitud numérica de cada atributo. Sin embargo, el algoritmo de agrupamiento en clústeres requiere la similitud general con las casas de clúster. Calcula la similitud general entre un par de casas mediante la combinación de la similitud por atributo mediante el error cuadrático medio (RMSE). Es decir, donde\(s_1,s_2,\ldots,s_N\) representa las similitudes para los atributos \(N\) :

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Limitaciones de la medición de similitud manual

Como se demostró en este ejercicio, cuando los datos se vuelven complejos, es cada vez más difícil procesar y combinar los datos para medir con exactitud la similitud de forma semántica. Considera los datos de color. ¿El color debería ser categórico? ¿O deberíamos asignar colores como rojo y marrón para tener una similitud más alta que el blanco y negro? En cuanto a la combinación de datos, ponderamos el atributo garage con el precio de la casa. Sin embargo, el precio es mucho más importante que tener una cochera. ¿Tiene sentido considerarlas como iguales?

Si creas una medida de similitud que no refleja realmente la similitud entre ejemplos, los clústeres derivados no serán significativos. Este suele ser el caso de los datos categóricos y nos lleva a una medida supervisada.