En el siguiente ejercicio, se explica el proceso de creación manual de una medida de similitud.
Imagina que tienes un conjunto de datos simple en las casas de la siguiente manera:
Atributo | Tipo |
---|---|
Precio | Número entero positivo |
Tamaño | Valor de punto flotante positivo en unidades de metros cuadrados |
Código postal | Integer |
Cantidad de dormitorios | Integer |
Tipo de casa | Un valor de texto de "single_family", "multi-family", "apartment", "condo" |
Cochera | 0/1 para no/sí |
Colores | categórico multivalente: Uno o más valores de los colores estándar “blanco”, “amarillo”, “verde”, etcétera |
Procesamiento previo:
El primer paso es el procesamiento previo de los atributos numéricos: precio, tamaño, cantidad de habitaciones y código postal. Para cada una de estas funciones, tendrás que realizar una operación diferente. Por ejemplo, en este caso, supongamos que los datos de precios siguen una distribución bimodal. ¿Qué debes hacer?
En el siguiente campo, intenta explicar cómo procesarías los datos de tamaño.
En el siguiente campo, intenta explicar cómo procesarías los datos sobre la cantidad de habitaciones.
¿Cómo debería representar los códigos postales? Convierte los códigos postales en longitud y latitud. Luego, procesa esos valores como lo harías con otros valores numéricos.
Calcula la similitud por función
Ahora es el momento de calcular la similitud por atributo. Para los atributos numéricos, solo se encuentra la diferencia. Para atributos binarios, como si una casa tiene un garaje, también puedes encontrar la diferencia para obtener 0 o 1. Pero ¿qué ocurre con los atributos categóricos? Responde las siguientes preguntas para averiguarlo.
Calcula la similitud general
Calculaste la similitud numérica de cada atributo. Sin embargo, el algoritmo de agrupamiento en clústeres requiere la similitud general con las casas de clúster. Calcula la similitud general entre un par de casas mediante la combinación de la similitud por atributo mediante el error cuadrático medio (RMSE). Es decir, donde\(s_1,s_2,\ldots,s_N\) representa las similitudes para los atributos \(N\) :
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
Limitaciones de la medición de similitud manual
Como se demostró en este ejercicio, cuando los datos se vuelven complejos, es cada vez más difícil procesar y combinar los datos para medir con exactitud la similitud de forma semántica. Considera los datos de color. ¿El color debería ser categórico? ¿O deberíamos asignar colores como rojo y marrón para tener una similitud más alta que el blanco y negro? En cuanto a la combinación de datos, ponderamos el atributo garage con el precio de la casa. Sin embargo, el precio es mucho más importante que tener una cochera. ¿Tiene sentido considerarlas como iguales?
Si creas una medida de similitud que no refleja realmente la similitud entre ejemplos, los clústeres derivados no serán significativos. Este suele ser el caso de los datos categóricos y nos lleva a una medida supervisada.