Se usó la API de Cloud Translation para traducir esta página.

Ejercicio de medición de similitud manual

En el siguiente ejercicio, se explica el proceso de creación manual de una medida de similitud.

Imagina que tienes un conjunto de datos simple en las casas de la siguiente manera:

Atributo	Tipo
Precio	Número entero positivo
Tamaño	Valor de punto flotante positivo en unidades de metros cuadrados
Código postal	Integer
Cantidad de dormitorios	Integer
Tipo de casa	Un valor de texto de "single_family", "multi-family", "apartment", "condo"
Cochera	0/1 para no/sí
Colores	categórico multivalente: Uno o más valores de los colores estándar “blanco”, “amarillo”, “verde”, etcétera

Procesamiento previo:

El primer paso es el procesamiento previo de los atributos numéricos: precio, tamaño, cantidad de habitaciones y código postal. Para cada una de estas funciones, tendrás que realizar una operación diferente. Por ejemplo, en este caso, supongamos que los datos de precios siguen una distribución bimodal. ¿Qué debes hacer?

¿Qué acción deberías realizar si tus datos siguen una distribución bimodal?

Crea cuantiles a partir de los datos y escala a [0,1].

Este es el paso correcto cuando los datos siguen una distribución bimodal.

Transformación de registros y escalamiento a [0,1].

Este es el paso que se debe realizar cuando los datos siguen una distribución de ley.

Normalizar y escalar a [0,1]

Este es el paso que debes seguir cuando los datos siguen una distribución gaussiana.

En el siguiente campo, intenta explicar cómo procesarías los datos de tamaño.

Preprocesaría los datos de tamaño de la siguiente manera:

Haz clic en el ícono de signo más para verificar tu respuesta

Verifica si el tamaño cumple con una ley de distribución de energía, de Poisson o de Gauss.

Power-law: Transformación de registros y escalamiento a [0,1].
Poisson: Crea cuantiles y escala a [0,1].
Gaussiano: Normaliza y escala a [0,1].

En el siguiente campo, intenta explicar cómo procesarías los datos sobre la cantidad de habitaciones.

Preprocesaría la cantidad de habitaciones de la siguiente manera:

Haz clic en el ícono de signo más para verificar tu respuesta

Verifica la distribución de la cantidad de habitaciones. Lo más probable es que el recorte de los valores atípicos y el escalamiento a [0,1] sean adecuados,pero si encuentras una distribución de ley, es posible que sea necesaria una transformación logarítmica.

¿Cómo debería representar los códigos postales? Convierte los códigos postales en longitud y latitud. Luego, procesa esos valores como lo harías con otros valores numéricos.

Calcula la similitud por función

Ahora es el momento de calcular la similitud por atributo. Para los atributos numéricos, solo se encuentra la diferencia. Para atributos binarios, como si una casa tiene un garaje, también puedes encontrar la diferencia para obtener 0 o 1. Pero ¿qué ocurre con los atributos categóricos? Responde las siguientes preguntas para averiguarlo.

¿Cuál de estas características es multivalente (puede tener varios valores)?

Color

Una residencia puede tener más de un color, por ejemplo, azul con ribete blanco. Por lo tanto, el color es una función multivalente.

Código postal

Cada vivienda solo puede tener un código postal. Esta es una función univalente.

Tipo

Tu casa solo puede ser de un tipo, casa, apartamento, condominio, etc., lo que significa que es una función no dominante.

¿Qué tipo de medida de similitud deberías usar a fin de calcular la similitud para un atributo multivalente?

Similitud con Jaccard

Supongamos que a las casas se les asignan colores de un conjunto fijo de colores. Luego, calcula la similitud mediante la proporción de valores comunes (similaridad de Jaccard).

Distancia euclidiana

Para los atributos "código postal" y "tipo" que tienen solo un valor (atributos univalentes), si el atributo coincide, la medida de similitud es 0; de lo contrario, la medida de similitud es 1.

Calcula la similitud general

Calculaste la similitud numérica de cada atributo. Sin embargo, el algoritmo de agrupamiento en clústeres requiere la similitud general con las casas de clúster. Calcula la similitud general entre un par de casas mediante la combinación de la similitud por atributo mediante el error cuadrático medio (RMSE). Es decir, donde\(s_1,s_2,\ldots,s_N\) representa las similitudes para los atributos \(N\) :

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Limitaciones de la medición de similitud manual

Como se demostró en este ejercicio, cuando los datos se vuelven complejos, es cada vez más difícil procesar y combinar los datos para medir con exactitud la similitud de forma semántica. Considera los datos de color. ¿El color debería ser categórico? ¿O deberíamos asignar colores como rojo y marrón para tener una similitud más alta que el blanco y negro? En cuanto a la combinación de datos, ponderamos el atributo garage con el precio de la casa. Sin embargo, el precio es mucho más importante que tener una cochera. ¿Tiene sentido considerarlas como iguales?

Si creas una medida de similitud que no refleja realmente la similitud entre ejemplos, los clústeres derivados no serán significativos. Este suele ser el caso de los datos categóricos y nos lleva a una medida supervisada.

Medida de similitud manual

Ejercicio de programación de similitud manual