Exercício de medição da semelhança manual

O exercício a seguir mostra como criar manualmente uma medida de semelhança.

Imagine que você tenha um conjunto de dados simples em casas da seguinte maneira:

Seleção deTipo
PreçoNúmero inteiro positivo
Tamanho Valor de ponto flutuante positivo em unidades de metros quadrados
Código postalInteiro
Número de quartosInteiro
Tipo de casaUm valor de texto de "single_family", "multi-family", "apartment" ou "condo"
Garage0/1 para não/sim
Corescategórica multivalente: um ou mais valores de cores padrão "branca", "amarela", "verde" etc.

Pré-processamento

A primeira etapa é pré-processar os atributos numéricos: preço, tamanho, número de quartos e CEP. Para cada um desses recursos será necessário executar uma operação diferente. Por exemplo, nesse caso, suponha que os dados de preços sigam uma distribuição bimodal. Qual é o próximo passo?

O que você deve fazer se seus dados seguirem uma distribuição bimodal?
Criar quantis dos dados e escalonar para [0,1].
Essa é a etapa correta a ser seguida quando os dados seguem uma distribuição bimodal.
Transformação de escalonamento e registro em [0,1].
Essa é a etapa a ser seguida quando os dados seguem uma distribuição de lei de potência.
Normalizar e dimensionar para [0,1].
Essa é a etapa que deve ser seguida quando os dados seguem uma distribuição gaussiana.

No campo abaixo, tente explicar como você processaria dados de tamanho.

No campo abaixo, tente explicar como processar dados sobre o número de quartos.

Como representar os códigos postais? Converta códigos postais em longitude e latitude. Em seguida, processe esses valores como faria com outros valores numéricos.

Como calcular a semelhança por recurso

Agora é hora de calcular a semelhança por atributo. Para atributos numéricos, você simplesmente encontra a diferença. Para recursos binários, como se uma casa tem uma garagem, você também pode encontrar a diferença para receber 0 ou 1. Mas e os atributos categóricos? Responda às perguntas abaixo para descobrir.

Qual destes recursos é multivalente (pode ter vários valores)?
Cor
Uma residência pode ter mais de uma cor. Por exemplo, azul com detalhes brancos. Portanto, a cor é um recurso multivalente.
Código postal
Cada residência pode ter apenas um CEP. Esse é um recurso univalente.
Tipo
Sua casa só pode ser de um tipo, casa, apartamento, condomínio etc., o que significa que é um recurso univalente.
Qual tipo de medida de semelhança deve ser usado para calcular a semelhança para um atributo multivalente?
Similaridade do Jaccard
Suponha que as casas tenham cores atribuídas de um conjunto fixo de cores. Em seguida, calcule a semelhança usando a proporção de valores comuns (semelhante de Jackcard).
Distância euclidiana
Para os atributos "código postal" e "tipo" que têm apenas um valor (recursos univalentes), se a correspondência de recurso for, a medida de semelhança é 0. Caso contrário, a medida de semelhança é 1.

Calculando semelhança geral

Você calculou numericamente a semelhança de cada atributo. Porém, o algoritmo de clustering requer a semelhança geral com as casas de cluster. Calcule a semelhança geral entre um par de casas combinando a semelhança por recurso usando a raiz do erro quadrático médio (REQM). Ou seja, em que \(s_1,s_2,\ldots,s_N\) representam as semelhanças entre os \(N\) recursos:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Limitações da medição manual de semelhança

Como mostrado neste exercício, quando os dados se tornam complexos, é cada vez mais difícil processar e combinar os dados para medir com precisão a semelhança de uma maneira semanticamente significativa. Considere os dados de cores. A cor deve ser categórica? Ou devo atribuir cores como vermelho e marrom para ter uma semelhança maior do que preto e branco? E, em relação à combinação de dados, ponderamos o recurso de garagem igualmente do preço da casa. No entanto, o preço da casa é muito mais importante do que ter uma garagem. Faz sentido pesar igualmente as pessoas?

Se você criar uma medida de semelhança que não reflita a semelhança entre os exemplos, os clusters derivados não serão significativos. Isso geralmente acontece com dados categóricos e nos leva a uma medida supervisionada.