O exercício a seguir mostra como criar manualmente uma medida de semelhança.
Imagine que você tenha um conjunto de dados simples em casas da seguinte maneira:
Seleção de | Tipo |
---|---|
Preço | Número inteiro positivo |
Tamanho | Valor de ponto flutuante positivo em unidades de metros quadrados |
Código postal | Inteiro |
Número de quartos | Inteiro |
Tipo de casa | Um valor de texto de "single_family", "multi-family", "apartment" ou "condo" |
Garage | 0/1 para não/sim |
Cores | categórica multivalente: um ou mais valores de cores padrão "branca", "amarela", "verde" etc. |
Pré-processamento
A primeira etapa é pré-processar os atributos numéricos: preço, tamanho, número de quartos e CEP. Para cada um desses recursos será necessário executar uma operação diferente. Por exemplo, nesse caso, suponha que os dados de preços sigam uma distribuição bimodal. Qual é o próximo passo?
No campo abaixo, tente explicar como você processaria dados de tamanho.
No campo abaixo, tente explicar como processar dados sobre o número de quartos.
Como representar os códigos postais? Converta códigos postais em longitude e latitude. Em seguida, processe esses valores como faria com outros valores numéricos.
Como calcular a semelhança por recurso
Agora é hora de calcular a semelhança por atributo. Para atributos numéricos, você simplesmente encontra a diferença. Para recursos binários, como se uma casa tem uma garagem, você também pode encontrar a diferença para receber 0 ou 1. Mas e os atributos categóricos? Responda às perguntas abaixo para descobrir.
Calculando semelhança geral
Você calculou numericamente a semelhança de cada atributo. Porém, o algoritmo de clustering requer a semelhança geral com as casas de cluster. Calcule a semelhança geral entre um par de casas combinando a semelhança por recurso usando a raiz do erro quadrático médio (REQM). Ou seja, em que \(s_1,s_2,\ldots,s_N\) representam as semelhanças entre os \(N\) recursos:
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
Limitações da medição manual de semelhança
Como mostrado neste exercício, quando os dados se tornam complexos, é cada vez mais difícil processar e combinar os dados para medir com precisão a semelhança de uma maneira semanticamente significativa. Considere os dados de cores. A cor deve ser categórica? Ou devo atribuir cores como vermelho e marrom para ter uma semelhança maior do que preto e branco? E, em relação à combinação de dados, ponderamos o recurso de garagem igualmente do preço da casa. No entanto, o preço da casa é muito mais importante do que ter uma garagem. Faz sentido pesar igualmente as pessoas?
Se você criar uma medida de semelhança que não reflita a semelhança entre os exemplos, os clusters derivados não serão significativos. Isso geralmente acontece com dados categóricos e nos leva a uma medida supervisionada.