Esta página foi traduzida pela API Cloud Translation.

Exercício de medição da semelhança manual

O exercício a seguir mostra como criar manualmente uma medida de semelhança.

Imagine que você tenha um conjunto de dados simples em casas da seguinte maneira:

Seleção de	Tipo
Preço	Número inteiro positivo
Tamanho	Valor de ponto flutuante positivo em unidades de metros quadrados
Código postal	Inteiro
Número de quartos	Inteiro
Tipo de casa	Um valor de texto de "single_family", "multi-family", "apartment" ou "condo"
Garage	0/1 para não/sim
Cores	categórica multivalente: um ou mais valores de cores padrão "branca", "amarela", "verde" etc.

Pré-processamento

A primeira etapa é pré-processar os atributos numéricos: preço, tamanho, número de quartos e CEP. Para cada um desses recursos será necessário executar uma operação diferente. Por exemplo, nesse caso, suponha que os dados de preços sigam uma distribuição bimodal. Qual é o próximo passo?

O que você deve fazer se seus dados seguirem uma distribuição bimodal?

Criar quantis dos dados e escalonar para [0,1].

Essa é a etapa correta a ser seguida quando os dados seguem uma distribuição bimodal.

Transformação de escalonamento e registro em [0,1].

Essa é a etapa a ser seguida quando os dados seguem uma distribuição de lei de potência.

Normalizar e dimensionar para [0,1].

Essa é a etapa que deve ser seguida quando os dados seguem uma distribuição gaussiana.

No campo abaixo, tente explicar como você processaria dados de tamanho.

Eu pré-processaria os dados de tamanho fazendo o seguinte:

Clique no ícone de adição para conferir sua resposta

Verifique se o tamanho segue uma distribuição por lei de energia, Poisson ou gaussiano.

Lei de potência: registro e transformação de registros para [0,1].
Poisson: criar quantis e escalonar para [0,1].
Gaussiano: normalizar e dimensionar para [0,1].

No campo abaixo, tente explicar como processar dados sobre o número de quartos.

Eu pré-processaria o número de quartos por:

Clique no ícone de adição para conferir sua resposta

Confira a distribuição do número de quartos. Provavelmente, cortar clipes de outliers e escalonar para [0,1] será adequado. No entanto, se você encontrar uma distribuição de lei de energia, uma transformação de registro pode ser necessária.

Como representar os códigos postais? Converta códigos postais em longitude e latitude. Em seguida, processe esses valores como faria com outros valores numéricos.

Como calcular a semelhança por recurso

Agora é hora de calcular a semelhança por atributo. Para atributos numéricos, você simplesmente encontra a diferença. Para recursos binários, como se uma casa tem uma garagem, você também pode encontrar a diferença para receber 0 ou 1. Mas e os atributos categóricos? Responda às perguntas abaixo para descobrir.

Qual destes recursos é multivalente (pode ter vários valores)?

Cor

Uma residência pode ter mais de uma cor. Por exemplo, azul com detalhes brancos. Portanto, a cor é um recurso multivalente.

Código postal

Cada residência pode ter apenas um CEP. Esse é um recurso univalente.

Tipo

Sua casa só pode ser de um tipo, casa, apartamento, condomínio etc., o que significa que é um recurso univalente.

Qual tipo de medida de semelhança deve ser usado para calcular a semelhança para um atributo multivalente?

Similaridade do Jaccard

Suponha que as casas tenham cores atribuídas de um conjunto fixo de cores. Em seguida, calcule a semelhança usando a proporção de valores comuns (semelhante de Jackcard).

Distância euclidiana

Para os atributos "código postal" e "tipo" que têm apenas um valor (recursos univalentes), se a correspondência de recurso for, a medida de semelhança é 0. Caso contrário, a medida de semelhança é 1.

Calculando semelhança geral

Você calculou numericamente a semelhança de cada atributo. Porém, o algoritmo de clustering requer a semelhança geral com as casas de cluster. Calcule a semelhança geral entre um par de casas combinando a semelhança por recurso usando a raiz do erro quadrático médio (REQM). Ou seja, em que \(s_1,s_2,\ldots,s_N\) representam as semelhanças entre os \(N\) recursos:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Limitações da medição manual de semelhança

Como mostrado neste exercício, quando os dados se tornam complexos, é cada vez mais difícil processar e combinar os dados para medir com precisão a semelhança de uma maneira semanticamente significativa. Considere os dados de cores. A cor deve ser categórica? Ou devo atribuir cores como vermelho e marrom para ter uma semelhança maior do que preto e branco? E, em relação à combinação de dados, ponderamos o recurso de garagem igualmente do preço da casa. No entanto, o preço da casa é muito mais importante do que ter uma garagem. Faz sentido pesar igualmente as pessoas?

Se você criar uma medida de semelhança que não reflita a semelhança entre os exemplos, os clusters derivados não serão significativos. Isso geralmente acontece com dados categóricos e nos leva a uma medida supervisionada.

Medida de semelhança manual

Exercício de programação manual por similaridade