L'exercice suivant vous explique comment créer manuellement une mesure de similarité.
Imaginez un ensemble de données simple sur les maisons comme suit:
Fonctionnalité | Type |
---|---|
Prix | Entier positif |
Taille | Valeur à virgule flottante positive en mètres carrés |
Code postal | Integer |
Nombre de chambres | Integer |
Type de maison | Une valeur de texte issue de "maison individuelle", "maison individuelle", "appartement" ou "copropriété" |
Garage | 0/1 pour non/oui |
Coloris | Catégorique multivalente: une ou plusieurs valeurs parmi les couleurs standards "blanc", "jaune", "vert", etc. |
Preprocessing
La première étape consiste à prétraiter les caractéristiques numériques: prix, taille, nombre de chambres et code postal. Vous devrez effectuer une opération différente pour chacune de ces fonctionnalités. Par exemple, supposons que les données tarifaires suivent une distribution bimodale. Que dois-je faire ?
Dans le champ ci-dessous, essayez d'expliquer comment traiter les données de taille.
Dans le champ ci-dessous, essayez d'expliquer comment traiter les données sur le nombre de chambres.
Comment devez-vous représenter les codes postaux ? Convertissez des codes postaux en longitude et en latitude. Traitez ensuite ces valeurs comme vous traiteriez d'autres valeurs numériques.
Calcul de la similarité par caractéristique
Il est maintenant temps de calculer la similarité par caractéristique. Pour les caractéristiques numériques, il suffit de trouver la différence. Pour les caractéristiques binaires (par exemple, si une maison possède un garage), vous pouvez également trouver la différence pour obtenir 0 ou 1. Mais qu'en est-il des caractéristiques catégorielles ? Répondez aux questions ci-dessous pour le savoir.
Calcul de la similarité globale
Vous avez calculé la similarité numérique pour chaque caractéristique. Toutefois, l'algorithme de clustering nécessite la similitude globale avec les maisons en cluster. Calculez la similarité globale entre deux maisons en combinant la similarité par caractéristique à l'aide de la racine carrée de l'erreur quadratique moyenne (RMSE). C'est là que\(s_1,s_2,\ldots,s_N\) représentent les similitudes pour les \(N\) caractéristiques:
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
Limites de la mesure manuelle de similarité
Comme nous l'avons vu dans cet exercice, lorsque les données deviennent complexes, il est de plus en plus difficile de les traiter et de les combiner pour mesurer avec précision la similarité de manière sémantique pertinente. Tenez compte des données de couleur. La couleur doit-elle être vraiment catégorique ? Ou devons-nous attribuer des couleurs telles que le rouge et le marron pour avoir une similitude supérieure à celle du noir et du blanc ? Concernant la combinaison des données, nous avons pondéré la caractéristique garage de manière égale avec le prix des maisons. Toutefois, le prix d'une maison est bien plus important qu'un garage. Est-il vraiment judicieux de les pondérer en parts égales ?
Si vous créez une mesure de similarité qui ne reflète pas vraiment la similarité entre les exemples, vos clusters dérivés ne seront pas pertinents. C'est souvent le cas pour les données catégorielles, ce qui nous amène à une mesure supervisée.