Parfois, lorsque le professionnel du ML a une connaissance du domaine, qu'une variable est liée au carré, au cube ou à une autre puissance d'une autre variable , il est utile de créer une variable caractéristique synthétique à partir d'une des caractéristiques numériques existantes.
Considérez la répartition suivante des points de données, où les cercles roses représentent Une classe ou une catégorie (par exemple, une espèce d'arbre) et des triangles verts une autre classe (ou espèce d'arbre):
Il n'est pas possible de tracer une ligne droite qui sépare clairement les deux , mais il est possible de dessiner une courbe qui le fasse:
Comme indiqué dans le Module de régression linéaire, un modèle linéaire à une seule caractéristique, $x_1$, est décrit par l'équation linéaire suivante:
Des fonctionnalités supplémentaires sont gérées par l'ajout des conditions d'utilisation \(w_2x_2\), \(w_3x_3\), etc.
La descente de gradient trouve weight $w_1$ (ou pondérations) \(w_1\), \(w_2\), \(w_3\), dans le cas de fonctionnalités supplémentaires), ce qui réduit au maximum la perte du modèle. Toutefois, les points de données affichés ne peuvent pas être séparés par une ligne. Que puis-je faire ?
Il est possible de conserver à la fois l'équation linéaire et d'autoriser la non-linéarité en définissant un nouveau terme, \(x_2\), simplement \(x_1\) au carré:
Cette caractéristique synthétique, appelée transformation polynomiale, est traitée comme n'importe quelle autre fonctionnalité. La formule linéaire précédente devient:
Cela peut être considéré comme régression linéaire et les pondérations déterminées par la descente de gradient, comme d'habitude, contenant un terme au carré caché, la transformation polynomiale. Sans changer l'entraînement du modèle linéaire, l'ajout d'une transformation polynomiale permet pour séparer les points de données à l'aide d'une courbe du type forme $y = b + w_1x + w_2x^2$.
Habituellement, la caractéristique numérique d'intérêt est multipliée par elle-même, c'est-à-dire élevé à une certaine puissance. Parfois, un professionnel du ML peut estimer en connaissance de cause de l'exposant approprié. Par exemple, de nombreuses relations dans le sont liés aux termes au carré, y compris l'accélération due à la gravité, atténuation de la lumière ou du son sur la distance, et énergie potentielle élastique.
Un concept connexe dans données catégorielles : le croisement de caractéristiques, synthétise fréquemment deux caractéristiques différentes.