Às vezes, quando o profissional de ML tem conhecimento de domínio que sugere que uma variável está relacionada ao quadrado, ao cubo ou a outra potência de outra é útil criar uma recurso sintético de um dos atributos numéricos atuais.
Considere a seguinte propagação de pontos de dados, em que os círculos rosa representam uma classe ou categoria (por exemplo, uma espécie de árvore) e triângulos verdes outra classe (ou espécie de árvore):
Não é possível desenhar uma reta que separa os dois mas é possível desenhar uma curva que faça isso:
Conforme discutido nas Módulo de regressão linear, um modelo linear com um atributo, $x_1$, é descrito pela equação linear:
Os recursos adicionais são processados com a adição dos termos \(w_2x_2\), \(w_3x_3\)etc.
O gradiente descendente encontra a peso $w_1$ (ou pesos) \(w_1\), \(w_2\), \(w_3\), no caso de recursos adicionais) que minimiza a perda do modelo. No entanto, os pontos de dados mostrados não podem ser separados por uma linha. O que posso fazer?
É possível manter a equação linear e permitir a não linearidade ao definir um novo termo, \(x_2\), que é simplesmente \(x_1\) ao quadrado:
Esse atributo sintético, chamado de transformação polinomial, é tratado como qualquer outros recursos. A fórmula linear anterior se torna:
Isso ainda pode ser tratado como um regressão linear problema, e os pesos determinados pelo gradiente descendente, como de costume, apesar contendo um termo quadrático oculto, a transformação polinomial. Sem alterar como o modelo linear treina, a adição de uma transformação polinomial permite que para separar os pontos de dados usando uma curva da forma $y = b + w_1x + w_2x^2$.
Normalmente, o atributo numérico de interesse é multiplicado por si mesmo, ou seja, elevado a uma potência. Às vezes, um profissional de ML pode fazer um palpite sobre o expoente apropriado. Por exemplo, muitas relações na física mundo estão relacionados a termos quadráticos, incluindo aceleração da gravidade, as atenuação da luz ou do som à distância e energia potencial elástica.
Um conceito relacionado dados categóricos são os cruzamento de atributos, que mais geralmente sintetiza dois recursos diferentes.