Às vezes, quando o profissional de ML tem conhecimento de domínio que sugere que uma variável está relacionada ao quadrado, ao cubo ou a outra potência de outra é útil criar uma recurso sintético de um dos atributos numéricos atuais.
Considere a seguinte propagação de pontos de dados, em que os círculos rosa representam uma classe ou categoria (por exemplo, uma espécie de árvore) e triângulos verdes outra classe (ou espécie de árvore):

Não é possível desenhar uma reta que separa os dois mas é possível desenhar uma curva que faça isso:

Conforme discutido nas Módulo de regressão linear, um modelo linear com um atributo, , é descrito pela equação linear:
Os recursos adicionais são processados com a adição dos termos , etc.
O gradiente descendente encontra a peso (ou pesos) , , , no caso de recursos adicionais) que minimiza a perda do modelo. No entanto, os pontos de dados mostrados não podem ser separados por uma linha. O que posso fazer?
É possível manter a equação linear e permitir a não linearidade ao definir um novo termo, , que é simplesmente ao quadrado:
Esse atributo sintético, chamado de transformação polinomial, é tratado como qualquer outros recursos. A fórmula linear anterior se torna:
Isso ainda pode ser tratado como um regressão linear problema, e os pesos determinados pelo gradiente descendente, como de costume, apesar contendo um termo quadrático oculto, a transformação polinomial. Sem alterar como o modelo linear treina, a adição de uma transformação polinomial permite que para separar os pontos de dados usando uma curva da forma .
Normalmente, o atributo numérico de interesse é multiplicado por si mesmo, ou seja, elevado a uma potência. Às vezes, um profissional de ML pode fazer um palpite sobre o expoente apropriado. Por exemplo, muitas relações na física mundo estão relacionados a termos quadráticos, incluindo aceleração da gravidade, as atenuação da luz ou do som à distância e energia potencial elástica.
Um conceito relacionado dados categóricos são os cruzamento de atributos, que mais geralmente sintetiza dois recursos diferentes.