Terkadang, ketika praktisi ML memiliki pengetahuan domain yang menyarankan satu variabel terkait dengan kuadrat, kubus, atau pangkat lain dari variabel , sangat berguna untuk membuat fitur sintetis dari satu dari fitur numerik yang ada.
Pertimbangkan penyebaran titik data berikut, di mana lingkaran merah muda mewakili satu kelas atau kategori (misalnya, spesies pohon) dan segitiga hijau kelas lain (atau spesies pohon):
Tidak mungkin menggambar garis lurus yang memisahkan keduanya dengan rapi tetapi bisa menggambar kurva yang melakukannya:
Seperti yang dibahas dalam Modul regresi linear, model linear dengan satu fitur, $x_1$, dijelaskan dengan persamaan linear:
Fitur tambahan ditangani dengan penambahan istilah \(w_2x_2\), \(w_3x_3\), dll.
Penurunan gradien menemukan berat $w_1$ (atau bobot \(w_1\), \(w_2\), \(w_3\), untuk fitur tambahan) yang meminimalkan hilangnya model. Namun, titik data yang ditampilkan tidak dapat dipisahkan dengan garis. Apa yang dapat dilakukan?
Persamaan linear dapat tetap dan opsi nonlinearitas dengan menentukan istilah baru, \(x_2\), yaitu \(x_1\) kuadratkan:
Fitur sintetik ini, yang disebut transformasi polinomial, diperlakukan seperti fitur lainnya. Formula linear sebelumnya menjadi:
Ini masih bisa diperlakukan sebagai regresi linear masalah, dan bobot yang ditentukan melalui penurunan gradien, seperti biasa, meskipun yang berisi suku kuadrat tersembunyi, transformasi polinomial. Tanpa mengubah bagaimana model linear dilatih, penambahan transformasi polinomial memungkinkan untuk memisahkan titik data menggunakan bentuk $y = b + w_1x + w_2x^2$.
Biasanya fitur numerik yang diminati dikalikan dengan dirinya sendiri, yaitu dipangkatkan. Terkadang praktisi ML dapat membuat perkiraan yang tepat tentang eksponen yang sesuai. Misalnya, banyak hubungan dalam di dunia terkait dengan istilah kuadrat, termasuk percepatan karena gravitasi, pelemahan cahaya atau suara dari jarak, dan energi potensial elastis.
Konsep terkait di data kategorik adalah persilangan fitur, yang lebih sering mensintesis dua fitur berbeda.