Data numerik: Transformasi polinomial

Terkadang, ketika praktisi ML memiliki pengetahuan domain yang menyarankan satu variabel terkait dengan kuadrat, kubus, atau pangkat lain dari variabel , sangat berguna untuk membuat fitur sintetis dari satu dari fitur numerik yang ada.

Pertimbangkan penyebaran titik data berikut, di mana lingkaran merah muda mewakili satu kelas atau kategori (misalnya, spesies pohon) dan segitiga hijau kelas lain (atau spesies pohon):

Gambar 17. penyebaran y=x^2 titik data, dengan segitiga di bawah
            lingkaran di atas kurva.
Gambar 17. Dua class yang tidak dapat dipisahkan oleh garis.

Tidak mungkin menggambar garis lurus yang memisahkan keduanya dengan rapi tetapi bisa menggambar kurva yang melakukannya:

Gambar 18. Gambar yang sama seperti Gambar 17, hanya kali ini dengan y=x^2
            untuk membuat pembatas yang 
jelas di antara segitiga dan
            lingkaran.
Gambar 18. Memisahkan class dengan y = x2.

Seperti yang dibahas dalam Modul regresi linear, model linear dengan satu fitur, $x_1$, dijelaskan dengan persamaan linear:

$$y = b + w_1x_1$$

Fitur tambahan ditangani dengan penambahan istilah \(w_2x_2\), \(w_3x_3\), dll.

Penurunan gradien menemukan berat $w_1$ (atau bobot \(w_1\), \(w_2\), \(w_3\), untuk fitur tambahan) yang meminimalkan hilangnya model. Namun, titik data yang ditampilkan tidak dapat dipisahkan dengan garis. Apa yang dapat dilakukan?

Persamaan linear dapat tetap dan opsi nonlinearitas dengan menentukan istilah baru, \(x_2\), yaitu \(x_1\) kuadratkan:

$$x_2 = x_1^2$$

Fitur sintetik ini, yang disebut transformasi polinomial, diperlakukan seperti fitur lainnya. Formula linear sebelumnya menjadi:

$$y = b + w_1x_1 + w_2x_2$$

Ini masih bisa diperlakukan sebagai regresi linear masalah, dan bobot yang ditentukan melalui penurunan gradien, seperti biasa, meskipun yang berisi suku kuadrat tersembunyi, transformasi polinomial. Tanpa mengubah bagaimana model linear dilatih, penambahan transformasi polinomial memungkinkan untuk memisahkan titik data menggunakan bentuk $y = b + w_1x + w_2x^2$.

Biasanya fitur numerik yang diminati dikalikan dengan dirinya sendiri, yaitu dipangkatkan. Terkadang praktisi ML dapat membuat perkiraan yang tepat tentang eksponen yang sesuai. Misalnya, banyak hubungan dalam di dunia terkait dengan istilah kuadrat, termasuk percepatan karena gravitasi, pelemahan cahaya atau suara dari jarak, dan energi potensial elastis.

Konsep terkait di data kategorik adalah persilangan fitur, yang lebih sering mensintesis dua fitur berbeda.