Dati numerici: trasformazioni polinomiali

A volte, quando il professionista ML ha conoscenze settoriali che suggeriscono che una variabile è correlata al quadrato, al cubo o ad altra potenza di un'altra , è utile creare una variabile caratteristica sintetica da uno delle caratteristiche numeriche esistenti.

Considera la seguente diffusione dei punti dati, dove i cerchi rosa rappresentano una classe o categoria (ad esempio una specie di albero) e triangoli verdi di un'altra classe (o specie di albero):

Figura 17. Estensione y=x^2 dei punti dati, con triangoli al di sotto della
            e i cerchi sopra la curva.
. Figura 17. Due classi che non possono essere separate da una riga.

Non è possibile tracciare una linea retta che separa in modo netto i due elementi ma è possibile tracciare una curva in questo modo:

Figura 18. Stessa immagine della Figura 17, ma questa volta con y=x^2
            in sovrapposizione per creare un confine chiaro tra i triangoli e
            cerchi.
Figura 18. Separare le classi con y = x2.

Come discusso nel Modulo di regressione lineare, un modello lineare con una caratteristica, $x_1$, è descritta dall'equazione lineare:

$$y = b + w_1x_1$$

Le funzionalità aggiuntive vengono gestite mediante l'aggiunta dei termini \(w_2x_2\), \(w_3x_3\)e così via.

La discesa del gradiente trova la weight $w_1$ (o pesi) \(w_1\), \(w_2\), \(w_3\), nel caso di funzionalità aggiuntive) che riduce al minimo la perdita del modello. Tuttavia, i punti dati visualizzati non possono essere separati da una linea. Che cosa posso fare?

È possibile mantenere sia l'equazione lineare sia consentire la non linearità definendo un nuovo termine, \(x_2\), che viene semplicemente \(x_1\) al quadrato:

$$x_2 = x_1^2$$

Questa caratteristica sintetica, chiamata trasformazione polinomiale, viene trattata come qualsiasi un'altra funzionalità. La formula lineare precedente diventa:

$$y = b + w_1x_1 + w_2x_2$$

Ciò può comunque essere trattato come un regressione lineare problema e i pesi determinati attraverso la discesa del gradiente, come al solito, contenente un termine al quadrato nascosto, la trasformazione polinomiale. Senza modificare al modo in cui il modello lineare si addestra, l'aggiunta di una trasformazione polinomiale consente per separare i punti dati utilizzando una curva del $y = b + w_1x + w_2x^2$.

Di solito la caratteristica numerica di interesse viene moltiplicata per se stessa, ovvero elevato a una certa potenza. A volte un professionista di ML può fare un'ipotesi informata sull'esponente appropriato. Ad esempio, molte relazioni nel campo sono correlate ai termini quadrati, inclusa l'accelerazione dovuta alla gravità, attenuazione della luce o del suono sulla distanza ed energia potenziale elastica.

Un concetto correlato in dati categorici è il incrocio di caratteristiche, che spesso sintetizza due diverse caratteristiche.