Numerische Daten: Polynomtransformationen

Wenn ML-Fachleute Domänenwissen haben, das dass eine Variable mit dem Quadrat, dem Würfel oder einer anderen Potenz einer anderen Variable erstellen, ist es hilfreich, synthetische Funktion von einem der vorhandenen numerischen Merkmale.

Betrachten Sie die folgende Streuung von Datenpunkten, bei denen rosafarbene Kreise für eine Klasse oder Kategorie (z. B. eine Baumart) und grüne Dreiecke eine andere Klasse (oder Baumart):

Abbildung 17. y=x^2-Streuung der Datenpunkte mit Dreiecken unter
            Kurve und Kreise über der Kurve. <ph type="x-smartling-placeholder">
</ph> Abbildung 17. Zwei Klassen, die nicht durch eine Zeile getrennt werden können.

Es ist nicht möglich, eine gerade Linie zu zeichnen, die die beiden Bereiche sauber trennt. Es ist jedoch möglich, eine Kurve dazu zu zeichnen:

Abbildung 18: Dasselbe Bild wie in Abbildung 17, nur dieses Mal mit y=x^2
            die übereinandergelegt sind, um eine klare Begrenzung zwischen den Dreiecken und
            Kreise.
Abbildung 18. Dabei trennen Sie die Klassen durch y = x2.

Wie in den Lineares Regressionsmodul Ein lineares Modell mit einem Merkmal, $x_1$, wird durch die lineare Gleichung beschrieben:

$$y = b + w_1x_1$$

Zusätzliche Funktionen unterliegen den zusätzlichen Bedingungen \(w_2x_2\), \(w_3x_3\)usw.

Mit dem Gradientenverfahren wird weight $w_1$ (oder Gewichte) \(w_1\), \(w_2\), \(w_3\)im Fall von zusätzlichen Funktionen), durch die die den Verlust des Modells. Die angezeigten Datenpunkte können jedoch nicht durch eine Linie getrennt werden. Was kann man dagegen tun?

Es ist möglich, sowohl die lineare Gleichung beizubehalten als auch die Nichtlinearität zuzulassen. indem ein neuer Begriff \(x_2\)definiert wird, der \(x_1\) einfach im Quadrat dargestellt wird:

$$x_2 = x_1^2$$

Diese synthetische Funktion, auch polynomiale Transformation genannt, über eine andere Funktion verfügen. Die vorherige lineare Formel sieht dann so aus:

$$y = b + w_1x_1 + w_2x_2$$

Dies kann trotzdem als lineare Regression und die durch Gradientenverfahren ermittelten Gewichtungen, die einen verborgenen quadrierten Term enthält, die Polynomtransformation. Ohne Änderungen wie sich das lineare Modell trainiert, ermöglicht die Addition einer polynomialen Transformation um die Datenpunkte mithilfe einer Kurve $y = b + w_1x + w_2x^2$.

Normalerweise wird das numerische Merkmal mit sich selbst multipliziert, d. h. potenziert werden kann. Manchmal kann ein ML-Anwender eine fundierte Vermutung über den entsprechenden Exponenten. Zum Beispiel sind viele Beziehungen im Quadratmetern miteinander verwandt sind, einschließlich der Beschleunigung aufgrund der Schwerkraft, die Dämpfung von Licht oder Schall über Entfernung und elastische potenzielle Energie.

Ein ähnliches Konzept in kategorische Daten sind die Funktionsverknüpfung, die mehr führt häufig zwei verschiedene Funktionen zusammen.