Lineare Regression

In diesem Modul werden die Konzepte der linearen Regression vorgestellt.

Die lineare Regression ist ein statistisches Verfahren, mit dem die Beziehung zwischen Variablen ermittelt wird. Im Kontext von ML wird mithilfe der linearen Regression die Beziehung zwischen Features und einem Label ermittelt.

Angenommen, wir möchten den Kraftstoffverbrauch eines Autos in Kilometern pro Liter anhand des Gewichts des Autos vorhersagen. Wir haben den folgenden Datensatz:

Pfund in Tausendern (Funktion) Meilen pro Gallone (Label)
3,5 18
3,69 15
3.44 18
3.43 16
4.34 15
4,42 14
2,37 24

Wenn wir diese Punkte in ein Diagramm eintragen, erhalten wir die folgende Grafik:

Abbildung 1: Datenpunkte mit einem abfallenden Trend von links nach rechts

Abbildung 1. Gewicht des Autos (in Pfund) im Vergleich zum Kraftstoffverbrauch in MPG. Je schwerer ein Auto ist, desto geringer ist in der Regel der Kraftstoffverbrauch.

Wir könnten ein eigenes Modell erstellen, indem wir eine Linie der besten Anpassung durch die Punkte ziehen:

Abbildung 2. Datenpunkte mit einer Linie der bestmöglichen Anpassung, die das Modell darstellt.

Abbildung 2. Eine Linie der besten Anpassung, die durch die Daten aus der vorherigen Abbildung gezogen wurde.

Lineare Regressionsgleichung

Algebraisch würde das Modell als y = mx + b definiert, wobei

  • „y“ ist die Anzahl der Meilen pro Gallone, der Wert, den wir vorhersagen möchten.
  • $ m $ ist die Steigung der Geraden.
  • „$ x“ ist Pfund – unser Eingabewert.
  • $ b $ ist der Y-Achsenabschnitt.

In der ML wird die Gleichung für ein lineares Regressionsmodell so geschrieben:

$$ y' = b + w_1x_1 $$

Dabei gilt:

  • $ y' $ ist das vorhergesagte Label – die Ausgabe.
  • $ b $ ist die Abweichung des Modells. Der Bias entspricht dem y-Achsenabschnitt in der algebraischen Gleichung für eine Gerade. In der ML wird der Bias manchmal als $ w_0 $ bezeichnet. Er ist ein Parameter des Modells und wird während des Trainings berechnet.
  • $ w_1 $ ist das Gewicht des Elements. Das Gewicht entspricht der Steigung m in der algebraischen Gleichung für eine Gerade. Das Gewicht ist ein Parameter des Modells und wird während des Trainings berechnet.
  • $ x_1 $ ist ein Attribut – die Eingabe.

Während des Trainings berechnet das Modell das Gewicht und die Voreingenommenheit, die das beste Modell ergeben.

Abbildung 3: Die Gleichung y' = b + w1x1, wobei jede Komponente mit ihrem Zweck versehen ist.

Abbildung 3. Mathematische Darstellung eines linearen Modells.

In unserem Beispiel berechnen wir das Gewicht und die Voreingenommenheit anhand der von uns gezeichneten Linie. Der Bias ist 30 (wo die Linie die y-Achse schneidet) und das Gewicht -3,6 (die Steigung der Linie). Das Modell würde als y' = 30 + (-3, 6) x_1 definiert und wir könnten damit Vorhersagen treffen. Mit diesem Modell würde ein 1.800 kg schweres Auto beispielsweise einen geschätzten Kraftstoffverbrauch von 15,6 km/l haben.

Abbildung 4: Dieselbe Grafik wie in Abbildung 2, wobei der Punkt (4, 15,6) hervorgehoben ist.

Abbildung 4. Mit dem Modell hat ein 1.800 kg schweres Auto einen geschätzten Kraftstoffverbrauch von 15, 6 Meilen pro Gallone (7,2 km/l).

Modelle mit mehreren Funktionen

Im Beispiel in diesem Abschnitt wird nur eine Eigenschaft verwendet: das Gewicht des Autos. Ein ausgefeilteres Modell kann jedoch mehrere Merkmale umfassen, die jeweils ein eigenes Gewicht haben ($ w_1 $, $ w_2 $ usw.). Ein Modell mit fünf Features würde beispielsweise so geschrieben:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Ein Modell, das den Kraftstoffverbrauch vorhersagt, könnte beispielsweise zusätzlich folgende Merkmale verwenden:

  • Hubraum
  • Beschleunigung
  • Anzahl der Zylinder
  • Pferdestärke

Dieses Modell würde so geschrieben:

Abbildung 5: Lineare Regressionsgleichung mit fünf Merkmalen.

Abbildung 5. Ein Modell mit fünf Features zur Vorhersage des Kraftstoffverbrauchs eines Autos.

Wenn wir einige dieser zusätzlichen Funktionen in einem Diagramm darstellen, sehen wir, dass sie auch eine lineare Beziehung zum Label „Meilen pro Gallone“ haben:

Abbildung 6. Hubraum in Kubikzentimetern in einem Diagramm in Relation zu Kilometern pro Gallone, das eine negative lineare Beziehung zeigt

Abbildung 6. Hubraum eines Autos in Kubikzentimetern und die Angabe in MPG (Meilen pro Gallone). Je größer der Motor eines Autos ist, desto geringer ist in der Regel der Kraftstoffverbrauch.

Abbildung 7. Beschleunigung von null auf 60 km/h in Sekunden in einem Diagramm in Relation zu Kilometern pro Gallone, das eine positive lineare Beziehung zeigt

Abbildung 7. Die Beschleunigung eines Autos und sein Kraftstoffverbrauch in Kilometern pro Liter. Je länger die Beschleunigung eines Autos dauert, desto höher ist in der Regel der Kraftstoffverbrauch.

Abbildung 8. In einem Diagramm werden PS in Relation zu Kilometern pro Gallone dargestellt, was eine negative lineare Beziehung zeigt.

Abbildung 8. Die PS eines Autos und sein Kraftstoffverbrauch in Kilometern pro Liter. Je höher die PS eines Autos sind, desto niedriger ist in der Regel der Kraftstoffverbrauch.

Übung: Wissen testen

Welche Teile der linearen Regressionsgleichung werden während des Trainings aktualisiert?
Die Voreingenommenheit und Gewichtungen
Während des Trainings aktualisiert das Modell die Voreingenommenheit und die Gewichte.
Die Vorhersage
Die Vorhersagen werden während des Trainings nicht aktualisiert.
Die Featurewerte
Featurewerte sind Teil des Datasets und werden daher während des Trainings nicht aktualisiert.