Testen Sie Ihr Wissen

Mit den folgenden Fragen können Sie Ihr Verständnis der wichtigsten ML-Konzepte festigen.

Vorhersagekraft

Bei überwachten ML-Modellen werden Datasets mit Labels verwendet. Das Modell lernt, das Label anhand der Features vorherzusagen. Allerdings hat nicht jedes Merkmal in einem Datensatz eine Vorhersagekraft. In einigen Fällen sind nur wenige Merkmale als Prädiktoren für das Label geeignet. Verwenden Sie im folgenden Dataset „price“ als Label und die übrigen Spalten als Features.

Ein Beispiel für Autoattribute mit Labels

Welche drei Merkmale sind Ihrer Meinung nach die größten Preisfaktoren für ein Auto?
Marke_Modell, Jahr, Kilometer.
Marke/Modell, Baujahr und Kilometerstand eines Autos sind wahrscheinlich die stärksten Indikatoren für den Preis.
Farbe, Höhe, Marke_Modell
Höhe und Farbe eines Autos sind keine guten Prädiktoren für den Preis eines Autos.
Kilometer, Getriebe, Marke_Modell
Das Getriebe ist kein wichtiger Preisfaktor.
Reifengröße, Radstand, Jahr.
Reifengröße und Radstand sind keine guten Indikatoren für den Preis eines Autos.

Supervisiertes und unüberwachtes Lernen

Je nach Problem verwenden Sie entweder einen überwachten oder einen unüberwachten Ansatz. Wenn Sie beispielsweise den Wert oder die Kategorie, die Sie vorhersagen möchten, bereits kennen, sollten Sie die Methode des überwachten Lernens verwenden. Wenn Sie jedoch wissen möchten, ob Ihr Datensatz Segmentierungen oder Gruppierungen ähnlicher Beispiele enthält, sollten Sie sich für das unüberwachte Lernen entscheiden.

Angenommen, Sie haben einen Datensatz mit Nutzern einer Online-Shopping-Website, der die folgenden Spalten enthält:

Ein Bild einer Zeile mit Kundenattributen.

Wenn Sie die Arten von Nutzern kennenlernen möchten, die die Website besuchen, würden Sie dann die Methode des überwachten oder des unüberwachten Lernens verwenden?
Unbeaufsichtigtes Lernen
Da wir möchten, dass das Modell Gruppen ähnlicher Kunden clustert, verwenden wir das unbeaufsichtigte Lernen. Nachdem das Modell die Nutzer in Cluster unterteilt hat, erstellen wir eigene Namen für jeden Cluster, z. B. „Rabattjäger“, „Schnäppchenjäger“, „Surfer“, „Treue Kunden“ und „Umherschweifende“.
Supervised Learning, weil ich vorhersagen möchte, zu welcher Klasse ein Nutzer gehört.
Beim überwachten Lernen muss das Dataset das Label enthalten, das Sie vorhersagen möchten. Im Datensatz gibt es kein Label, das sich auf eine Nutzerkategorie bezieht.

Angenommen, Sie haben einen Datensatz zur Energienutzung für Haushalte mit den folgenden Spalten:

Ein Bild mit einer Zeile von Zuhause-Attributen.

Welche Art von ML würden Sie verwenden, um die pro Jahr verbrauchten Kilowattstunden für ein neu gebautes Haus vorherzusagen?
Überwachtes Lernen
Beim überwachten Lernen werden mit Labels versehene Beispiele verwendet. In diesem Datensatz wäre „verbrauchte Kilowattstunden pro Jahr“ das Label, da dies der Wert ist, den das Modell vorhersagen soll. Die Features wären „Quadratmeter“, „Standort“ und „Baujahr“.
Unbeaufsichtigtes Lernen
Beim unüberwachten Lernen werden keine Labels verwendet. In diesem Beispiel wäre „verbrauchte Kilowattstunden pro Jahr“ das Label, da dies der Wert ist, den das Modell vorhersagen soll.

Angenommen, Sie haben einen Flugdatensatz mit den folgenden Spalten:

Ein Bild einer Zeile mit Flugdaten.

Wenn Sie die Kosten für ein Busticket vorhersagen möchten, würden Sie eine Regression oder Klassifizierung verwenden?
Regression
Die Ausgabe eines Regressionsmodells ist ein numerischer Wert.
Klassifizierung
Die Ausgabe eines Klassifizierungsmodells ist ein diskreter Wert, in der Regel ein Wort. In diesem Fall ist der Preis für ein Busticket ein numerischer Wert.
Könnten Sie anhand des Datensatzes ein Klassifizierungsmodell trainieren, um die Kosten eines Bustickets als „hoch“, „durchschnittlich“ oder „niedrig“ zu klassifizieren?
Ja, aber wir müssen zuerst die numerischen Werte in der Spalte coach_ticket_cost in kategorische Werte umwandeln.
Es ist möglich, aus dem Datensatz ein Klassifizierungsmodell zu erstellen. Sie würden dann so vorgehen:
  1. Ermitteln Sie die durchschnittlichen Kosten für ein Ticket vom Abflughafen zum Zielflughafen.
  2. Legen Sie die Grenzwerte für „hoch“, „durchschnittlich“ und „niedrig“ fest.
  3. Vergleicht die geschätzten Kosten mit den Grenzwerten und gibt die Kategorie aus, in die der Wert fällt.
Nein. Es ist nicht möglich, ein Klassifizierungsmodell zu erstellen. Die coach_ticket_cost-Werte sind numerisch, nicht kategorisch.
Mit ein wenig Arbeit könnten Sie ein Klassifizierungsmodell erstellen.
Nein. Klassifizierungsmodelle prognostizieren nur zwei Kategorien, z. B. spam oder not_spam. Dieses Modell muss drei Kategorien vorhersagen.
Klassifizierungsmodelle können mehrere Kategorien vorhersagen. Sie werden als Klassifizierungsmodelle mit mehreren Klassen bezeichnet.

Training und Bewertung

Nachdem wir ein Modell trainiert haben, bewerten wir es mit einem Dataset mit gekennzeichneten Beispielen und vergleichen den vorhergesagten Wert des Modells mit dem tatsächlichen Wert des Labels.

Wählen Sie die beiden besten Antworten für die Frage aus.

Was könnten Sie tun, um die Vorhersagen des Modells zu verbessern, wenn sie weit von der Realität entfernt sind?
Trainieren Sie das Modell neu, verwenden Sie dabei aber nur die Merkmale, die Ihrer Meinung nach die größte Vorhersagekraft für das Label haben.
Wenn Sie das Modell mit weniger, aber aussagekräftigeren Features neu trainieren, kann das zu einem Modell mit besseren Vorhersagen führen.
Sie können ein Modell, dessen Vorhersagen weit von der Realität entfernt sind, nicht korrigieren.
Es ist möglich, ein Modell zu korrigieren, dessen Vorhersagen nicht korrekt sind. Die meisten Modelle erfordern mehrere Trainingsrunden, bis sie nützliche Vorhersagen treffen.
Trainieren Sie das Modell mit einem größeren und vielfältigeren Datensatz neu.
Mit Modellen, die mit Datasets mit mehr Beispielen und einem breiteren Wertebereich trainiert wurden, lassen sich bessere Vorhersagen treffen, da das Modell eine bessere generalisierte Lösung für die Beziehung zwischen den Merkmalen und dem Label hat.
Probieren Sie einen anderen Trainingsansatz aus. Wenn Sie beispielsweise einen überwachten Ansatz verwendet haben, versuchen Sie es mit einem unüberwachten Ansatz.
Ein anderer Trainingsansatz würde nicht zu besseren Vorhersagen führen.

Sie sind jetzt bereit für den nächsten Schritt auf Ihrem Weg zur ML:

  • People + AI Guidebook Hier finden Sie eine Reihe von Methoden, Best Practices und Beispielen, die von Google-Mitarbeitern, Branchenexperten und akademischen Forschern zur Verwendung von ML präsentiert wurden.

  • Problembeschreibung Wenn Sie nach einem praxiserprobten Ansatz zum Erstellen von ML-Modellen suchen und dabei häufige Fallstricke vermeiden möchten.

  • Crashkurs „Maschinelles Lernen“ Wenn Sie bereit sind, mehr über ML zu erfahren, und dabei einen detaillierten und praktischen Ansatz bevorzugen.