Die folgenden Fragen helfen Ihnen dabei, Ihr Verständnis der wichtigsten ML-Konzepte zu vertiefen.
Prognosestärke
Überwachte ML-Modelle werden mithilfe von Datasets mit Beispielen mit Labels trainiert. Das Modell lernt, das Label anhand der Features vorherzusagen. Nicht jedes Feature in einem Dataset
hat jedoch Vorhersagefähigkeit. In einigen Fällen fungieren nur wenige Merkmale als Prädiktoren für das Label. Verwenden Sie im folgenden Dataset den Preis als Label und die verbleibenden Spalten als Features.
Welche drei Merkmale sind Ihrer Meinung nach wahrscheinlich die besten Indikatoren für den Preis eines Autos?
Marke_Modell, Jahr, Meilen.
Die Marke/das Modell, das Baujahr und die Kilometer eines Autos gehören wahrscheinlich zu den stärksten Indikatoren für seinen Preis.
Farbe, Höhe, Make_model.
Die Größe und Farbe eines Autos sind keine klaren Hinweise auf den Preis eines Autos.
Kilometer, Getriebe, Make_model.
Das Getriebe ist kein wesentlicher Indikator für den Preis.
Reifengröße, Radstand, Jahr.
Reifengröße und Radstand sind keine guten Prädiktoren für den Autopreis.
Überwachtes und unüberwachtes Lernen
Sie werden entweder einen beaufsichtigten oder einen unbeaufsichtigten Ansatz wählen.
Wenn Sie beispielsweise den Wert oder die Kategorie, die Sie vorhersagen möchten, im Voraus wissen, sollten Sie überwachtes Lernen verwenden. Wenn Sie jedoch wissen möchten, ob Ihr Dataset Segmentierungen oder Gruppierungen verwandter Beispiele enthält, verwenden Sie unbeaufsichtigtes Lernen.
Angenommen, Sie haben ein Dataset mit Nutzern für eine Online-Shopping-Website, das die folgenden Spalten enthält:
Würden Sie überwachtes oder unüberwachtes Lernen verwenden, um mehr über die Nutzer zu erfahren, die Ihre Website besuchen?
Unüberwachtes Lernen.
Da das Modell Gruppen verwandter Kunden gruppieren soll, verwenden wir unüberwachtes Lernen. Nachdem das Modell die Nutzer gruppiert hat, würden wir für jeden Cluster eigene Namen erstellen, z. B. „Rabattjäger“, „Schnäppchenjäger“, „Surfer“, „loyal“ und „wanderer“.
Überwachtes Lernen, da ich vorhersagen möchte, zu welcher Klasse ein Nutzer gehört.
Beim überwachten Lernen muss das Dataset das Label enthalten, das Sie vorhersagen möchten. Das Dataset enthält kein Label, das sich auf eine Nutzerkategorie bezieht.
Angenommen, Sie haben ein Energieverbrauchs-Dataset für Haushalte mit den folgenden Spalten:
Welche Art von ML würden Sie verwenden, um die Kilowattstunden vorherzusagen, die pro Jahr für ein neu gebautes Haus verbraucht werden?
Überwachtes Lernen.
Beim überwachten Lernen wird anhand von beschrifteten Beispielen trainiert. In diesem Dataset wäre das Label „genutzte Kilowattstunden pro Jahr“, da das Modell diesen Wert vorhersagen soll. Die Merkmale wären „Quadratmeter“, „Standort“ und „Baujahr“.
Unüberwachtes Lernen.
Beim unüberwachten Lernen werden Beispiele ohne Label verwendet. In diesem Beispiel wäre das Label „Kilowattstunden pro Jahr“, da das Modell diesen Wert vorhersagen soll.
Angenommen, Sie haben ein Flight-Dataset mit den folgenden Spalten:
Würden Sie die Regressions- oder Klassifizierung verwenden, wenn Sie die Kosten eines Bustickets vorhersagen möchten?
Regression
Die Ausgabe eines Regressionsmodells ist ein numerischer Wert.
Klassifizierung
Die Ausgabe eines Klassifizierungsmodells ist ein diskreter Wert, normalerweise ein Wort. In diesem Fall sind die Kosten für ein Busticket ein numerischer Wert.
Können Sie auf der Grundlage des Datasets ein Klassifizierungsmodell trainieren, um die Kosten eines Bustickets als „hoch“, „durchschnittlich“ oder „niedrig“ zu klassifizieren?
Ja, aber zuerst müssten wir die numerischen Werte in der Spalte coach_ticket_cost
in kategoriale Werte umwandeln.
Es ist möglich, ein Klassifizierungsmodell aus dem Dataset zu erstellen.
Sie würden dann in etwa so vorgehen:
- Ermitteln Sie die durchschnittlichen Kosten eines Tickets vom Abflughafen zum Zielflughafen.
- Bestimmen Sie die Schwellenwerte, die als „hoch“, „durchschnittlich“ und „niedrig“ gelten würden.
- Vergleichen Sie die prognostizierten Kosten mit den Schwellenwerten und geben Sie die Kategorie aus, in die der Wert fällt.
Nein. Es ist nicht möglich, ein Klassifizierungsmodell zu erstellen. Die coach_ticket_cost
-Werte sind numerisch und nicht kategorial.
Mit ein wenig Arbeit könnten Sie ein Klassifizierungsmodell erstellen.
Nein. Klassifizierungsmodelle sagen nur zwei Kategorien voraus, z. B. spam
oder not_spam
. Dieses Modell müsste drei Kategorien vorhersagen.
Klassifizierungsmodelle können mehrere Kategorien vorhersagen. Sie werden als mehrklassige Klassifizierungsmodelle bezeichnet.
Training und Bewertung
Nachdem wir ein Modell trainiert haben, bewerten wir es mithilfe eines Datasets mit Beispielen mit Labels und vergleichen den vorhergesagten Wert des Modells mit dem tatsächlichen Wert des Labels.
Wählen Sie die beiden besten Antworten für die Frage aus.
Was könnten Sie tun, um sie zu verbessern, wenn die Vorhersagen des Modells weit entfernt sind?
Trainieren Sie das Modell neu, aber verwenden Sie nur die Funktionen, die Ihrer Meinung nach die größte Vorhersagekraft für das Label haben.
Wenn Sie das Modell mit weniger Features, die aber mehr Vorhersagekraft haben, neu trainieren, kann dadurch ein Modell erstellt werden, das bessere Vorhersagen macht.
Sie können kein Modell korrigieren, dessen Vorhersagen weit entfernt sind.
Es ist möglich, ein Modell zu korrigieren, dessen Vorhersagen nicht korrekt sind. Die meisten Modelle erfordern mehrere Trainingsrunden, bis sie nützliche Vorhersagen treffen.
Trainieren Sie das Modell mit einem größeren und vielfältigeren Dataset neu.
Modelle, die anhand von Datasets mit mehr Beispielen und einem größeren Wertebereich trainiert wurden, können bessere Vorhersagen liefern, da das Modell eine bessere allgemeine Lösung für die Beziehung zwischen den Features und dem Label hat.
Versuchen Sie es mit einem anderen Trainingsansatz. Wenn Sie beispielsweise einen überwachten Ansatz verwendet haben, versuchen Sie es mit einem unbeaufsichtigten Ansatz.
Ein anderer Trainingsansatz würde keine besseren Vorhersagen liefern.
Sie sind nun bereit für den nächsten Schritt auf Ihrem ML-Weg:
Leitfaden zu Menschen und KI. Wenn Sie nach Methoden, Best Practices und Beispielen suchen, die von Google-Mitarbeitern, Branchenexperten und der akademischen Forschung für den Einsatz von ML präsentiert werden.
Probleme mit dem Bildausschnitt: Sie benötigen einen praxiserprobten Ansatz, um ML-Modelle zu erstellen und häufige Fallstricke zu vermeiden.
Crashkurs „Maschinelles Lernen“. Wenn Sie bereit für einen ausführlichen und praxisorientierten Ansatz zum Thema ML sind.