In diesem Modul erfahren Sie, wie die logistische Regression für Klassifizierungsaufgaben verwendet werden kann. Außerdem erfahren Sie, wie Sie die Effektivität von Klassifizierungsmodellen bewerten.
Klassifizierung
Klassifizierung vs. Regression
- Manchmal verwenden wir logistische Regressionen für die Wahrscheinlichkeitsausgaben. Dies ist eine Regression in (0, 1).
- In anderen Fällen wird der Wert für eine eigenständige binäre Klassifizierung begrenzt.
- Die Auswahl des Schwellenwerts ist eine wichtige Wahl und kann abgestimmt werden.
Bewertungsmesswerte: Genauigkeit
- Wie bewerten wir Klassifizierungsmodelle?
Bewertungsmesswerte: Genauigkeit
- Wie bewerten wir Klassifizierungsmodelle?
- Eine mögliche Maßnahme: Genauigkeit
- den Anteil der Vorhersagen,
Genauigkeit kann irreführend sein
- In vielen Fällen ist die Genauigkeit ein schlechter oder irreführender Messwert.
- Meistens, wenn verschiedene Arten von Fehlern unterschiedliche Kosten haben
- Typischer Fall ist ein Ungleichgewicht in der Klasse, in dem positive oder negative Ergebnisse äußerst selten auftreten.
Richtig positive und falsch positive Ergebnisse
- Bei Problemen mit ungleichen Klassen, die zum Trennen verschiedener Arten von Fehlern nützlich sind
Richtig positive Ergebnisse Wir haben Wolf korrekt genannt. Wir haben die Stadt gerettet. |
Falsch positive Ergebnisse Fehler: Wir haben Wolf fälschlicherweise angerufen. Wir alle sind sauer auf uns. |
Falsch negative Ergebnisse Es gab einen Wolf, aber wir haben ihn nicht entdeckt. Er aß all unsere Hühner. |
Richtig negative Ergebnisse Kein Wolf, kein Alarm. Es geht allen gut. |
Bewertungsmesswerte: Genauigkeit und Trefferquote
- Genauigkeit: (positiv positive Ergebnisse) / (alle positiven Vorhersagen)
- Hat das Modell die „positive“ Klasse gesehen, war es richtig?
- Intuition: Hat das Modell zu oft „Wolf“ geweint?
Bewertungsmesswerte: Genauigkeit und Trefferquote
- Genauigkeit: (positiv positive Ergebnisse) / (alle positiven Vorhersagen)
- Hat das Modell die „positive“ Klasse gesehen, war es richtig?
- Intuition: Hat das Modell zu oft „Wolf“ geweint?
- Trefferquote: (positiv positive Ergebnisse) / (alle tatsächlich positiven Ergebnisse)
- Wie viele der möglichen positiven Ergebnisse hat das Modell richtig identifiziert?
- Intuition: Hast du Wölfe verfehlt?
Wenn du fertig bist, tippe auf „Wiedergabe“ ▶, um fortzufahren
Sehen Sie sich die folgenden Optionen an.
Verwenden Sie ein Klassifizierungsmodell, bei dem E-Mails in zwei Kategorien unterteilt werden: „Spam“ oder „Kein Spam“. Was passiert mit der Genauigkeit, wenn Sie den Klassifizierungsschwellenwert erhöhen?
Definitiv erhöhen.
Das Erhöhen des Klassifizierungsschwellenwerts erhöht in der Regel die Genauigkeit. Eine Erhöhung, d. h. die Genauigkeit erhöht sich jedoch nicht monoton, wenn der Grenzwert erhöht wird.
Wahrscheinlich erhöhen.
Im Allgemeinen werden durch eine Erhöhung des Klassifizierungsschwellenwerts falsch positive Ergebnisse reduziert und damit auch die Genauigkeit erhöht.
Wahrscheinlich geringer.
Im Allgemeinen werden durch eine Erhöhung des Klassifizierungsschwellenwerts falsch positive Ergebnisse reduziert und damit auch die Genauigkeit erhöht.
Definitiv verringern.
Im Allgemeinen werden durch eine Erhöhung des Klassifizierungsschwellenwerts falsch positive Ergebnisse reduziert und damit auch die Genauigkeit erhöht.
ROC-Kurve
Jeder Punkt ist der TP- und FP-Rate bei einem Entscheidungsschwellenwert.
Bewertungsmesswerte: AUC
- AUC: „Fläche unter der ROC-Kurve“
Bewertungsmesswerte: AUC
- AUC: „Fläche unter der ROC-Kurve“
- Interpretation:
- Wenn wir eine zufällige positive und eine zufällige negative Zahl auswählen, wie wahrscheinlich ist es, dass mein Modell sie in der richtigen Reihenfolge bewertet?
Bewertungsmesswerte: AUC
- AUC: „Fläche unter der ROC-Kurve“
- Interpretation:
- Wenn wir eine zufällige positive und eine zufällige negative Zahl auswählen, wie wahrscheinlich ist es, dass mein Modell sie in der richtigen Reihenfolge bewertet?
- Intuition: gibt einen aggregierten Messwert für die Leistung über alle möglichen Klassifizierungsschwellenwerte hinweg an
Vorhersage-Bias
- Die Vorhersagen der logistischen Regression sollten unvoreingenommen sein.
- Durchschnitt der Vorhersagen == Durchschnitt der Beobachtungen
Vorhersage-Bias
- Die Vorhersagen der logistischen Regression sollten unvoreingenommen sein.
- Durchschnitt der Vorhersagen == Durchschnitt der Beobachtungen
- Bias ist eine Canary-Version.
- Null Verzerrung allein bedeutet nicht, dass alles in deinem System perfekt ist.
- Aber es ist eine gute Plausibilitätsprüfung.
Vorhersage-Bias (Fortsetzung)
- Wenn Sie Voreingenommenheit haben, liegt ein Problem vor.
- Unvollständiger Funktionssatz?
- Fehlerhafte Pipeline?
- Verzerrtes Trainingsbeispiel?
- Beheben Sie Verzerrungen nicht mit einer Kalibrierungsebene, sondern beheben Sie sie im Modell.
- Suchen Sie nach Verzerrungen in Datensegmenten. Das kann zu Verbesserungen führen.