In dieser Lektion werden Sie ein ML-Problem* der Literatur aus dem 18. Jahrhundert debuggen.
Beispiel aus der Praxis: Literatur des 18. Jahrhunderts
Beispiel aus der Praxis: Literatur des 18. Jahrhunderts
- Professor für Literatur des 18. Jahrhunderts wollte die politische Neigung der Autoren vorhersagen, die ausschließlich auf dem von dem Autor verwendeten Prinzip basiert.
Beispiel aus der Praxis: Literatur des 18. Jahrhunderts
- Professor für Literatur des 18. Jahrhunderts wollte die politische Neigung der Autoren vorhersagen, die ausschließlich auf dem von dem Autor verwendeten Prinzip basiert.
- Das Forscherteam hat ein Big-Label-Dataset mit vielen Autoren erstellt, Sätze nach Satz gegliedert und in Trainings-/Validierungs-/Test-Datasets aufgeteilt.
Beispiel aus der Praxis: Literatur des 18. Jahrhunderts
- Professor für Literatur des 18. Jahrhunderts wollte die politische Neigung der Autoren vorhersagen, die ausschließlich auf dem von dem Autor verwendeten Prinzip basiert.
- Das Forscherteam hat ein Big-Label-Dataset mit vielen Autoren erstellt, Sätze nach Satz gegliedert und in Trainings-/Validierungs-/Test-Datasets aufgeteilt.
- Das trainierte Modell funktionierte mit Testdaten fast perfekt, aber die Forscher fanden die Ergebnisse verdächtig. Woran könnte das liegen?
Beispiel aus der Praxis: Literatur des 18. Jahrhunderts
Warum war die Testgenauigkeit deiner Meinung nach verdächtig hoch? Versuche, das Problem herauszufinden, und klicke dann unten auf die Wiedergabeschaltfläche ▶, um herauszufinden, ob du richtig liegst.
Beispiel aus der Praxis: Literatur des 18. Jahrhunderts
- Datenaufteilung A: Forscher fügten einige Beispiele der einzelnen Autoren in das Trainings-Dataset ein, andere in das Validierungs-Dataset und wieder andere in das Test-Dataset.
Alle Beispiele von Richardson könnten im Trainings-Dataset enthalten sein, während alle Beispiele für Swift im Validierungs-Dataset enthalten sein könnten.
Beispiel aus der Praxis: Literatur des 18. Jahrhunderts
- Datenaufteilung B: Die Forscher fassen alle Beispiele der einzelnen Autoren in einem Satz zusammen.
Beispiel aus der Praxis: Literatur des 18. Jahrhunderts
- Datenaufteilung A: Forscher fügten einige Beispiele der einzelnen Autoren in das Trainings-Dataset ein, andere in das Validierungs-Dataset und wieder andere in das Test-Dataset.
- Datenaufteilung B: Die Forscher fassen alle Beispiele der einzelnen Autoren in einem Satz zusammen.
- Ergebnisse: Das Modell, das mit Datenaufteilung A trainiert wurde, hatte eine viel höhere Genauigkeit als das Modell, das mit Datenaufteilung B trainiert wurde.
Beispiel aus der Praxis: Literatur des 18. Jahrhunderts
Die Moral: Überlegen Sie sorgfältig, wie Sie die Beispiele aufteilen.
Wissen, was die Daten darstellen
* Wir haben dieses Modul sehr locker (mit einigen Änderungen) auf Basis von Meaning and Mining: The Impact of Implicit Annahmen in Data Mining for the Humanities' von Sculley und Pasanek durchgeführt.