Im August 2024 gibt es eine neue und verbesserte Version des Crashkurses zum maschinellen Lernen. Mehr dazu demnächst!

Diese Seite wurde von der Cloud Translation API übersetzt.

ML-Systeme in der Praxis: Literatur

In dieser Lektion werden Sie ein ML-Problem* der Literatur aus dem 18. Jahrhundert debuggen.

Beispiel aus der Praxis: Literatur des 18. Jahrhunderts

Professor für Literatur des 18. Jahrhunderts wollte die politische Neigung der Autoren vorhersagen, die ausschließlich auf dem von dem Autor verwendeten Prinzip basiert.

Beispiel aus der Praxis: Literatur des 18. Jahrhunderts

Professor für Literatur des 18. Jahrhunderts wollte die politische Neigung der Autoren vorhersagen, die ausschließlich auf dem von dem Autor verwendeten Prinzip basiert.
Das Forscherteam hat ein Big-Label-Dataset mit vielen Autoren erstellt, Sätze nach Satz gegliedert und in Trainings-/Validierungs-/Test-Datasets aufgeteilt.

Beispiel aus der Praxis: Literatur des 18. Jahrhunderts

Professor für Literatur des 18. Jahrhunderts wollte die politische Neigung der Autoren vorhersagen, die ausschließlich auf dem von dem Autor verwendeten Prinzip basiert.
Das Forscherteam hat ein Big-Label-Dataset mit vielen Autoren erstellt, Sätze nach Satz gegliedert und in Trainings-/Validierungs-/Test-Datasets aufgeteilt.
Das trainierte Modell funktionierte mit Testdaten fast perfekt, aber die Forscher fanden die Ergebnisse verdächtig. Woran könnte das liegen?

Beispiel aus der Praxis: Literatur des 18. Jahrhunderts

Warum war die Testgenauigkeit deiner Meinung nach verdächtig hoch? Versuche, das Problem herauszufinden, und klicke dann unten auf die Wiedergabeschaltfläche ▶, um herauszufinden, ob du richtig liegst.

Beispiel aus der Praxis: Literatur des 18. Jahrhunderts

Datenaufteilung A: Forscher fügten einige Beispiele der einzelnen Autoren in das Trainings-Dataset ein, andere in das Validierungs-Dataset und wieder andere in das Test-Dataset.

Diagramm mit einer Aufschlüsselung der Autorenbeispiele in den Trainings-, Validierungs- und Test-Datasets. In jeder Gruppe sind Beispiele von den drei Autoren zu sehen.

Beispiel aus der Praxis: Literatur des 18. Jahrhunderts

Datenaufteilung B: Die Forscher fassen alle Beispiele der einzelnen Autoren in einem Satz zusammen.

Diagramm mit einer Aufschlüsselung der Autorenbeispiele in den Trainings-, Validierungs- und Test-Datasets. Das Trainings-Dataset enthält nur Beispiele aus Swift, das Validierungs-Dataset enthält nur Beispiele aus Blake und das Test-Dataset enthält nur Beispiele aus Defoe.

Beispiel aus der Praxis: Literatur des 18. Jahrhunderts

Datenaufteilung A: Forscher fügten einige Beispiele der einzelnen Autoren in das Trainings-Dataset ein, andere in das Validierungs-Dataset und wieder andere in das Test-Dataset.
Datenaufteilung B: Die Forscher fassen alle Beispiele der einzelnen Autoren in einem Satz zusammen.
Ergebnisse: Das Modell, das mit Datenaufteilung A trainiert wurde, hatte eine viel höhere Genauigkeit als das Modell, das mit Datenaufteilung B trainiert wurde.

Beispiel aus der Praxis: Literatur des 18. Jahrhunderts

Die Moral: Überlegen Sie sorgfältig, wie Sie die Beispiele aufteilen.

Wissen, was die Daten darstellen

* Wir haben dieses Modul sehr locker (mit einigen Änderungen) auf Basis von Meaning and Mining: The Impact of Implicit Annahmen in Data Mining for the Humanities' von Sculley und Pasanek durchgeführt.

Zurück

Krebsvorhersage (5 Min.)

Weiter

Richtlinien (2 Min.)