Systemy ML w świecie rzeczywistym: literatura

Podczas tej lekcji debugujesz rzeczywisty system ML* związany z XVIII-wieczną literaturą.

Prawdziwy przykład: literatura XVIII wieku

  • Profesor XVIII-wiecznej literatury chciał przedyskutować poglądy polityczne tylko na podstawie &metapomysłów.
Stare książki
  • Profesor XVIII-wiecznej literatury chciał przedyskutować poglądy polityczne tylko na podstawie &metapomysłów.
  • Zespół badaczy stworzyła obszerny zbiór danych z wieloma autorami, dziełami, zdańmi po zdań oraz podziałem na zbiory do trenowania, walidacji i testów.
Stare książki
  • Profesor XVIII-wiecznej literatury chciał przedyskutować poglądy polityczne tylko na podstawie &metapomysłów.
  • Zespół badaczy stworzyła obszerny zbiór danych z wieloma autorami, dziełami, zdańmi po zdań oraz podziałem na zbiory do trenowania, walidacji i testów.
  • Wytrenowany model sprawdził się niemal w danych testowych, ale badacze zauważyli, że wyniki są podejrzanie dokładne. Co mogło pójść nie tak?
Stare książki

Dlaczego uważasz, że dokładność testu była podejrzanie wysoka? Sprawdź, czy możesz rozwiązać problem, a następnie kliknij przycisk Zagraj poniżej ▶, żeby sprawdzić, czy jesteś poprawny.

  • Podział danych A: badacze umieszczają każdy z przykładów w zestawie treningowym, część w zestawie do walidacji, a część w zestawie testowym.
Wszystkie przykłady Roberta można znaleźć w zestawie szkoleniowym, a wszystkie przykłady Swifta w zestawie walidacji.
Diagram przedstawiający przykłady przykładów z zestawów treningowych, walidacyjnych i testowych. W każdym zestawie znajdują się przykłady od trzech autorów.
  • Podział danych B: badacze umieszczają wszystkie przykłady autorów w jednym zestawie.
Diagram przedstawiający przykłady przykładów z zestawów treningowych, walidacyjnych i testowych. Zestaw treningowy zawiera tylko przykłady z Swift, zestaw do walidacji zawiera tylko przykłady z Blake'a, a zbiór testowy zawiera tylko przykłady z Defoe.
  • Podział danych A: badacze umieszczają każdy z przykładów w zestawie treningowym, część w zestawie do walidacji, a część w zestawie testowym.
  • Podział danych B: badacze umieszczają wszystkie przykłady autorów w jednym zestawie.
  • Wyniki: model wytrenowany na potrzeby podziału danych A miał znacznie większą dokładność niż model wytrenowany w podziale danych B.

Bardzo moralne: starannie zastanów się, jak podzielić przykłady.

Dowiedz się, co przedstawiają dane.

* Ponownie oprzeliśmy ten moduł nadmiernie luźno (wprowadzaliśmy pewne modyfikacje) w artykule &&tt;Meaning and Mining: Impact of Impactit Aspositions in Data Minting for the humanities & Sculley and Pasanek.