Zebranie danych jest najważniejszym krokiem do rozwiązania każdego problemu z nadzorowanymi systemami uczącymi się. Klasyfikator tekstu może być tak dobry, jak zbiór danych, na podstawie którego został utworzony.
Jeśli nie masz konkretnego problemu do rozwiązania i chcesz poznać ogólną klasyfikację tekstu, masz do wyboru wiele zbiorów danych typu open source. Linki do niektórych z nich znajdziesz w repozytorium GitHub. Z drugiej strony, jeśli masz do czynienia z konkretnym problemem, musisz zebrać niezbędne dane. Wiele organizacji udostępnia publiczne interfejsy API umożliwiające dostęp do danych, na przykład X API lub NY Times API. Możesz użyć tych interfejsów API, aby rozwiązać problem, który próbujesz rozwiązać.
Oto kilka ważnych kwestii, o których musisz pamiętać podczas zbierania danych:
- Jeśli używasz publicznego interfejsu API, zapoznaj się z jego ograniczeniami, zanim go użyjesz. Na przykład niektóre interfejsy API ograniczają częstotliwość wykonywania zapytań.
- Im więcej masz przykładów treningowych (nazywanych w dalszej części tego przewodnikami przykładami), tym lepiej. Dzięki temu model będzie lepiej uogólniany.
- Upewnij się, że liczba próbek dla każdych klas lub tematu nie jest nadmiernie nierównoważona. Oznacza to, że liczba próbek w każdej klasach powinna być porównywalna.
- Sprawdź, czy próbki wystarczająco obejmują obszar możliwych danych wejściowych, a nie tylko typowe przypadki.
W tym przewodniku wykorzystamy zbiór danych z recenzjami filmów w Internet Movie Database (IMDb), aby ilustrować przepływ pracy. Ten zbiór danych zawiera recenzje filmów opublikowane przez użytkowników w witrynie IMDb, a także odpowiadające im etykiety („pozytywne” lub „negatywne”) wskazujące, czy dany film podobał się recenzentowi. To klasyczny przykład problemu z analizą nastawienia.