Krok 1. Zbierz dane

Zebranie danych jest najważniejszym krokiem do rozwiązania każdego problemu z nadzorowanymi systemami uczącymi się. Klasyfikator tekstu może być tak dobry, jak zbiór danych, na podstawie którego został utworzony.

Jeśli nie masz konkretnego problemu do rozwiązania i chcesz poznać ogólną klasyfikację tekstu, masz do wyboru wiele zbiorów danych typu open source. Linki do niektórych z nich znajdziesz w repozytorium GitHub. Z drugiej strony, jeśli masz do czynienia z konkretnym problemem, musisz zebrać niezbędne dane. Wiele organizacji udostępnia publiczne interfejsy API umożliwiające dostęp do danych, na przykład X API lub NY Times API. Możesz użyć tych interfejsów API, aby rozwiązać problem, który próbujesz rozwiązać.

Oto kilka ważnych kwestii, o których musisz pamiętać podczas zbierania danych:

Jeśli używasz publicznego interfejsu API, zapoznaj się z jego ograniczeniami, zanim go użyjesz. Na przykład niektóre interfejsy API ograniczają częstotliwość wykonywania zapytań.
Im więcej masz przykładów treningowych (nazywanych w dalszej części tego przewodnikami przykładami), tym lepiej. Dzięki temu model będzie lepiej uogólniany.
Upewnij się, że liczba próbek dla każdych klas lub tematu nie jest nadmiernie nierównoważona. Oznacza to, że liczba próbek w każdej klasach powinna być porównywalna.
Sprawdź, czy próbki wystarczająco obejmują obszar możliwych danych wejściowych, a nie tylko typowe przypadki.

W tym przewodniku wykorzystamy zbiór danych z recenzjami filmów w Internet Movie Database (IMDb), aby ilustrować przepływ pracy. Ten zbiór danych zawiera recenzje filmów opublikowane przez użytkowników w witrynie IMDb, a także odpowiadające im etykiety („pozytywne” lub „negatywne”) wskazujące, czy dany film podobał się recenzentowi. To klasyczny przykład problemu z analizą nastawienia.

Wstecz

Wprowadzenie

Dalej

Krok 2. Sprawdź swoje dane

Krok 1. Zbierz dane Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Krok 1. Zbierz dane