Krok 1. Zbierz dane

Zbieranie danych to najważniejszy krok pozwalający rozwiązać każdy nadzorowany problem z systemami uczącymi się. Klasyfikator tekstu może być równie dobry jak zbiór danych, z którego został utworzony.

Jeśli nie masz konkretnego problemu do rozwiązania i chcesz się dowiedzieć ogólnie o klasyfikacji tekstu, masz do dyspozycji wiele zbiorów danych typu open source. Linki do niektórych z nich znajdziesz w naszym repozytorium GitHub. Jeśli jednak zajmujesz się konkretnym problemem, musisz zgromadzić niezbędne dane. Wiele organizacji udostępnia publiczne interfejsy API do uzyskiwania dostępu do danych, na przykład Twitter API czy NY Times API. Być może uda Ci się je wykorzystać do rozwiązania problemu.

Podczas zbierania danych pamiętaj o tych kwestiach:

  • Jeśli korzystasz z publicznego interfejsu API, zapoznaj się z ograniczeniami tego interfejsu. Na przykład niektóre interfejsy API określają limit częstotliwości wysyłania zapytań.
  • Im więcej przykładów szkoleniowych (czyli przykładów w pozostałej części tego przewodnika), tym lepiej. Dzięki temu model będzie ogólniejszy.
  • Zadbaj o to, by liczba próbek dla każdej klasy lub tematu była bezproblemowo. Oznacza to, że w każdej klasie powinno znajdować się porównywalna liczba próbek.
  • Upewnij się, że w Twoich próbkach są odpowiednie przestrzenie do wprowadzania danych, a nie tylko typowe przypadki.

W tym przewodniku wykorzystamy zbiór filmów z recenzjami filmów internetowych (IMDb) do zilustrowania przepływu pracy. Ten zbiór zawiera recenzje filmów opublikowane przez użytkowników w witrynie IMDb, a także odpowiadające im etykiety („pozytywne” lub „negatywne”) wskazujące, czy recenzent ocenił film, czy nie. To klasyczny przykład problemu z analizą nastawienia.