Schritt 1: Daten erfassen

Das Erfassen von Daten ist der wichtigste Schritt zur Lösung eines Problems mit überwachtem maschinellem Lernen. Der Textklassifikator kann nur so gut sein wie das Dataset, aus dem er erstellt wurde.

Wenn Sie kein bestimmtes Problem haben, das Sie lösen möchten, und einfach nur die Textklassifizierung im Allgemeinen untersuchen möchten, stehen Ihnen viele Open-Source-Datasets zur Verfügung. Einige dieser Links finden Sie in unserem GitHub-Repository. Wenn Sie andererseits ein bestimmtes Problem angehen, müssen Sie die erforderlichen Daten erfassen. Viele Organisationen bieten öffentliche APIs für den Zugriff auf ihre Daten, z. B. die Twitter API oder die NY Times API. Möglicherweise können Sie diese für das Problem, das Sie lösen möchten, nutzen.

Beachten Sie bei der Datenerhebung Folgendes:

  • Wenn Sie eine öffentliche API verwenden, machen Sie sich mit den Einschränkungen der API vertraut, bevor Sie sie verwenden. Einige APIs legen beispielsweise ein Limit für die Häufigkeit fest, mit der Sie Abfragen ausführen können.
  • Je mehr Trainingsbeispiele (im weiteren Verlauf dieses Leitfadens als Beispiele bezeichnet) haben, desto besser. So können Sie Ihr Modell besser verallgemeinern.
  • Achten Sie darauf, dass die Anzahl der Stichproben für jede Klasse oder jedes Thema nicht zu ungleichmäßig ist. Das heißt, Sie sollten in jeder Klasse eine vergleichbare Anzahl von Stichproben haben.
  • Achten Sie darauf, dass Ihre Beispiele den Bereich möglicher Eingaben angemessen abdecken, nicht nur die häufigen Fälle.

In diesem Leitfaden verwenden wir zur Veranschaulichung das Dataset der Internet Film Database (IMDb) mit Filmrezensionen. Dieses Dataset enthält Filmrezensionen, die von Personen auf der IMDb-Website gepostet wurden, sowie die entsprechenden Labels („positiv“ oder „negativ“), die angeben, ob dem Rezensenten der Film gefallen hat. Dies ist ein klassisches Beispiel für ein Problem mit der Sentimentanalyse.