Die Erfassung von Daten ist der wichtigste Schritt bei der Lösung von Problemen beim überwachten maschinellen Lernen. Ihr Textklassifikator kann nur so gut sein wie das Dataset, auf dem er basiert.
Wenn Sie kein bestimmtes Problem haben, das Sie lösen möchten, und sich einfach mit der Textklassifizierung im Allgemeinen vertraut machen möchten, stehen Ihnen zahlreiche Open-Source-Datasets zur Verfügung. Einige Links finden Sie in unserem GitHub-Repository. Wenn Sie jedoch ein bestimmtes Problem angehen, müssen Sie die erforderlichen Daten erfassen. Viele Organisationen stellen öffentliche APIs für den Zugriff auf ihre Daten bereit, z. B. die X API oder die NY Times API. Möglicherweise können Sie diese APIs für das Problem nutzen, das Sie lösen möchten.
Hier sind einige wichtige Punkte, die Sie bei der Datenerhebung beachten sollten:
- Wenn Sie eine öffentliche API verwenden, sollten Sie sich mit den Einschränkungen der API vertraut machen, bevor Sie sie verwenden. Einige APIs begrenzen beispielsweise die Rate, mit der Abfragen durchgeführt werden können.
- Je mehr Trainingsbeispiele (im weiteren Verlauf als Beispiele bezeichnet) Sie haben, desto besser. Dadurch kann Ihr Modell besser verallgemeinern.
- Achten Sie darauf, dass die Anzahl der Beispiele für jede Klasse oder jedes Thema nicht zu unausgewogen ist. Das heißt, Sie sollten in jeder Klasse eine vergleichbare Anzahl von Stichproben haben.
- Achten Sie darauf, dass Ihre Beispiele den Bereich möglicher Eingaben ausreichend abdecken, nicht nur die häufigsten Fälle.
In diesem Leitfaden verwenden wir zur Veranschaulichung des Workflows das IMDb-Dataset für Filmrezensionen. Dieses Dataset enthält Filmrezensionen, die von Nutzern auf der IMDb-Website veröffentlicht wurden, sowie die entsprechenden Labels („positiv“ oder „negativ“), die angeben, ob dem Rezensenten der Film gefallen hat oder nicht. Dies ist ein klassisches Beispiel für ein Sentimentanalyseproblem.