Mengumpulkan data adalah langkah terpenting dalam memecahkan semua masalah supervised machine learning. Pengklasifikasi teks Anda hanya dapat berfungsi baik jika set data tersebut dibuat.
Jika Anda tidak memiliki masalah spesifik yang ingin diselesaikan dan hanya tertarik untuk mempelajari klasifikasi teks secara umum, tersedia banyak set data open source. Anda dapat menemukan link ke beberapa di antaranya di repo GitHub. Di sisi lain, jika Anda menangani masalah tertentu, Anda harus mengumpulkan data yang diperlukan. Banyak organisasi menyediakan API publik untuk mengakses data mereka—misalnya, X API atau NY Times API. Anda mungkin dapat memanfaatkan API ini untuk masalah yang Anda coba pecahkan.
Berikut adalah beberapa hal penting yang perlu diingat saat mengumpulkan data:
- Jika Anda menggunakan API publik, pahami batasan API sebelum menggunakannya. Misalnya, beberapa API menetapkan batas kecepatan membuat kueri.
- Semakin banyak contoh pelatihan (disebut sebagai contoh dalam bagian lainnya dalam panduan ini) yang Anda miliki, semakin baik. Hal ini akan membantu model Anda melakukan generalisasi dengan lebih baik.
- Pastikan jumlah sampel untuk setiap class atau topik tidak terlalu tidak seimbang. Artinya, Anda harus memiliki jumlah sampel yang sebanding di setiap class.
- Pastikan sampel Anda secara memadai mencakup ruang dari kemungkinan input, bukan hanya pada kasus yang umum.
Dalam panduan ini, kami akan menggunakan set data ulasan film Internet Movie Database (IMDb) untuk mengilustrasikan alur kerja. {i>Dataset<i} ini berisi ulasan film yang diposting oleh orang-orang di situs web IMDb, serta label yang sesuai (“positif” atau “negatif”) yang menunjukkan apakah pengulas menyukai film tersebut atau tidak. Ini adalah contoh klasik dari masalah analisis sentimen.