Gözetimli makine öğrenimi problemlerini çözmenin en önemli adımı veri toplamaktır. Metin sınıflandırıcınızın performansı, yalnızca oluşturulduğu veri kümesi kadar iyi olabilir.
Çözmek istediğiniz belirli bir sorununuz yoksa ve yalnızca genel olarak metin sınıflandırmasını incelemek istiyorsanız kullanabileceğiniz çok sayıda açık kaynak veri kümesi vardır. Bunlardan bazılarının bağlantılarını GitHub depomuzda bulabilirsiniz. Öte yandan, belirli bir sorunla mücadele ediyorsanız gerekli verileri toplamanız gerekir. Birçok kuruluş, verilerine erişmek için herkese açık API'ler sağlar. Örneğin, X API veya NY Times API. Çözmeye çalıştığınız sorun için bu API'lerden yararlanabilirsiniz.
Veri toplarken unutulmaması gereken bazı önemli noktalar şunlardır:
- Herkese açık bir API kullanıyorsanız bunları kullanmadan önce API'nin sınırlamalarını öğrenin. Örneğin, bazı API'ler sorgu yapma hızınızı sınırlandırmıştır.
- Ne kadar fazla eğitim örneği (bu kılavuzun geri kalanında örnekler olarak anılır) o kadar iyi olur. Bu, modelinizin daha iyi genelleştirilmesine yardımcı olur.
- Her sınıf veya konu için örnek sayısının aşırı dengesiz olmadığından emin olun. Yani her sınıfta benzer sayıda örneklem olmalıdır.
- Örneklerinizin yalnızca yaygın durumları değil, olası girişler alanını yeterince kapsadığından emin olun.
Bu kılavuzda, iş akışını göstermek için İnternet Film Veritabanı (IMDb) film incelemeleri veri kümesini kullanacağız. Bu veri kümesinde, IMDb web sitesindeki kişilerin yayınladığı film yorumlarının yanı sıra yorumcunun filmi beğenip beğenmediğini belirten uygun etiketler ("olumlu" veya "olumsuz") yer alır. Bu, yaklaşım analizi problemlerinin klasik bir örneğidir.