1. Adım: Veri Toplama

Veri toplamak, gözetimli makine öğrenimi sorunlarını çözmenin en önemli adımıdır. Metin sınıflandırıcınız, oluşturulduğu veri kümesi kadar iyi olabilir.

Çözmek istediğiniz belirli bir sorun yoksa ve genel olarak metin sınıflandırmasını keşfetmek istiyorsanız kullanabileceğiniz çok sayıda açık kaynak veri kümesi vardır. Bunların bağlantılarını GitHub depomuzda bulabilirsiniz. Öte yandan, belirli bir sorunla karşılaşıyorsanız gerekli verileri toplamanız gerekir. Birçok kuruluş, verilerine erişmek için herkese açık API'ler sağlar. Örneğin Twitter API'si veya NY Times API. Çözmeye çalıştığınız sorun için bunlardan yararlanabilirsiniz.

Veri toplarken göz önünde bulundurulması gereken bazı önemli noktalar aşağıda belirtilmiştir:

  • Herkese açık bir API kullanıyorsanız kullanmadan önce API'nin sınırlamalarını öğrenin. Örneğin, bazı API'ler sorgu yapabileceğiniz hız için bir sınır belirler.
  • Ne kadar fazla eğitim örneğiniz varsa (bu kılavuzun geri kalanında örnekler olarak anılır), o kadar iyi olur. Bu, modelinizin daha iyi bir şekilde genelleştirilmesine yardımcı olur.
  • Her sınıfın veya konunun örnek sayısının fazla dengeli olmadığından emin olun. Diğer bir deyişle, her sınıf için benzer sayıda örnek bulmanız gerekir.
  • Örneklerinizin, yalnızca yaygın durumları değil, olası giriş alanını yeterli bir şekilde kapsadığından emin olun.

İş akışını göstermek için bu rehberde İnternet Film Veritabanı (IMDb) film yorumları veri kümesini kullanacağız. Bu veri kümesinde, IMDb web sitesindeki kullanıcıların yayınladığı film yorumlarının yanı sıra yorumcunun filmi beğenip beğenmediğini gösteren karşılık gelen etiketler ("olumlu" veya "negatif") yer alır. Bu, yaklaşım analizi sorununun klasik bir örneğidir.