Giriş

Metin sınıflandırma algoritmaları, metin verilerini geniş ölçekte işleyen çeşitli yazılım sistemlerinin temelini oluşturur. E-posta yazılımı, gelen postaların gelen kutusuna gönderilip gönderilmediğini veya spam klasörüne filtrelenip filtrelenmediğini belirlemek için metin sınıflandırması kullanır. Tartışma forumları, yorumların uygunsuz olarak işaretlenip işaretlenmeyeceğini belirlemek için metin sınıflandırmasını kullanır.

Bunlar, bir metin dokümanını önceden tanımlanmış konu kümesinden birinde kategorize eden iki konu sınıflandırması örneğidir. Birçok konu sınıflandırma sorununda bu sınıflandırma öncelikle metindeki anahtar kelimelere göre yapılır.

Konu sınıflandırması

Şekil 1: Gelen spam e-postaları işaretlemek için kullanılan konu sınıflandırması bir spam klasörüne filtrelenir.

Yaygın olarak kullanılan bir diğer metin sınıflandırması türü de duygu analizidir. Amacı, metin içeriğinin polaritesini belirlemek olan, ifade ettiği görüş türünü ifade etmektir. Bu, ikili program beğenme/beğenme puanı veya 1'den 5'e kadar olan bir yıldız puanı gibi daha ayrıntılı bir seçenek grubu şeklinde olabilir. Duygu analizine örnek olarak, insanların Black Panther filmini beğenip beğenmediğini belirlemek için Twitter yayınlarının analiz edilmesi veya Walmart yorumlarından yeni bir Nike ayakkabı markasının halkın genel fikrinin açıklanması verilebilir.

Bu kılavuzda, metin sınıflandırma sorunlarını çözmeye yönelik en iyi makine öğrenimi en iyi uygulamaları açıklanmaktadır. Neler öğreneceksiniz?

  • Makine öğreniminden yararlanarak metin sınıflandırma sorunlarını çözmeyi sağlayan üst düzey, uçtan uca iş akışı
  • Metin sınıflandırma sorununuz için doğru modeli seçme
  • Tercih ettiğiniz modeli TensorFlow kullanarak uygulama

Metin Sınıflandırma İş Akışı

Aşağıda makine öğrenimi sorunlarını çözmek için kullanılan iş akışına genel bir bakış verilmiştir:

Konu sınıflandırması

Şekil 2: Makine öğrenimi sorunlarını çözmek için iş akışı

Aşağıdaki bölümlerde, her bir adımın ayrıntıları ve metin verileri için nasıl uygulanacağı açıklanmaktadır.