Veri kümeleri: Etiketler

Bu bölümde etiketler ele alınmaktadır.

Doğrudan ve proxy etiketleri

İki farklı etiket türü vardır:

  • Modelinizin yapmaya çalıştığı tahminle aynı olan etiketler olan doğrudan etiketler. Yani modelinizin yapmaya çalıştığı tahmin, veri kümenizde tam olarak bir sütun olarak bulunur. Örneğin, bicycle owner adlı bir sütun, bir kişinin bisiklet sahibi olup olmadığını tahmin eden ikili sınıflandırma modeli için doğrudan bir etiket olur.
  • Modelinizin yapmaya çalıştığı tahmine benzer ancak aynı olmayan etiketler olan vekil etiketleri. Örneğin, Bisiklet Tutkunları dergisinin abonesi olan bir kullanıcının bisikleti olması muhtemeldir ancak kesin değildir.

Doğrudan etiketler genellikle proxy etiketlerinden daha iyidir. Veri kümeniz olası bir doğrudan etiket sağlıyorsa muhtemelen bunu kullanmanız gerekir. Ancak çoğu zaman doğrudan etiketler kullanılamaz.

Proxy etiketleri her zaman bir uzlaşmadır (doğrudan etiketin kusurlu bir yaklaşımı). Ancak bazı proxy etiketleri, faydalı olabilecek kadar yakın bir yaklaşım sunar. Proxy etiketleri kullanan modellerin yararlılığı, proxy etiketi ile tahmin arasındaki bağlantı kadardır.

Her etiketin özellik vektöründe kayan noktalı sayı olarak gösterilmesi gerektiğini unutmayın (çünkü makine öğrenimi temelde matematiksel işlemlerin büyük bir birleşimidir). Bazen doğrudan bir etiket olsa da özellik vektöründe kayan noktalı sayı olarak kolayca temsil edilemez. Bu durumda proxy etiketi kullanın.

Alıştırma: Anladığınızdan emin olun

Şirketiniz aşağıdakileri yapmak istiyor:

Bisiklet sahiplerine kuponlar ("Eski bisikletinizi yeni bir bisiklete% 15 indirimle takas edin") gönderin.

Bu nedenle, modeliniz aşağıdakileri yapmalıdır:

Hangi kullanıcıların bisiklet sahibi olduğunu tahmin edin.

Maalesef veri kümesinde bike owner adlı bir sütun yok. Ancak veri kümesinde recently bought a bicycle adlı bir sütun var.

recently bought a bicycle, bu model için iyi bir proxy etiketi mi yoksa kötü bir proxy etiketi mi?
İyi bir proxy etiketi
recently bought a bicycle sütunu nispeten iyi bir proxy etiketidir. Sonuçta, bisiklet satın alan kişilerin çoğunun artık bisikleti var. Yine de, çok iyi olanlar da dahil olmak üzere tüm proxy etiketleri gibi recently bought a bicycle de mükemmel değildir. Sonuçta, bir ürünü satın alan kişi her zaman o ürünü kullanan (veya sahibi olan) kişi değildir. Örneğin, kullanıcılar bazen hediye olarak bisiklet satın alır.
Kötü proxy etiketi
Tüm proxy etiketleri gibi recently bought a bicycle de mükemmel değildir (bazı bisikletler hediye olarak satın alınıp başkalarına verilebilir). Ancak recently bought a bicycle, bir kişinin bisiklete sahip olduğunun nispeten iyi bir göstergesidir.

Gerçek kişiler tarafından oluşturulan veriler

Bazı veriler insan tarafından oluşturulur. Yani bir veya daha fazla insan bazı bilgileri inceler ve genellikle etiket için bir değer sağlar. Örneğin, bir veya daha fazla meteoroloji uzmanı gökyüzünün resimlerini inceleyip bulut türlerini belirleyebilir.

Alternatif olarak, bazı veriler otomatik olarak oluşturulur. Yani değeri yazılım (muhtemelen başka bir makine öğrenimi modeli) belirler. Örneğin, bir makine öğrenimi modeli gökyüzü resimlerini inceleyip bulut türlerini otomatik olarak tanımlayabilir.

Bu bölümde, gerçek kişiler tarafından oluşturulan verilerin avantajları ve dezavantajları incelenmektedir.

Avantajlar

  • İnsan puanlayıcılar, karmaşık makine öğrenimi modellerinin bile zor bulabileceği çok çeşitli görevleri gerçekleştirebilir.
  • Bu süreç, veri kümesinin sahibini net ve tutarlı ölçütler geliştirmeye zorlar.

Dezavantajları

  • Genellikle uzmanlara ödeme yaparsınız. Bu nedenle, uzmanlar tarafından oluşturulan veriler pahalı olabilir.
  • Hata yapmak insana özgüdür. Bu nedenle, birden fazla uzmanın aynı verileri değerlendirmesi gerekebilir.

İhtiyaçlarınıza karar vermek için şu soruları düşünün:

  • Puanlayıcılarınız ne kadar yetenekli olmalıdır? (Örneğin, puanlayıcıların belirli bir dili bilmesi gerekir mi? Diyalog veya doğal dil işleme uygulamaları için dilbilimcilere ihtiyacınız var mı?)
  • Kaç etiketli örneğe ihtiyacınız var? Ne kadar erken almanız gerekiyor?
  • Bütçeniz nedir?

Gerçek kişilerden oluşan puanlama ekibinizi her zaman tekrar kontrol edin. Örneğin, 1.000 örneği kendiniz etiketleyin ve sonuçlarınızın diğer değerlendiricilerin sonuçlarıyla nasıl eşleştiğini görün. Tutarsızlıklar ortaya çıkarsa özellikle değer yargısı söz konusuysa derecelendirmelerinizin doğru olduğunu varsaymayın. Gerçek kişilerden oluşan değerlendiriciler hata yaptıysa onlara yardımcı olacak talimatlar ekleyip tekrar deneyebilirsiniz.