Veri kümeleri: Etiketler

Bu bölümde etiketler ele alınmaktadır.

Doğrudan etiketler ve proxy etiketleri

İki farklı etiket türünü göz önünde bulundurun:

  • Doğrudan etiketler (modelinizle ilgili tahminle aynı etiketlerdir) düşünmeye başlar. Yani modelinizin yapmaya çalıştığı tahmin, veri kümenizde bir sütun olarak mevcuttur. Örneğin, bicycle owner adlı bir sütun şunun için doğrudan etiket olur: bir kişinin sahip olup olmadığını tahmin eden ikili sınıflandırma modeli bir köprü görevi görüyorsunuz.
  • Proxy etiketleri: Benzer ancak benzer özelliklere sahip etiketlerdir. modelinizin yapmaya çalıştığı tahminle aynı olmayacaktır. Örneğin, Bisiklet Tuhaflığı dergisine abone olan bir kullanıcı ama kesin olmasa da muhtemelen bir bisikleti var.

Doğrudan etiketler genellikle proxy etiketlerinden daha iyidir. Veri kümeniz bir doğrudan etiket sağlarsa muhtemelen onu kullanmanız gerekir. Ancak çoğu zaman doğrudan etiketler kullanılamayabilir.

Proxy etiketleri her zaman bir tehlikedir; yaklaşık doğrudan etikettir. Ancak, bazı proxy etiketleri yeterince yakın tahminlere sahiptir yararlı olmaları açısından önemlidir. Proxy etiketleri kullanan modeller yalnızca ve tahmin arasındaki bağlantıyı kontrol edin.

Her etiketin bir kayan nokta sayı olarak sunulması gerektiğini unutmayın özellik vektöründe (çünkü makine öğrenimi, finansal olarak, matematik ve matematik biliminin çok büyük bir birleşimi.) işlemler). Bazen doğrudan etiket vardır ancak özellik vektöründe bir kayan nokta sayısı. Bu durumda, proxy etiketi kullanın.

Alıştırma: Öğrendiklerinizi sınayın

Şirketiniz aşağıdakileri yapmak istiyor:

Posta kuponları ("Eski bisikletinizde yeni bisikletlerde% 15 indirim") sunuyor.

Dolayısıyla, modelinizin aşağıdakileri yapması gerekir:

Hangi insanların bisiklete sahip olduğunu tahmin edin.

Maalesef veri kümesi bike owner adlı bir sütun içermiyor. Ancak, veri kümesi recently bought a bicycle adlı bir sütun içeriyor.

recently bought a bicycle iyi bir proxy etiketi olur mu? yoksa bu model için zayıf bir proxy etiketi mi var?
İyi proxy etiketi
recently bought a bicycle sütunu, iyi bir proxy etiketi vardır. Sonuçta insanların çoğu artık bisiklet satın alıyor. Yine de diğer tüm proxy etiketleri, çok iyi olanlar da dahil, recently bought a bicycle mükemmel değildir. Sonuçta satın alan kişi öğe her zaman o öğeyi kullanan (veya öğenin sahibi olan) kişi değildir. Örneğin, kullanıcılar bazen bisikletleri hediye olarak satın alır.
Kötü proxy etiketi
Tüm proxy etiketleri gibi recently bought a bicycle Kusursuz (bazı bisikletler hediye olarak satın alınır ve diğerleri). Ancak recently bought a bicycle yine de, birisinin bu alan adının sahibi olduğunu bisiklete biner.

İnsan tarafından oluşturulan veriler

Bazı veriler insan tarafından oluşturulur. yani bir veya daha fazla kişi bazı araştırmaları ve genellikle etiket için bir değer sağlar. Örneğin, bir veya daha fazla meteorolog gökyüzünün resimlerini inceleyerek bulut türleri.

Alternatif olarak bazı veriler otomatik olarak oluşturulur. Yani yazılım değeri belirler. Örneğin, makine öğrenimi modeli sayesinde gökyüzü resimlerini inceleyip bulut türleri.

Bu bölümde, insan tarafından oluşturulan verilerin avantajları ve dezavantajları incelenmektedir.

Avantajları

  • Derecelendirme yapan gerçek kişiler, karmaşık bile olsa çok çeşitli görevleri öğrenmesi zor olabilir.
  • Süreç, veri kümesi sahibinin açık ve net veriler geliştirmesini sağlar. veya tutarlı kriterler arıyoruz.

Dezavantajları

  • Genellikle gerçek kişilerden oluşan değerlendirme ekiplerine ödeme yaparsınız. Bu nedenle, gerçek kişiler tarafından oluşturulan veriler pahalı olabilir.
  • Hata yapmak insandır. Bu nedenle, değerlendirme yapan birden fazla kişi, aynı verilerdir.

İhtiyaçlarınızı belirlemek için şu soruları gözden geçirin:

  • Derecelendirme yapan kişiler ne kadar yetenekli olmalıdır? (Örneğin, değerlendiriciler belirli bir dili biliyor musunuz? Diyalog veya NLP için dil uzmanlarına ihtiyacınız var mı? uygulamalar?)
  • Kaç tane etiketli örneğe ihtiyacınız var? Bu araçlara ne kadar kısa sürede ihtiyacınız var?
  • Bütçeniz nedir?

Gerçek kişi olan değerlendirmecilerinizi her zaman tekrar kontrol edin. Örneğin, etiket 1000 örnekleri ve sonuçlarınızın diğer değerlendiricilerin sonuçlarıyla sonuç. Tutarsızlıklar ortaya çıkarsa, derecelendirmelerinizin doğru olduğunu varsaymayın. özellikle de değer yargısı varsa. Gerçek kişi olan değerlendirmeciler, ona yardımcı olacak talimatlar eklemeyi düşünün ve tekrar deneyin.