Veri kümeleri: Etiketler

Bu bölümde etiketler ele alınmaktadır.

Doğrudan ve proxy etiketleri

İki farklı etiket türü vardır:

  • Modelinizin yapmaya çalıştığı tahminle aynı olan doğrudan etiketler. Yani modelinizin yapmaya çalıştığı tahmin, veri kümenizde tam olarak bir sütun olarak bulunur. Örneğin, bicycle owner adlı bir sütun, bir kişinin bisikleti olup olmadığını tahmin eden ikili sınıflandırma modeli için doğrudan etiket olur.
  • Proxy etiketler: Modelinizin yapmaya çalıştığı tahminle benzer olan ancak aynı olmayan etiketlerdir. Örneğin, Bicycle Bizarre dergisine abone olan bir kişinin bisikleti olması muhtemeldir ancak kesin değildir.

Doğrudan etiketler genellikle proxy etiketlerden daha iyidir. Veri kümeniz olası bir doğrudan etiket sağlıyorsa bunu kullanmanız gerekir. Ancak çoğu zaman doğrudan etiketler kullanılamaz.

Proxy etiketleri her zaman bir uzlaşmadır. Doğrudan etiketin kusurlu bir yaklaşımıdır. Ancak bazı vekil etiketler, kullanışlı olacak kadar yakın tahminler sunar. Proxy etiketleri kullanan modeller yalnızca proxy etiketi ile tahmin arasındaki bağlantı kadar yararlıdır.

Her etiketin, özellik vektöründe kayan noktalı sayı olarak gösterilmesi gerektiğini unutmayın (çünkü makine öğrenimi temelde yalnızca büyük bir matematiksel işlemler karışımıdır). Bazen doğrudan bir etiket vardır ancak özellik vektöründe kayan noktalı sayı olarak kolayca gösterilemez. Bu durumda, bir proxy etiketi kullanın.

Alıştırma: Anlayıp anlamadığınızı kontrol edin

Şirketiniz aşağıdakileri yapmak istiyor:

Bisiklet sahiplerine posta yoluyla kupon gönderin ("Yeni bir bisiklet kaskında% 15 indirim kazanın").

Bu nedenle, modeliniz aşağıdakileri yapmalıdır:

Hangi kişilerin bisikleti olduğunu tahmin etme

Maalesef veri kümesi, bike owner adlı bir sütun içermiyor. Ancak veri kümesinde recently bought a bicycle adlı bir sütun var.

recently bought a bicycle, bu model için iyi bir vekil etiket mi yoksa kötü bir vekil etiket mi?
İyi proxy etiketi
recently bought a bicycle sütunu, nispeten iyi bir proxy etikettir. Sonuçta, şu anda bisiklet satın alan kişilerin çoğu zaten bisiklet sahibi. Bununla birlikte, tüm vekil etiketler gibi, çok iyi olanlar bile recently bought a bicycle kusurludur. Sonuçta bir öğeyi satın alan kişi, her zaman o öğeyi kullanan (veya sahip olan) kişi olmayabilir. Örneğin, kullanıcılar bazen hediye olarak bisiklet satın alır.
Kötü proxy etiketi
Tüm vekil etiketler gibi recently bought a bicycle de kusurludur (bazı bisikletler hediye olarak satın alınır ve başkalarına verilir). Ancak recently bought a bicycle, birinin bisikleti olduğunu gösteren nispeten iyi bir gösterge olmaya devam ediyor.

İnsan tarafından oluşturulan veriler

Bazı veriler insanlar tarafından oluşturulur. Yani bir veya daha fazla kişi bazı bilgileri inceleyip genellikle etiket için bir değer sağlar. Örneğin, bir veya daha fazla meteorolog gökyüzü resimlerini inceleyip bulut türlerini belirleyebilir.

Alternatif olarak, bazı veriler otomatik olarak oluşturulur. Yani değeri bir yazılım (muhtemelen başka bir makine öğrenimi modeli) belirler. Örneğin, bir makine öğrenimi modeli gökyüzü resimlerini inceleyip bulut türlerini otomatik olarak tanımlayabilir.

Bu bölümde, insanlar tarafından üretilen verilerin avantajları ve dezavantajları ele alınmaktadır.

Avantajlar

  • İnsan değerlendiriciler, gelişmiş makine öğrenimi modellerinin bile zorlanabileceği çok çeşitli görevleri yerine getirebilir.
  • Bu süreç, veri kümesinin sahibini net ve tutarlı ölçütler geliştirmeye zorlar.

Dezavantajlar

  • Genellikle insan değerlendiricilere ödeme yaparsınız. Bu nedenle, insanlar tarafından oluşturulan veriler pahalı olabilir.
  • Hata yapmak insana özgüdür. Bu nedenle, aynı verilerin birden fazla uzman tarafından değerlendirilmesi gerekebilir.

İhtiyaçlarınızı belirlemek için şu soruları düşünün:

  • Değerlendirme uzmanlarınız ne kadar yetenekli olmalı? (Örneğin, değerlendiricilerin belirli bir dili bilmesi gerekiyor mu? Diyalog veya doğal dil işleme uygulamaları için dilbilimcilere ihtiyacınız var mı?
  • Kaç etiketli örneğe ihtiyacınız var? Ne kadar erken ihtiyacınız var?
  • Bütçeniz nedir?

Her zaman değerlendiricilerinizin değerlendirmelerini tekrar kontrol edin. Örneğin, 1.000 örneği kendiniz etiketleyin ve sonuçlarınızın diğer değerlendiricilerin sonuçlarıyla nasıl eşleştiğini görün. Uyuşmazlıklar ortaya çıkarsa, özellikle değer yargısı söz konusuysa puanlarınızın doğru olduğunu varsaymayın. Değerlendirme uzmanları hata yaptıysa onlara yardımcı olacak talimatlar ekleyip tekrar deneyin.