Bu bölümde etiketler ele alınmaktadır.
Doğrudan etiketler ve proxy etiketleri
İki farklı etiket türünü göz önünde bulundurun:
- Doğrudan etiketler (modelinizle ilgili tahminle aynı etiketlerdir)
düşünmeye başlar. Yani modelinizin yapmaya çalıştığı tahmin,
veri kümenizde bir sütun olarak mevcuttur.
Örneğin,
bicycle owner
adlı bir sütun şunun için doğrudan etiket olur: bir kişinin sahip olup olmadığını tahmin eden ikili sınıflandırma modeli bir köprü görevi görüyorsunuz. - Proxy etiketleri: Benzer ancak benzer özelliklere sahip etiketlerdir. modelinizin yapmaya çalıştığı tahminle aynı olmayacaktır. Örneğin, Bisiklet Tuhaflığı dergisine abone olan bir kullanıcı ama kesin olmasa da muhtemelen bir bisikleti var.
Doğrudan etiketler genellikle proxy etiketlerinden daha iyidir. Veri kümeniz bir doğrudan etiket sağlarsa muhtemelen onu kullanmanız gerekir. Ancak çoğu zaman doğrudan etiketler kullanılamayabilir.
Proxy etiketleri her zaman bir tehlikedir; yaklaşık doğrudan etikettir. Ancak, bazı proxy etiketleri yeterince yakın tahminlere sahiptir yararlı olmaları açısından önemlidir. Proxy etiketleri kullanan modeller yalnızca ve tahmin arasındaki bağlantıyı kontrol edin.
Her etiketin bir kayan nokta sayı olarak sunulması gerektiğini unutmayın özellik vektöründe (çünkü makine öğrenimi temelde, matematik ve oyun biliminin işlemler). Bazen doğrudan etiket vardır ancak özellik vektöründe bir kayan nokta sayısı. Bu durumda, proxy etiketi kullanın.
Alıştırma: Öğrendiklerinizi sınayın
Şirketiniz aşağıdakileri yapmak istiyor:
Posta kuponları ("Eski bisikletinizde yeni bisikletlerde% 15 indirim") sunuyor.
Dolayısıyla, modelinizin aşağıdakileri yapması gerekir:
Hangi insanların bisiklete sahip olduğunu tahmin edin.
Maalesef veri kümesi bike owner
adlı bir sütun içermiyor.
Ancak, veri kümesi recently bought a bicycle
adlı bir sütun içeriyor.
recently bought a bicycle
iyi bir proxy etiketi olur mu?
yoksa bu model için zayıf bir proxy etiketi mi var?recently bought a bicycle
sütunu,
iyi bir proxy etiketi vardır. Sonuçta insanların çoğu
artık bisiklet satın alıyor. Yine de diğer tüm
proxy etiketleri, çok iyi olanlar da dahil, recently bought a
bicycle
mükemmel değildir. Sonuçta satın alan kişi
öğe her zaman o öğeyi kullanan (veya öğenin sahibi olan) kişi değildir.
Örneğin, kullanıcılar bazen bisikletleri hediye olarak satın alır.recently bought a bicycle
Kusursuz (bazı bisikletler hediye olarak satın alınır ve
diğerleri). Ancak recently bought a bicycle
yine de, nispeten iyi bir gösterge, bir sitenin sahibi
bisiklete biner.İnsan tarafından oluşturulan veriler
Bazı veriler insan tarafından oluşturulur. yani bir veya daha fazla kişi bazı araştırmaları ve genellikle etiket için bir değer sağlar. Örneğin, bir veya daha fazla meteorolog gökyüzünün resimlerini inceleyerek bulut türleri.
Alternatif olarak bazı veriler otomatik olarak oluşturulur. Yani yazılım değeri belirler. Örneğin, makine öğrenimi modeli sayesinde gökyüzü resimlerini inceleyip bulut türleri.
Bu bölümde, insan tarafından oluşturulan verilerin avantajları ve dezavantajları incelenmektedir.
Avantajları
- Derecelendirme yapan gerçek kişiler, karmaşık bile olsa çok çeşitli görevleri öğrenmesi zor olabilir.
- Süreç, veri kümesi sahibinin açık ve net veriler geliştirmesini sağlar. veya tutarlı kriterler arıyoruz.
Dezavantajları
- Genellikle gerçek kişilerden oluşan değerlendirme ekiplerine ödeme yaparsınız. Bu nedenle, gerçek kişiler tarafından oluşturulan veriler pahalı olabilir.
- Hata yapmak insandır. Bu nedenle, değerlendirme yapan birden fazla kişi, aynı verilerdir.
İhtiyaçlarınızı belirlemek için şu soruları gözden geçirin:
- Derecelendirme yapan kişiler ne kadar yetenekli olmalıdır? (Örneğin, değerlendiriciler belirli bir dili biliyor musunuz? Diyalog veya NLP için dil uzmanlarına ihtiyacınız var mı? uygulamalar?)
- Kaç tane etiketli örneğe ihtiyacınız var? Bu araçlara ne kadar kısa sürede ihtiyacınız var?
- Bütçeniz nedir?
Gerçek kişi olan değerlendirmecilerinizi her zaman tekrar kontrol edin. Örneğin, etiket 1000 örnekleri ve sonuçlarınızın diğer değerlendiricilerin sonuçlarıyla sonuç. Tutarsızlıklar ortaya çıkarsa, derecelendirmelerinizin doğru olduğunu varsaymayın. özellikle de değer yargısı varsa. Gerçek kişi olan değerlendirmeciler, ona yardımcı olacak talimatlar eklemeyi düşünün ve tekrar deneyin.
ziyaret edin.