Ta sekcja dotyczy etykiet.
Etykiety bezpośrednie i proxy
Rozważmy 2 rodzaje etykiet:
- Etykiety bezpośrednie, czyli etykiety identyczne z prognozą Twojego modelu
które chce osiągnąć. Oznacza to, że prognoza, którą próbuje wygenerować model, jest taka,
występuje dokładnie jako kolumna w zbiorze danych.
Na przykład kolumna o nazwie
bicycle owner
będzie bezpośrednią etykietą dla: binarny model klasyfikacji, który prognozuje, czy dana osoba jest właścicielem rower. - Etykiety serwera proxy, czyli podobne etykiety, ale nie jest identyczna z prognozą, którą próbuje dokonać model. Na przykład użytkownik subskrybuje czasopismo „Bizarre rowery” prawdopodobnie, ale nie na pewno, ma rower.
Etykiety bezpośrednie są zwykle lepsze niż etykiety serwera proxy. Jeśli zbiór danych pozwala podać możliwą bezpośrednią etykietę, warto jej użyć. Często jednak etykiety bezpośrednie nie są dostępne.
Etykiety serwerów proxy zawsze stanowią zagrożenie – nie są idealnym odzwierciedleniem etykietę bezpośrednią. Niektóre etykiety serwerów proxy są jednak wystarczająco zbliżone były przydatne. Modele, które używają etykiet proxy, są tak przydatne tylko połączenie między etykietą serwera proxy a prognozą.
Pamiętaj, że każda etykieta musi być reprezentowana przez liczbę zmiennoprzecinkową. w wektorze cech (ponieważ systemy uczące się to po prostu ogromny zbiór matematycznych rozwiązań, operacji). Czasami etykieta bezpośrednia istnieje, ale nie można jej łatwo przedstawić jako liczbę zmiennoprzecinkową w wektorze cech. W takim przypadku użyj etykiety serwera proxy.
Ćwiczenie: sprawdź swoją wiedzę
Twoja firma chce:
kupony pocztowe („Wymień stary rower na 15% zniżki na nowy rower”).
Model musi więc:
Ustal, kto jest właścicielem roweru.
Zbiór danych nie zawiera kolumny o nazwie bike owner
.
Zbiór danych zawiera jednak kolumnę o nazwie recently bought a bicycle
.
recently bought a bicycle
to dobra etykieta serwera proxy
czy kiepską etykietę serwera proxy dla tego modelu?recently bought a bicycle
to
stosunkowo dobrej etykiety serwera proxy. Przecież większość osób
którzy kupują rowery, teraz mają rowery. Mimo to, jak wszystkie
etykiet proxy, nawet bardzo dobrych, recently bought a
bicycle
nie jest idealny. Osoba kupująca
Element nie zawsze oznacza osobę, która go używa (lub jest jego właścicielem).
Niektórzy na przykład kupują rowery w prezencie.recently bought a bicycle
jest niedoskonała (niektóre rowery są kupowane na prezent i przekazywane
). Jednak recently bought a bicycle
to
nadal jest stosunkowo dobrym wskaźnikiem, że ktoś
roweru.Dane wygenerowane przez człowieka
Niektóre dane są generowane przez człowieka. czyli sprawdzanie przez 1 lub więcej osób i podaj wartość, zwykle dla etykiety. Przykład: meteorolodzy mogliby zbadać zdjęcia nieba i określić, różnych typów chmur.
Niektóre dane są też generowane automatycznie. Oznacza to, że oprogramowanie (być może inny model systemów uczących się) określa wartość. Na przykład plik model uczenia maszynowego może analizować zdjęcia nieba i automatycznie identyfikować różnych typów chmur.
W tej sekcji omawiamy wady i zalety danych generowanych przez człowieka.
Zalety
- Weryfikatorzy mogą wykonywać szeroką gamę czynności, które mogą być nawet skomplikowane za pomocą których modele uczenia maszynowego mogą sprawiać problemy.
- Ten proces wymusza na właścicielu zbioru danych opracowanie jasnych dla jednolitych kryteriów.
Wady
- Zwykle płacisz weryfikatorom, więc dane wygenerowane przez człowieka mogą być kosztowne.
- Błądzić jest rzeczą ludzką. Dlatego wielu weryfikatorów musi ocenić te same dane.
Przeanalizuj te pytania, aby określić swoje potrzeby:
- Jak kwalifikowani muszą być osoby oceniające? (Na przykład czy weryfikatorzy muszą znasz konkretny język? Czy potrzebujesz lingwistów do dialogu lub tłumacza języka naturalnego? aplikacji?)
- Ile przykładów oznaczonych etykietami potrzebujesz? Jak szybko ich potrzebujesz?
- Jaki jest Twój budżet?
Zawsze sprawdzaj weryfikatorów. Na przykład etykieta 1000 przykładów i sprawdzić, jak Twoje wyniki wypadają na tle innych wyników. Jeśli pojawią się rozbieżności, nie zakładaj, że Twoje oceny są prawidłowe. zwłaszcza jeśli w grę wchodzi ocena wartości. Jeśli weryfikatorzy przedstawili , rozważ dodanie instrukcji, które pomogą im, i spróbuj ponownie.
.