Zbiory danych: etykiety

Ta sekcja dotyczy etykiet.

Etykiety bezpośrednie i proxy

Rozważmy 2 rodzaje etykiet:

  • Etykiety bezpośrednie, czyli etykiety identyczne z prognozą Twojego modelu które chce osiągnąć. Oznacza to, że prognoza, którą próbuje wygenerować model, jest taka, występuje dokładnie jako kolumna w zbiorze danych. Na przykład kolumna o nazwie bicycle owner będzie bezpośrednią etykietą dla: binarny model klasyfikacji, który prognozuje, czy dana osoba jest właścicielem rower.
  • Etykiety serwera proxy, czyli podobne etykiety, ale nie jest identyczna z prognozą, którą próbuje dokonać model. Na przykład użytkownik subskrybuje czasopismo „Bizarre rowery” prawdopodobnie, ale nie na pewno, ma rower.

Etykiety bezpośrednie są zwykle lepsze niż etykiety serwera proxy. Jeśli zbiór danych pozwala podać możliwą bezpośrednią etykietę, warto jej użyć. Często jednak etykiety bezpośrednie nie są dostępne.

Etykiety serwerów proxy zawsze stanowią zagrożenie – nie są idealnym odzwierciedleniem etykietę bezpośrednią. Niektóre etykiety serwerów proxy są jednak wystarczająco zbliżone były przydatne. Modele, które używają etykiet proxy, są tak przydatne tylko połączenie między etykietą serwera proxy a prognozą.

Pamiętaj, że każda etykieta musi być reprezentowana przez liczbę zmiennoprzecinkową. w wektorze cech (ponieważ systemy uczące się to po prostu ogromny zbiór matematycznych rozwiązań, operacji). Czasami etykieta bezpośrednia istnieje, ale nie można jej łatwo przedstawić jako liczbę zmiennoprzecinkową w wektorze cech. W takim przypadku użyj etykiety serwera proxy.

Ćwiczenie: sprawdź swoją wiedzę

Twoja firma chce:

kupony pocztowe („Wymień stary rower na 15% zniżki na nowy rower”).

Model musi więc:

Ustal, kto jest właścicielem roweru.

Zbiór danych nie zawiera kolumny o nazwie bike owner. Zbiór danych zawiera jednak kolumnę o nazwie recently bought a bicycle.

Czy recently bought a bicycle to dobra etykieta serwera proxy czy kiepską etykietę serwera proxy dla tego modelu?
Etykieta dobrego serwera proxy
Kolumna recently bought a bicycle to stosunkowo dobrej etykiety serwera proxy. Przecież większość osób którzy kupują rowery, teraz mają rowery. Mimo to, jak wszystkie etykiet proxy, nawet bardzo dobrych, recently bought a bicycle nie jest idealny. Osoba kupująca Element nie zawsze oznacza osobę, która go używa (lub jest jego właścicielem). Niektórzy na przykład kupują rowery w prezencie.
Słaba etykieta serwera proxy
Jak wszystkie etykiety serwera proxy, recently bought a bicycle jest niedoskonała (niektóre rowery są kupowane na prezent i przekazywane ). Jednak recently bought a bicycle to nadal jest stosunkowo dobrym wskaźnikiem, że ktoś roweru.

Dane wygenerowane przez człowieka

Niektóre dane są generowane przez człowieka. czyli sprawdzanie przez 1 lub więcej osób i podaj wartość, zwykle dla etykiety. Przykład: meteorolodzy mogliby zbadać zdjęcia nieba i określić, różnych typów chmur.

Niektóre dane są też generowane automatycznie. Oznacza to, że oprogramowanie (być może inny model systemów uczących się) określa wartość. Na przykład plik model uczenia maszynowego może analizować zdjęcia nieba i automatycznie identyfikować różnych typów chmur.

W tej sekcji omawiamy wady i zalety danych generowanych przez człowieka.

Zalety

  • Weryfikatorzy mogą wykonywać szeroką gamę czynności, które mogą być nawet skomplikowane za pomocą których modele uczenia maszynowego mogą sprawiać problemy.
  • Ten proces wymusza na właścicielu zbioru danych opracowanie jasnych dla jednolitych kryteriów.

Wady

  • Zwykle płacisz weryfikatorom, więc dane wygenerowane przez człowieka mogą być kosztowne.
  • Błądzić jest rzeczą ludzką. Dlatego wielu weryfikatorów musi ocenić te same dane.

Przeanalizuj te pytania, aby określić swoje potrzeby:

  • Jak kwalifikowani muszą być osoby oceniające? (Na przykład czy weryfikatorzy muszą znasz konkretny język? Czy potrzebujesz lingwistów do dialogu lub tłumacza języka naturalnego? aplikacji?)
  • Ile przykładów oznaczonych etykietami potrzebujesz? Jak szybko ich potrzebujesz?
  • Jaki jest Twój budżet?

Zawsze sprawdzaj weryfikatorów. Na przykład etykieta 1000 przykładów i sprawdzić, jak Twoje wyniki wypadają na tle innych wyników. Jeśli pojawią się rozbieżności, nie zakładaj, że Twoje oceny są prawidłowe. zwłaszcza jeśli w grę wchodzi ocena wartości. Jeśli weryfikatorzy przedstawili , rozważ dodanie instrukcji, które pomogą im, i spróbuj ponownie.

.