Ta sekcja dotyczy etykiet.
Etykiety bezpośrednie a etykiety serwera proxy
Rozważ 2 rodzaje etykiet:
- Etykiety bezpośrednie, czyli etykiety identyczne z prognozą, którą model próbuje wygenerować. Oznacza to, że prognoza, którą model próbuje wygenerować, jest dokładnie obecna jako kolumna w zbiorze danych.
Na przykład kolumna o nazwie
bicycle owner
byłaby bezpośrednią etykietą dla modelu klasyfikacji binarnej, który przewiduje, czy dana osoba ma rower. - Etykiety zastępcze, czyli etykiety podobne do prognozy, którą model próbuje wygenerować, ale nie identyczne z nią. Na przykład osoba, która subskrybuje magazyn „Bicycle Bizarre”, prawdopodobnie (ale nie na pewno) ma rower.
Etykiety bezpośrednie są zwykle lepsze niż etykiety pośrednie. Jeśli zbiór danych zawiera możliwą etykietę bezpośrednią, prawdopodobnie warto jej użyć. Często jednak etykiety bezpośrednie nie są dostępne.
Etykiety zastępcze są zawsze kompromisem – niedoskonałym przybliżeniem etykiety bezpośredniej. Niektóre etykiety zastępcze są jednak wystarczająco dokładne, aby były przydatne. Modele, które używają etykiet zastępczych, są przydatne tylko w takim stopniu, w jakim istnieje związek między etykietą zastępczą a prognozą.
Pamiętaj, że każda etykieta musi być reprezentowana jako liczba zmiennoprzecinkowa w wektorze cech (ponieważ uczenie maszynowe to w zasadzie ogromna mieszanka operacji matematycznych). Czasami istnieje etykieta bezpośrednia, ale nie można jej łatwo przedstawić jako liczby zmiennoprzecinkowej w wektorze cech. W takim przypadku użyj etykiety proxy.
Ćwiczenie: sprawdź swoją wiedzę
Twoja firma chce:
Wysyłaj pocztą kupony („Otrzymaj 15% rabatu na nowy kask rowerowy”) do właścicieli rowerów.
Model musi więc:
przewidywać, które osoby mają rower;
Niestety zbiór danych nie zawiera kolumny o nazwie bike owner
.
Zbiór danych zawiera jednak kolumnę o nazwie recently bought a bicycle
.
recently bought a bicycle
to dobra czy zła etykieta zastępcza dla tego modelu?recently bought a bicycle
jest stosunkowo dobrym przybliżeniem etykiety. W końcu większość osób, które kupują rowery, już je ma. Niemniej jednak, podobnie jak wszystkie etykiety zastępcze, nawet te bardzo dobre, etykieta recently bought a
bicycle
nie jest idealna. W końcu osoba kupująca produkt nie zawsze jest osobą, która go używa (lub jest jego właścicielem).
Na przykład rowery są czasami kupowane na prezent.recently bought a bicycle
jest niedoskonała (niektóre rowery są kupowane jako prezenty i przekazywane innym osobom). recently bought a bicycle
nadal jest jednak stosunkowo dobrym wskaźnikiem, że ktoś ma rower.Dane wygenerowane przez człowieka
Niektóre dane są generowane przez ludzi, czyli co najmniej jedna osoba sprawdza pewne informacje i podaje wartość, zwykle w przypadku etykiety. Na przykład meteorolodzy mogą analizować zdjęcia nieba i identyfikować typy chmur.
Niektóre dane są generowane automatycznie. Oznacza to, że oprogramowanie (być może inny model uczenia maszynowego) określa wartość. Na przykład model systemów uczących się może analizować zdjęcia nieba i automatycznie rozpoznawać typy chmur.
W tej sekcji omówimy zalety i wady danych generowanych przez ludzi.
Zalety
- Weryfikatorzy mogą wykonywać szeroki zakres zadań, które nawet zaawansowane modele uczenia maszynowego mogą uznać za trudne.
- Proces ten zmusza właściciela zbioru danych do opracowania jasnych i spójnych kryteriów.
Wady
- Zazwyczaj płacisz weryfikatorom, więc dane generowane przez ludzi mogą być drogie.
- Błądzić jest rzeczą ludzką. Dlatego te same dane może oceniać kilku weryfikatorów.
Aby określić swoje potrzeby, odpowiedz na te pytania:
- Jakie umiejętności muszą mieć oceniający? (Na przykład: czy oceniający muszą znać określony język? Czy potrzebujesz lingwistów do aplikacji dialogowych lub NLP?
- Ile potrzebujesz oznaczonych przykładów? Jak szybko ich potrzebujesz?
- Jaki masz budżet?
Zawsze dokładnie sprawdzaj oceny wystawione przez weryfikatorów. Na przykład oznacz 1000 przykładów samodzielnie i sprawdź, jak Twoje wyniki pasują do wyników innych oceniających. Jeśli pojawią się rozbieżności, nie zakładaj, że Twoje oceny są prawidłowe, szczególnie jeśli wymagają one subiektywnej oceny. Jeśli oceniający wprowadzili błędy, dodaj instrukcje, które im pomogą, i spróbuj ponownie.