Zbiory danych: etykiety

W tej sekcji omawiamy etykiety.

Etykiety bezpośrednie a etykiety proxy

Rozważ 2 rodzaje etykiet:

  • Etykiety bezpośrednie, czyli etykiety identyczne z prognozą, którą próbuje uzyskać model. Oznacza to, że prognoza, którą próbuje uzyskać model, jest dokładnie obecna jako kolumna w Twoim zbiorze danych. Na przykład kolumna o nazwie bicycle owner byłaby etykietą bezpośrednią dla modelu klasyfikacji binarnej, który przewiduje, czy dana osoba ma rower.
  • Etykiety zastępcze, czyli etykiety podobne, ale nie identyczne z prognozami, które próbuje uzyskać model. Na przykład osoba, która prenumeruje magazyn Bicycle Bizarre, prawdopodobnie (ale niekoniecznie) ma rower.

Etykiety bezpośrednie są zazwyczaj lepsze niż pośrednie. Jeśli Twój zbiór danych zawiera możliwą etykietę bezpośrednią, prawdopodobnie warto z niej skorzystać. Często jednak bezpośrednie etykiety nie są dostępne.

Etykiety zastępcze to zawsze kompromis – niedoskonałe przybliżenie etykiety bezpośredniej. Niektóre etykiety proxy są jednak wystarczająco dokładne, aby mogły być przydatne. Modele, które korzystają z etykiet zastępczych, są przydatne tylko wtedy, gdy istnieje związek między etykietą zastępczą a prognozą.

Pamiętaj, że każda etykieta musi być reprezentowana jako liczba zmiennoprzecinkowa w wektorze cech (ponieważ uczenie maszynowe to w podstawie tylko ogromna mieszanina operacji matematycznych). Czasami istnieje bezpośrednia etykieta, ale nie można jej łatwo przedstawić jako liczby zmiennoprzecinkowej w wektorze cech. W takim przypadku użyj etykiety zastępczej.

Ćwiczenie: sprawdź swoją wiedzę

Twoja firma chce wykonać te czynności:

Wysyłanie kuponów („Wymień stary rower na nowy rower ze zniżką 15%”) właścicielom rowerów.

Model musi spełniać te wymagania:

przewidywać, które osoby mają rower;

Zbiór danych nie zawiera kolumny o nazwie bike owner. Zbiór danych zawiera jednak kolumnę o nazwie recently bought a bicycle.

Czy recently bought a bicycle to dobra etykieta zastępcza, czy zła etykieta zastępcza dla tego modelu?
Etykieta dobrego serwera proxy
Kolumna recently bought a bicycle to stosunkowo dobra etykieta zastępcza. W końcu większość osób, które kupują rowery, ma już rowery. Mimo to, jak wszystkie etykiety proxy, nawet te bardzo dobre, recently bought a bicycle nie są idealne. W końcu osoba, która kupuje produkt, nie zawsze jest osobą, która go używa (lub jest jego właścicielem). Na przykład rowery są czasem kupowane na prezent.
Etykieta proxy niskiej jakości
Podobnie jak wszystkie etykiety zastępcze, recently bought a bicyclejest niedoskonała (niektóre rowery są kupowane jako prezenty i przekazywane innym osobom). Jednak recently bought a bicycle jest nadal stosunkowo dobrym wskaźnikiem posiadania roweru.

Dane utworzone przez człowieka

Niektóre dane są generowane przez ludzi, co oznacza, że co najmniej jedna osoba sprawdza informacje i podaje wartość, zwykle dla etykiety. Na przykład jeden lub więcej meteorologów może analizować zdjęcia nieba i określać rodzaje chmur.

Niektóre dane są też generowane automatycznie. Oznacza to, że wartość określa oprogramowanie (być może inny model uczenia maszynowego). Na przykład model systemów uczących się może analizować zdjęcia nieba i automatycznie rozpoznawać typy chmur.

W tej sekcji omawiamy zalety i wady danych generowanych przez ludzi.

Zalety

  • Weryfikatorzy mogą wykonywać wiele zadań, które nawet zaawansowane modele uczenia maszynowego mogą uważać za trudne.
  • Proces ten wymusza na właścicielu zbioru danych opracowanie jasnych i spójnych kryteriów.

Wady:

  • Zazwyczaj płacisz weryfikatorom, więc dane generowane przez ludzi mogą być drogie.
  • Błądzić jest rzeczą ludzką. Dlatego może być konieczne sprawdzenie tych samych danych przez kilku weryfikatorów.

Aby określić swoje potrzeby, zastanów się nad odpowiedziami na te pytania:

  • Jakie umiejętności muszą mieć oceniający? (Czy na przykład oceniający muszą znać konkretny język? Czy potrzebujesz lingwistów do tworzenia dialogów lub aplikacji NLP?)
  • Ile etykietowanych przykładów potrzebujesz? Jak szybko potrzebujesz tych informacji?
  • Jaki masz budżet?

Zawsze sprawdzaj wyniki oceniających. Możesz na przykład samodzielnie oznaczyć 1000 przykładów i sprawdzić, jak Twoje wyniki będą się pokrywać z wynikami innych oceniających. Jeśli pojawią się rozbieżności, nie zakładaj, że Twoje oceny są prawidłowe, zwłaszcza jeśli chodzi o ocenę wartości. Jeśli ludzki oceniający popełnili błędy, rozważ dodanie instrukcji, które im pomogą, i spróbuj ponownie.