ML Practicum: uczciwość w Perspective API

Sprawdź swoją wiedzę: identyfikowanie i ograniczanie tendencyjności

Tendencyjność dotycząca identyfikacji

W ćwiczeniach 1. Poznaj model udało Ci się potwierdzić, że model w nieproporcjonalny sposób klasyfikował komentarze zawierające określenia tożsamości jako toksyczne. Które dane pomagają ustalić przyczynę tego odchylenia? Zapoznaj się z poniższymi opcjami.
Dokładność

Dokładność mierzy odsetek poprawnych prognoz, czyli odsetek wyników prawdziwie pozytywnych lub prawdziwie negatywnych. Porównanie dokładności różnych podgrup (np. danych demograficznych o różnych płciach) pozwala nam ocenić względną skuteczność modelu dla każdej grupy i może wskazywać wpływ tendencyjności na model.

Jednak ze względu na dokładność, która obejmuje zbiorczo prawidłowe i nieprawidłowe prognozy, nie można rozróżnić 2 typów poprawnych prognoz i 2 typów niepoprawnych. Patrząc na samą dokładność, nie będziemy w stanie określić podstawowych podziałów wyników prawdziwie pozytywnych, prawdziwie negatywnych, wyników fałszywie dodatnich i fałszywie negatywnych, które zapewniłyby lepszy wgląd w źródło tendencyjności.

Współczynnik wyników fałszywie pozytywnych

Współczynnik wyników fałszywie pozytywnych (FPR) to odsetek przykładów rzeczywistych negatywnych (nietoksycznych komentarzy), które zostały nieprawidłowo sklasyfikowane jako pozytywne (toksyczne komentarze). FPR jest wskaźnikiem efektu odchylenia na model. Porównując FPR dla różnych podgrup (np. dane demograficzne dotyczące różnych płci), dowiadujemy się, że komentarze tekstowe zawierające określenia tożsamości powiązane z płcią są nieprawidłowo klasyfikowane jako toksyczne (wyniki fałszywie pozytywne) niż komentarze, które nie zawierają tych terminów.

Nie chcemy jednak mierzyć wpływu odchylenia, lecz poznać jego przyczynę. W tym celu musimy przyjrzeć się danym wejściowym w formule FPR.

Rzeczywiste wartości negatywne i rzeczywiste
W zbiorach danych treningowych i testowych tego modelu rzeczywiste wyniki pozytywne to przykłady toksycznych komentarzy, a rzeczywiste negatywne – wszystkie przykłady nietoksycznych komentarzy. Mając na uwadze, że same terminy dotyczące tożsamości są neutralne, oczekujemy wyważonej liczby rzeczywiście negatywnych i rzeczywistych komentarzy zawierających dany termin dotyczący tożsamości. Jeśli znajdziemy nieproporcjonalnie małą liczbę rzeczywistych wyników negatywnych, świadczy to o tym, że model nie dostrzegł zbyt wielu przykładów terminów związanych z tożsamością używanych w kontekście pozytywnym lub neutralnym. W takim przypadku model może nauczyć się korelacji między pojęciami tożsamości a toksycznością.
Czułość
Czułość to odsetek rzeczywistych prognoz pozytywnych, które zostały prawidłowo sklasyfikowane jako pozytywne. Wskazuje procent toksycznych komentarzy, które model wyłapał. Tu obawiamy się stronniczości związanej z fałszywymi trafieniami (nietoksycznymi komentarzami, które zostały sklasyfikowane jako toksyczne), a rozpoznawalność nie zapewnia żadnego wglądu w ten problem.

Postępowanie w przypadku tendencyjności

Które z tych działań mogą być skutecznymi metodami korygowania odchylenia w danych treningowych użytych w Ćwiczeniach 1 i Ćwiczeniach 2? Zapoznaj się z poniższymi opcjami.
Dodaj do zbioru treningowego więcej negatywnych (nietoksycznych) przykładów zawierających hasła związane z tożsamością.
Dodanie większej liczby negatywnych przykładów (komentarzy, które w rzeczywistości nie są toksyczne) zawierających terminy związane z tożsamością, pomoże zrównoważyć zbiór treningowy. Model zauważy wtedy lepszą równowagę między terminami związanymi z tożsamością używanymi w kontekście toksycznym i nietoksycznym, aby nauczył się, że same określenia są neutralne.
Dodaj do zbioru treningowego więcej pozytywnych (toksycznych) przykładów zawierających hasła związane z tożsamością.
Toksyczne przykłady są już reprezentowane szczególnie w podzbiorze przykładów zawierających terminy związane z tożsamością. Jeśli dodamy więcej takich przykładów do zbioru treningowego, w rzeczywistości nie zniwelujemy odchyleń, które występują.
Dodaj do zbioru treningowego więcej przykładów negatywnych (nietoksycznych) bez terminów tożsamości.
Terminy związane z tożsamością są już niedostatecznie reprezentowane w negatywnych przykładach. Dodanie większej liczby negatywnych przykładów bez terminów związanych z tożsamością zwiększy tę rozbieżność i nie pomoże wyeliminować tendencyjności.
Dodaj do zbioru więcej pozytywnych (toksycznych) przykładów bez określeń tożsamości.

Może się zdarzyć, że dodanie większej liczby pozytywnych przykładów bez terminów tożsamości pomoże zerwać powiązanie między określeniami tożsamości a toksycznością, których model nauczył się wcześniej.

Ocena pod kątem tendencyjności

Twój własny klasyfikator toksyczności tekstu został wytrenowany od podstaw. Twój zespół inżynierów planuje użyć go do automatycznego blokowania wyświetlania komentarzy sklasyfikowanych jako toksyczne. Obawiasz się, że jakiekolwiek uprzedzenia w stosunku do toksyczności komentarzy dotyczących płci mogą spowodować wstrzymanie nietoksycznych dyskusji na temat płci. Chcesz ocenić odchylenia związane z płcią w prognozach klasyfikatora. Które z tych wskaźników należy wykorzystać do oceny modelu? Zapoznaj się z poniższymi opcjami.
Współczynnik wyników fałszywie pozytywnych (FPR)
W środowisku produkcyjnym model będzie używany do automatycznego pomijania prognoz pozytywnych (toksycznych). Twoim celem jest dopilnowanie, aby model nie ignorował wyników fałszywie pozytywnych (nietoksycznych komentarzy, które model błędnie sklasyfikował jako toksyczne) w przypadku komentarzy dotyczących płci z wyższym współczynnikiem niż w przypadku komentarzy ogółem. Porównanie wyników skuteczności dla podgrup płci z ogólnymi wartościami FPR to świetny sposób na ocenę działań naprawczych związanych z tendencyjnością w Twoim przypadku użycia.
Współczynnik wyników fałszywie negatywnych (FNR)
FNR mierzy częstotliwość, z jaką model błędnie klasyfikuje klasę pozytywną (w tym przypadku „toksyczny”) jako klasę negatywną („nietoksyczny”). W tym przypadku pokazuje on, z jaką częstotliwością rzeczywiste toksyczne komentarze przechodzą przez filtr i wyświetlają się użytkownikom. W tym przypadku chodzi o uprzedzenia stronniczości w kontekście eliminowania nietoksycznego dyskursu. FNR nie zapewnia wglądu w ten wymiar wydajności modelu.
Dokładność
Dokładność mierzy odsetek poprawnych prognoz modelu i odwrotnie, odsetek błędnych prognoz. W tym przypadku użycia dokładność wskazuje, jak prawdopodobne jest, że filtr wyciszył nietoksyczny dyskusję lub prezentował toksyczny dyskusję. Skupiasz się przede wszystkim na tym pierwszym, ale nie na drugim. Dokładność łączy te 2 problemy, więc nie jest to idealny wskaźnik oceny, którego należy tu używać.
AUC
Funkcja AUC zapewnia bezwzględny pomiar zdolności prognozowania modelu. To dobry wskaźnik do oceny ogólnej skuteczności. Tu jednak masz wątpliwości dotyczące współczynników pomijania komentarzy, a AUC nie zapewnia bezpośredniego wglądu w ten problem.
Do Twojego zespołu został dodany moderator treści, który postanowił zmienić sposób wdrażania klasyfikatora. Zamiast automatycznie blokować komentarze sklasyfikowane jako toksyczne, oprogramowanie filtrujące oznaczy je do sprawdzenia przez moderatora treści. Ponieważ człowiek będzie sprawdzać komentarze oznaczone jako toksyczne, uprzedzenia nie będą się już pojawiać w formie pomijania treści. Których z tych wskaźników możesz użyć do pomiaru tendencyjności i skutków jej przeciwdziałania? Zapoznaj się z poniższymi opcjami.
Współczynnik wyników fałszywie pozytywnych (FPR)
Odsetek wyników fałszywie pozytywnych podaje odsetek nietoksycznych komentarzy, które zostały błędnie sklasyfikowane jako toksyczne. Ponieważ człowiek będzie teraz kontrolować wszystkie komentarze oznaczone przez model jako „toksyczne” i powinien wychwytywać większość wyników fałszywie pozytywnych, FPR nie jest już głównym problemem.
Współczynnik wyników fałszywie negatywnych (FNR)
Moderator będzie sprawdzać wszystkie komentarze oznaczone jako „toksyczne” i dbać o to, aby wyniki fałszywie pozytywne nie były pomijane, ale nie sprawdza komentarzy oznaczonych jako „nietoksyczne”. Zwiększa to ryzyko stronniczości związanych z wynikami fałszywie negatywnymi. Możesz wykorzystać FNR (odsetek rzeczywistych pozytywnych wyników, które zostały sklasyfikowane jako negatywne), aby systematycznie oceniać, czy toksyczne komentarze w podgrupach płci są częściej oznaczane jako nietoksyczne niż komentarze ogółem.
Precyzja
Dokładność wskazuje odsetek poprawnych prognoz „toksycznych”, które są faktycznie pozytywne. Ponieważ człowiek będzie kontrolować wszystkie „toksyczne” prognozy, nie musisz określać precyzji jako jednego z podstawowych wskaźników oceny.
Czułość
Czułość podaje odsetek rzeczywistych pozytywnych wyników, które zostały sklasyfikowane prawidłowo. Na podstawie tej wartości możesz uzyskać odsetek rzeczywistych pozytywnych ocen, które zostały błędnie sklasyfikowane (1 – czułość), co ułatwia oszacowanie, czy toksyczne komentarze dotyczące płci są nieproporcjonalne błędnie klasyfikowane jako „nietoksyczne” w porównaniu z ogólnymi komentarzami.