W poprzedniej sekcji ocenialiśmy nasz model przyjmowania zgłoszeń pod kątem obiektywności przy użyciu parytetu demograficznego, porównując ogólne wskaźniki akceptacji do grup demograficznych.
Możemy także porównać wskaźniki akceptacji tylko kwalifikowanych kandydatów z grupy większości i mniejszości. Jeśli współczynniki akceptowania dla kwalifikujących się uczniów w obu grupach są równe, model prezentuje równość szans: studenci z wybraną przez nas etykietą („kwalifikujący się do przyjęcia”) mają taki sam poziom szanse na przyjęcie do programu, niezależnie od tego, do jakiej grupy demograficznej należą do.
Wróćmy do puli kandydatów z poprzedniej sekcji:
Grupa większości | Grupa mniejszościowa | |
---|---|---|
Zakwalifikowany | 35 | 15 |
Niezakwalifikowany | 45 | 5 |
Załóżmy, że model rekrutacji przyjmuje 14 kandydatów z grupy większości i 6 kandydatów z grupy mniejszości. Decyzje modelu spełniają równość szans, wskaźnik akceptowania większości zakwalifikowanych a zakwalifikowanych kandydatów mniejszości to 40%.
W tej tabeli podano ilościowe wartości dotyczące odrzuconych i zaakceptowanych kandydatów na rys. 4.
Grupa większości | Grupa mniejszościowa | |||
---|---|---|---|---|
Zaakceptowano | Odrzucono | Zaakceptowano | Odrzucono | |
Zakwalifikowany | 14 | 21 | 6 | 9 |
Niezakwalifikowany | 0 | 45 | 0 | 5 |
Zalety i wady
Główną zaletą równości możliwości jest to, że umożliwia modelowi stosunek pozytywnych do negatywnych prognoz w zależności od grup demograficznych, przy założeniu, że model jest równie skuteczny w przewidywaniu preferowanej etykiety („zakwalifikować się do odbioru”) w obu grupach.
Prognozy modelu na rys. 4 nie spełniają parzystości demograficznej, jako uczeń z grupy większości ma 17, 5% szans na przyjęcie uczeń należący do mniejszości ma 30% szans na przyjęcie do programu. Pamiętaj jednak: kwalifikowany uczeń ma 40% szans na przyjęcie do programu, niezależnie od tego, grupę, do której należą, co zapewne jest bardziej sprawiedliwe dla konkretnego przypadku użycia.
Wadą równości szans jest to, że jest przeznaczona do stosowania w przypadkach, gdy istnieje jednoznaczna preferowana etykieta. Jeśli jest równie ważne że model przewiduje zarówno klasę pozytywną, czyli „zakwalifikowany do przyjęcia”, i grupę negatywną („brak kwalifikacji”) do wszystkich grup demograficznych. warto zamiast tego użyć danych wyrównane szanse, które wymusza jednakowe wskaźniki sukcesu w przypadku obu etykiet.
Inną wadą równości szans jest to, że ocenia ona obiektywność.
porównując łączną liczbę błędów dla grup demograficznych, co może mieć wpływ
nie zawsze jest to możliwe. Na przykład, jeśli zbiór danych naszego modelu przyjmowania
nie ma funkcji demographic_group
, nie byłoby możliwe
podział wskaźników akceptacji w przypadku kandydatów stanowiących większość i mniejszości
i porównaj je, aby sprawdzić, czy jest zaproponowana równość szans.
W następnej sekcji przyjrzymy się innemu wskaźnikowi obiektywności, można zastosować w sytuacjach, gdy dane demograficzne dla wszystkich przykładów.
Ćwiczenie: sprawdź swoją wiedzę
Prognozy modelu mogą spełniać wymagania zarówno w danych demograficznych, i równości szans.
Załóżmy na przykład, że klasyfikator binarny (preferowany przez jest klasą pozytywną) jest oceniana na 100 przykładach, przy czym wyniki w tych macierzy pomyłek, podzielonych według grupa demograficzna (większość i mniejszość):
Grupa większości | Grupa mniejszościowa | |||
---|---|---|---|---|
Prognoza dodatnia | Prognozowana wartość ujemna | Prognoza dodatnia | Prognozowana wartość ujemna | |
Faktyczna wartość dodatnia | 6 | 12 | 3 | 6 |
Faktyczna wartość ujemna | 10 | 36 | 6 | 21 |
\(\text{Positive Rate} = \frac{6+10}{6+10+12+36} = \frac{16}{64} = \text{25%}\) \(\text{True Positive Rate} = \frac{6}{6+12} = \frac{6}{18} = \text{33%}\) |
\(\text{Positive Rate} = \frac{3+6}{3+6+6+21} = \frac{9}{36} = \text{25%}\) \(\text{True Positive Rate} = \frac{3}{3+6} = \frac{3}{9} = \text{33%}\) |
Zarówno większość, jak i mniejszości, mają pozytywny współczynnik prognoz. 25%, satysfakcjonująca parytet demograficzny i odsetek prawdziwie pozytywnych (odsetek przykładów z preferowaną etykietą, które są prawidłowo sklasyfikowane) o 33%, co daje satysfakcjonującą równość możliwości.