obiektywność: identyfikowanie uprzedzeń,

Podczas przygotowywania danych do trenowania i oceny modelu należy pamiętać o problemach związanych z uprzedzoną oceną i sprawdzaniem potencjalnych źródeł uprzedzeń, aby móc aktywnie ograniczać ich wpływ przed wdrożeniem modelu w produkcji.

Gdzie może się pojawić stronniczość? Oto sygnały ostrzegawcze, na które należy zwrócić uwagę w danych.

Brakujące wartości cech

Jeśli Twój zbiór danych zawiera co najmniej 1 cechę, która w dużej liczbie przykładów ma brakujące wartości, może to wskazywać, że niektóre kluczowe cechy zbioru danych są niedostatecznie reprezentowane.

Ćwiczenie: sprawdź swoją wiedzę

Trenujesz model, aby przewidywał, czy psy ze schroniska nadają się do adopcji, na podstawie różnych cech, takich jak rasa, wiek, waga, temperament i ilość zrzucanego dziennie futra. Twoim celem jest zapewnienie, aby model działał równie dobrze w przypadku wszystkich typów psów, niezależnie od ich cech fizycznych lub behawioralnych.

Odkrywasz, że w przypadku 1500 z 5000 przykładów w zbiorze treningowym brakuje wartości temperamentu. Które z tych źródeł są potencjalnymi źródłami uprzedzeń, które należy zbadać?

W przypadku niektórych ras psów może brakować danych o tempie.
W przypadku psów poniżej 12 miesiąca prawdopodobnie brakuje danych o tempie
Zbiór danych zawiera losowo wybrane dane o temperamentach.
Brak danych o temperamencie wszystkich psów uratowanych z dużych miast.

Nieoczekiwane wartości cech

Podczas eksplorowania danych należy też szukać przykładów zawierających wartości cech, które wyróżniają się jako szczególnie nietypowe lub nietypowe. Te nieoczekiwane wartości funkcji mogą wskazywać na problemy występujące podczas zbierania danych lub inne niedokładności, które mogą powodować stronniczość.

Ćwiczenie: sprawdź swoją wiedzę

Zapoznaj się z tym hipotetycznym zestawem przykładów, aby wytrenować model adoptowalności psów ze schroniska.

rasa wiek (lata) waga (lbs) usposobienie shedding_level
pudel miniaturowy 2 12 pobudzający niski
golden retriever 7 65 spokój wysoki
labrador retriever 35 73 spokojny wysoki
buldog francuski 0,5 11 spokój medium
nieznanej rasy mieszańce 4 45 pobudliwy wysoki
basset hound 9 48 spokój medium
Czy możesz zidentyfikować jakieś problemy z danymi funkcji?
Kliknij tutaj, aby zobaczyć odpowiedź

Zniekształcenie danych

Wszelkie odchylenia w danych, w których pewne grupy lub cechy mogą być niedostatecznie lub nadmiernie reprezentowane w stosunku do ich rzeczywistej częstości występowania, mogą wprowadzać uprzedzenia do modelu.

Podczas sprawdzania skuteczności modelu ważne jest, aby nie tylko sprawdzać wyniki zbiorcze, ale też dzielić je według podgrup. Na przykład w przypadku modelu adopcji psów ze schroniska, aby zapewnić sprawiedliwość, nie wystarczy po prostu sprawdzić ogólnej dokładności. Musimy też sprawdzić skuteczność w podgrupach, aby upewnić się, że model działa równie dobrze w przypadku każdej rasy, grupy wiekowej i grupy rozmiarów psów.

W dalszej części tego modułu, w sekcji Ocena stronnicości, przyjrzymy się bliżej różnym metodom oceny modeli według podgrup.