obiektywność: identyfikowanie uprzedzeń,

Podczas przygotowywania danych do trenowania i oceny modelu ważne jest, pamiętaj o kwestii obiektywności i sprawdzaj potencjalne źródła uprzedzeń, dzięki czemu możesz proaktywnie eliminuj jego skutki przed przekazaniem modelu do środowiska produkcyjnego.

Gdzie może się czaić uprzedzenia? Oto kilka sygnałów ostrzegawczych, na które należy zwrócić uwagę w zbiorze danych.

Brakujące wartości cech

Jeśli w zbiorze danych występuje co najmniej jedna cecha, w której brakuje wartości dla dużego z dużej liczby przykładów, co może wskazywać, że pewne kluczowe cechy Twojego zbioru danych są niedostatecznie reprezentowane.

Ćwiczenie: sprawdź swoją wiedzę

Trenujesz model do prognozowania stosowności psów ratowniczych na podstawie na szereg czynników, takich jak rasa, wiek, waga, usposobienie, i ilość futra każdego dnia. Twoim celem jest zadbanie o to, aby model działają równie dobrze u wszystkich typów psów, niezależnie od ich lub cechy zachowania

Okazuje się, że 1500 z 5000 przykładów w zbiorze treningowym to brakujące wartości charakteru. Które z tych źródeł są potencjalnymi źródłami stronniczości, które należy zbadać?

Jest bardziej prawdopodobne, że brakuje danych o tempie u niektórych ras. i psy.
Jeśli dostępność danych o temperamentach jest powiązana z rasą psa, może to doprowadzić do mniej dokładnych prognoz stosowania niektórych ras psów.
W przypadku psów w wieku poniżej 12 lat prawdopodobnie brakuje danych o tempie miesięcy
Jeśli dostępność danych o temperamentach jest powiązana z wiekiem, może to skutkować mniej dokładnymi przewidywaniami szczeniaków i dorosłych psów.
Brakuje danych o tempie skóry wszystkich psów uratowanych z dużych miast.
Na pierwszy rzut oka może się wydawać, że jest to potencjalne źródło ponieważ brak danych będzie miał wpływ na wszystkie psy niezależnie od rasy, wieku, wagi itp. Musimy jednak wziąć pod uwagę miejsce, z którego pochodzi pies. może skutecznie służyć jako zastępca dla tych fizycznych dla niektórych cech produktu. Na przykład jeśli psy z dużych miast są znacznie mniejsze niż psy z większych obszarów wiejskich może sprawić, że prognozy będą mniej dokładne. dla psów o mniejszej wadze i małych rasach.
W losowym zbiorze danych brakuje danych o temperamentach.
Jeśli dane o temperamentach naprawdę nie mają losowych danych, mogą być potencjalnym źródłem uprzedzeń. Możliwe jest jednak to, że nasze temperamenty danych może brakować losowo, jednak dokładniej zbadamy tę kwestię może ujawnić wyjaśnienie. Dlatego tak ważne jest, dokładnie przeprowadzić analizę, aby wykluczyć inne możliwości, zakładamy, że luki w danych są losowe.

Nieoczekiwane wartości cech

Przy badaniu danych należy też szukać przykładów zawierających wartości cech które wyróżniają się na tle innych. Te nieoczekiwane funkcje mogą wskazywać problemy, które wystąpiły podczas zbierania danych lub nieścisłości, które mogłyby wprowadzić uprzedzenia.

Ćwiczenie: sprawdź swoją wiedzę

Przeanalizuj ten hipotetyczny zestaw przykładów dotyczących szkolenia psa ratunkowego modelu rozpowszechnienia.

rasa wiek (lata) waga (lbs) usposobienie shedding_level
pudel zabawkowy 2 12 pobudzający niski
golden retriever 7 65 spokojny wysoki
labrador retriever 35 73 spokojny wysoki
buldog francuski 0,5 11 spokojny medium
nieznana rasa mieszana 4 45 pobudzający wysoki
Basset 9 48 spokojny medium
Czy potrafisz znaleźć jakiekolwiek problemy z danymi cech?
Kliknij tutaj, aby zobaczyć odpowiedź

Zniekształcenie danych

zniekształcenia danych, wskazujące na pojawienie się pewnych grup lub cech są niedostatecznie reprezentowane lub nadmiernie reprezentowane w stosunku do rzeczywistej powszechności tych treści, wprowadzić uprzedzenia do modelu.

Przy audytowaniu wydajności modelu ważne jest nie tylko sprawdzanie wyników a jednocześnie podzielić wyniki według podgrupy. Na przykład w przypadku naszego modelu adopcji, zapewniając sprawiedliwość, nie wystarczy, trzeba wziąć pod uwagę ogólną dokładność. Należy także kontrolować wyniki w poszczególnych podgrupach. aby model działał tak samo dobrze w przypadku każdej rasy, grupy wiekowej i każdego psa. grupy rozmiarów.

W dalszej części tego modułu, w części Ocena pod kątem uprzedzeń, przyjrzymy się różnym metodom oceny modeli w podziale na podgrupy.