Ta strona została przetłumaczona przez Cloud Translation API.

obiektywność: identyfikowanie uprzedzeń,

Podczas przygotowywania danych do trenowania i oceny modelu należy pamiętać o problemach związanych z uprzedzoną oceną i sprawdzaniem potencjalnych źródeł uprzedzeń, aby móc aktywnie ograniczać ich wpływ przed wdrożeniem modelu w produkcji.

Gdzie może się pojawić stronniczość? Oto sygnały ostrzegawcze, na które należy zwrócić uwagę w danych.

Brakujące wartości cech

Jeśli Twój zbiór danych zawiera co najmniej 1 cechę, która w dużej liczbie przykładów ma brakujące wartości, może to wskazywać, że niektóre kluczowe cechy zbioru danych są niedostatecznie reprezentowane.

Ćwiczenie: sprawdź swoją wiedzę

Trenujesz model, aby przewidywał, czy psy ze schroniska nadają się do adopcji, na podstawie różnych cech, takich jak rasa, wiek, waga, temperament i ilość zrzucanego dziennie futra. Twoim celem jest zapewnienie, aby model działał równie dobrze w przypadku wszystkich typów psów, niezależnie od ich cech fizycznych lub behawioralnych.

Odkrywasz, że w przypadku 1500 z 5000 przykładów w zbiorze treningowym brakuje wartości temperamentu. Które z tych źródeł są potencjalnymi źródłami uprzedzeń, które należy zbadać?

W przypadku niektórych ras psów może brakować danych o tempie.

Jeśli dostępność danych o temperamencie jest powiązana z rasą psa, może to skutkować mniej dokładnymi prognozami dotyczącymi adoptowalności w przypadku niektórych ras psów.

W przypadku psów poniżej 12 miesiąca prawdopodobnie brakuje danych o tempie

Jeśli dostępność danych o temperamentach jest powiązana z wiekiem, może to skutkować mniej dokładnymi prognozami adopcji w przypadku szczeniąt i dorosłych psów.

Brak danych o temperamencie wszystkich psów uratowanych z dużych miast.

Na pierwszy rzut oka może się wydawać, że nie jest to potencjalne źródło błędu systematycznego, ponieważ brakujące dane wpływają na wszystkie psy z dużych miast w równym stopniu, niezależnie od ich rasy, wieku, wagi itp. Musimy jednak wziąć pod uwagę, że miejsce pochodzenia psa może być przybliżeniem tych cech fizycznych. Jeśli na przykład psy z dużych miast są znacznie mniejsze niż psy z większych obszarów wiejskich, może to skutkować niedokładnym prognozowaniem możliwości adaptacji w przypadku psów o mniejszej wadze i określonych ras małych.

Zbiór danych zawiera losowo wybrane dane o temperamentach.

Jeśli dane o temperamencie są rzeczywiście losowo nieobecne, nie będą potencjalnym źródłem stronniczości. Możliwe jednak, że dane dotyczące usposobienia mogą być przypadkowo nieobecne, ale dalsze dochodzenie może wyjaśnić tę rozbieżność. Dlatego ważne jest, aby dokładnie przeprowadzić analizę, aby wykluczyć inne możliwości, zamiast zakładać, że luki w danych są generowane losowo.

Nieoczekiwane wartości cech

Podczas eksplorowania danych należy też szukać przykładów zawierających wartości cech, które wyróżniają się jako szczególnie nietypowe lub nietypowe. Te nieoczekiwane wartości funkcji mogą wskazywać na problemy występujące podczas zbierania danych lub inne niedokładności, które mogą powodować stronniczość.

Ćwiczenie: sprawdź swoją wiedzę

Zapoznaj się z tym hipotetycznym zestawem przykładów, aby wytrenować model adoptowalności psów ze schroniska.

rasa	wiek (lata)	waga (lbs)	usposobienie	shedding_level
pudel miniaturowy	2	12	pobudzający	niski
golden retriever	7	65	spokój	wysoki
labrador retriever	35	73	spokojny	wysoki
buldog francuski	0,5	11	spokój	medium
nieznanej rasy mieszańce	4	45	pobudliwy	wysoki
basset hound	9	48	spokój	medium

Czy możesz zidentyfikować jakieś problemy z danymi funkcji?

Kliknij tutaj, aby zobaczyć odpowiedź

rasa	wiek (lata)	waga (lbs)	usposobienie	shedding_level
pudel miniaturowy	2	12	pobudzający	niski
golden retriever	7	65	spokój	wysoki
labrador retriever	35	73	spokojny	wysoki
buldog francuski	0,5	11	spokój	medium
nieznanej rasy mieszańce	4	45	pobudliwy	wysoki
basset hound	9	48	spokój	medium

Najstarszym psem, którego wiek został potwierdzony przez Księgę rekordów Guinnessa, był Bluey, australijski pies pasterski, który dożył 29 lat i 5 miesięcy. W związku z tym wydaje się mało prawdopodobne, aby pies był w tym wieku, a bardziej prawdopodobne, że jego wiek został błędnie obliczony lub zapisany (być może ma on w rzeczywistości 3,5 roku). Ten błąd może też wskazywać na szersze problemy z dokładnością danych dotyczących wieku w zbiorze danych, które wymagają dalszej analizy.

Zniekształcenie danych

Wszelkie odchylenia w danych, w których pewne grupy lub cechy mogą być niedostatecznie lub nadmiernie reprezentowane w stosunku do ich rzeczywistej częstości występowania, mogą wprowadzać uprzedzenia do modelu.

Podczas sprawdzania skuteczności modelu ważne jest, aby nie tylko sprawdzać wyniki zbiorcze, ale też dzielić je według podgrup. Na przykład w przypadku modelu adopcji psów ze schroniska, aby zapewnić sprawiedliwość, nie wystarczy po prostu sprawdzić ogólnej dokładności. Musimy też sprawdzić skuteczność w podgrupach, aby upewnić się, że model działa równie dobrze w przypadku każdej rasy, grupy wiekowej i grupy rozmiarów psów.

W dalszej części tego modułu, w sekcji Ocena stronnicości, przyjrzymy się bliżej różnym metodom oceny modeli według podgrup.

Wstecz

Rodzaje uprzedzeń (5 min)

Dalej

Minimalizowanie odchyleń (5 min)