Podczas przygotowywania danych do trenowania i oceny modelu ważne jest, pamiętaj o kwestii obiektywności i sprawdzaj potencjalne źródła uprzedzeń, dzięki czemu możesz proaktywnie eliminuj jego skutki przed przekazaniem modelu do środowiska produkcyjnego.
Gdzie może się czaić uprzedzenia? Oto kilka sygnałów ostrzegawczych, na które należy zwrócić uwagę w zbiorze danych.
Brakujące wartości cech
Jeśli w zbiorze danych występuje co najmniej jedna cecha, w której brakuje wartości dla dużego z dużej liczby przykładów, co może wskazywać, że pewne kluczowe cechy Twojego zbioru danych są niedostatecznie reprezentowane.
Ćwiczenie: sprawdź swoją wiedzę
Okazuje się, że 1500 z 5000 przykładów w zbiorze treningowym to brakujące wartości charakteru. Które z tych źródeł są potencjalnymi źródłami stronniczości, które należy zbadać?
Nieoczekiwane wartości cech
Przy badaniu danych należy też szukać przykładów zawierających wartości cech które wyróżniają się na tle innych. Te nieoczekiwane funkcje mogą wskazywać problemy, które wystąpiły podczas zbierania danych lub nieścisłości, które mogłyby wprowadzić uprzedzenia.
Ćwiczenie: sprawdź swoją wiedzę
Przeanalizuj ten hipotetyczny zestaw przykładów dotyczących szkolenia psa ratunkowego modelu rozpowszechnienia.
rasa | wiek (lata) | waga (lbs) | usposobienie | shedding_level |
---|---|---|---|---|
pudel zabawkowy | 2 | 12 | pobudzający | niski |
golden retriever | 7 | 65 | spokojny | wysoki |
labrador retriever | 35 | 73 | spokojny | wysoki |
buldog francuski | 0,5 | 11 | spokojny | medium |
nieznana rasa mieszana | 4 | 45 | pobudzający | wysoki |
Basset | 9 | 48 | spokojny | medium |
rasa | wiek (lata) | waga (lbs) | usposobienie | shedding_level |
---|---|---|---|---|
pudel zabawkowy | 2 | 12 | pobudzający | niski |
golden retriever | 7 | 65 | spokojny | wysoki |
labrador retriever | 35 | 73 | spokojny | wysoki |
buldog francuski | 0,5 | 11 | spokojny | medium |
nieznana rasa mieszana | 4 | 45 | pobudzający | wysoki |
Basset | 9 | 48 | spokojny | medium |
Najstarszy pies, którego wiek został zweryfikowany w Rekordach Guinnessa było Bluey, australijski pies pasterski, który żył 29 lat i 5 miesięcy. W związku z tym wydaje się całkiem nieprawdopodobne, że labrador retriever ma naprawdę 35 lat, i prawdopodobieństwo, że wiek psa został obliczony lub zarejestrowany nieprawidłowo (być może pies ma w rzeczywistości 3,5 roku życia). Ten błąd mógł spowodować wskazują także na szersze problemy ze zgodnością z danymi o wieku w zbiorze danych. które wymagają dokładniejszej analizy.
Zniekształcenie danych
zniekształcenia danych, wskazujące na pojawienie się pewnych grup lub cech są niedostatecznie reprezentowane lub nadmiernie reprezentowane w stosunku do rzeczywistej powszechności tych treści, wprowadzić uprzedzenia do modelu.
Przy audytowaniu wydajności modelu ważne jest nie tylko sprawdzanie wyników a jednocześnie podzielić wyniki według podgrupy. Na przykład w przypadku naszego modelu adopcji, zapewniając sprawiedliwość, nie wystarczy, trzeba wziąć pod uwagę ogólną dokładność. Należy także kontrolować wyniki w poszczególnych podgrupach. aby model działał tak samo dobrze w przypadku każdej rasy, grupy wiekowej i każdego psa. grupy rozmiarów.
W dalszej części tego modułu, w części Ocena pod kątem uprzedzeń, przyjrzymy się różnym metodom oceny modeli w podziale na podgrupy.