Gdy analizujesz dane i chcesz je najlepiej reprezentować w modelu, musisz pamiętać o uczciwości i aktywnie sprawdzać potencjalne źródła błędów.
Gdzie może być odchylenie? Oto trzy sygnały ostrzegawcze, na które należy zwrócić uwagę w zbiorze danych.
Brak wartości cech
Jeśli Twój zbiór danych ma co najmniej jedną cechę bez wartości dla dużej liczby przykładów, może to oznaczać, że niektóre kluczowe cechy zbioru danych są niedostatecznie reprezentowane.
Poniższa tabela zawiera podsumowanie kluczowych statystyk dla podzbioru cech w zbiorze danych dla nieruchomości Kalifornia, przechowywanych w pandach DataFrame
i wygenerowanych przez DataFrame.describe
. Pamiętaj, że wszystkie funkcje mają count
o wartości 17 000, co oznacza, że nie brakuje żadnych wartości:
longitude | latitude | łączna_liczba_sal | populacja | gospodarstwa domowe | mediana_dochodu | mediana_wartości_domu | |
---|---|---|---|---|---|---|---|
liczba | 17 000,0 | 17 000,0 | 17 000,0 | 17 000,0 | 17 000,0 | 17 000,0 | 17 000,0 |
średnia | -119,6 | 35,6 | 2643,7 | 1429,6 | 501,2 | 3,9 | 207,3 |
StD | 2,0 | 2.1 | 2179,9 | 1147,9 | 384,5 | 1.9 | 116,0 |
minuta | -124,3 | 32,5 | 2,0 | 3,0 | 1.0 | 0,5 | 15,0 |
25% | -121,8 | 33,9 | 1462,0 | 790,0 | 282,0 | 2.6 | 119,4 |
50% | -118,5 | 34,2 | 2127,0 | 1167,0 | 409,0 | 3,5 | 180,4 |
75% | -118,0 | 37,7 | 3151,2 | 1721,0 | 605,2 | 4.8 | 265,0 |
maks. | -114,3 | 42,0 | 37937,0 | 35682,0 | 6082,0 | 15,0 | 500,0 |
Zamiast tego załóżmy, że 3 funkcje (population
, households
i median_income
) mają tylko liczbę 3000
, czyli brakuje 14 000 wartości dla każdej z nich:
longitude | latitude | łączna_liczba_sal | populacja | gospodarstwa domowe | mediana_dochodu | mediana_wartości_domu | |
---|---|---|---|---|---|---|---|
liczba | 17 000,0 | 17 000,0 | 17 000,0 | 3000,0 | 3000,0 | 3000,0 | 17 000,0 |
średnia | -119,6 | 35,6 | 2643,7 | 1429,6 | 501,2 | 3,9 | 207,3 |
StD | 2,0 | 2.1 | 2179,9 | 1147,9 | 384,5 | 1.9 | 116,0 |
minuta | -124,3 | 32,5 | 2,0 | 3,0 | 1.0 | 0,5 | 15,0 |
25% | -121,8 | 33,9 | 1462,0 | 790,0 | 282,0 | 2.6 | 119,4 |
50% | -118,5 | 34,2 | 2127,0 | 1167,0 | 409,0 | 3,5 | 180,4 |
75% | -118,0 | 37,7 | 3151,2 | 1721,0 | 605,2 | 4.8 | 265,0 |
maks. | -114,3 | 42,0 | 37937,0 | 35682,0 | 6082,0 | 15,0 | 500,0 |
Te 14 000 brakujących wartości znacznie utrudniłoby precyzyjne korelowanie średnich dochodów gospodarstw domowych z medianami cen domów. Zanim zaczniesz trenować model na podstawie tych danych, spróbuj zbadać ich przyczynę, aby upewnić się, że nie ma ukrytych błędów odpowiedzialnych za brakujące dane o przychodach i populacji.
Nieoczekiwane wartości cech
Podczas badania danych poszukaj też przykładów zawierających wartości cech, które szczególnie się wyróżniają. Te nieoczekiwane wartości cech mogą wskazywać na problemy, które wystąpiły podczas gromadzenia danych lub w wyniku innych niedokładności, które mogą wprowadzać odchylenia.
Przyjrzyjmy się tym przykładom z Kalifornii, w których znajdują się takie dane:
longitude | latitude | łączna_liczba_sal | populacja | gospodarstwa domowe | mediana_dochodu | mediana_wartości_domu | |
---|---|---|---|---|---|---|---|
1 | -121,7 | 38,0 | 7105,0 | 3523,0 | 1088,0 | 5,0 | 0,2 |
2 | -122,4 | 37,8 | 2479,0 | 1816,0 | 496,0 | 3.1 | 0,3 |
3 | -122,0 | 37,0 | 2813,0 | 1337,0 | 477,0 | 3,7 | 0,3 |
4 | -103,5 | 43,8 | 2212,0 | 803,0 | 144,0 | 5.3 | 0,2 |
5 | -117,1 | 32,8 | 2963,0 | 1162,0 | 556,0 | 3.6 | 0,2 |
6 | -118,0 | 33,7 | 3396,0 | 1542,0 | 472,0 | 8.4 | 0,4 |
Czy możesz wskazać nieoczekiwane wartości cech?
Zniekształcenie danych
Wszelkie zniekształcenia danych, w przypadku których niektóre grupy lub cechy mogą być niedostatecznie lub reprezentowane w stosunku do ich rzeczywistej pozycji, mogą wprowadzić odchylenia w modelu.
Po ukończeniu ćwiczenia programowania weryfikacji możesz sobie przypomnieć, jak niezaplanowana losowa zbiór danych dotyczących domów w Kalifornii przed jego podzieleniem na zbiory do trenowania i walidacji spowodowała zniekształcone dane. Ilustracja 1 przedstawia podzbiór danych pochodzących z pełnego zbioru danych, który reprezentuje wyłącznie północno-zachodni region regionu Kalifornii.
Rysunek 1. Mapa stanu Kalifornia nałożona na dane z Kalifornii. Każda kropka reprezentuje blok mieszkalny, którego kolory mogą mieć od koloru niebieskiego do czerwonego odpowiednio do mediany ceny domu (od niskich do wysokich).
Gdyby ta niereprezentatywna próbka została użyta do wytrenowania modelu do prognozowania cen nieruchomości w stanie Kalifornia, brak danych dotyczących nieruchomości z południowej części Kalifornii byłby problematyczny. Odchylenie geograficzne zakodowane w modelu może niekorzystnie wpływać na nabywców domów w niereprezentowanych społecznościach.