Dane liczbowe: przewijanie

Jabłoń to mieszanina świetnych owoców i robaków. Jednak jabłka w ekskluzywnych sklepach spożywczych oferują 100% doskonałe owoce. Poza sadem a sklepem spożywczym ktoś poświęca sporo czasu lub trochę wosku na te, które można odzyskać. Jako inżynier systemów uczących się będziesz spędzać mnóstwo czasu odrzucanie złych przykładów i sprzątanie tych, które można odzyskać. Nawet kilka złych jabłek może zepsuć duży zbiór danych.

Wiele przykładów w zbiorach danych jest niewiarygodnych z powodu co najmniej jednej następujące problemy:

Kategoria problemu Przykład
Pominięte wartości Osoba przeprowadzająca spis nie rejestruje wieku mieszkańców.
Zduplikowane przykłady Serwer przesyła te same logi dwa razy.
Wartości cech spoza zakresu. Ktoś przypadkowo wpisuje dodatkową cyfrę.
Nieprawidłowe etykiety Weryfikator błędnie oznacza zdjęcie dębu jako klon.

Możesz napisać program lub skrypt do wykrywania następujących problemów:

  • Pominięte wartości
  • Zduplikowane przykłady
  • Wartości cech spoza zakresu

Na przykład ten zbiór danych zawiera 6 powtarzających się wartości:

Rysunek 15. Pierwszych 6 wartości jest powtarzanych. Finałowa ósemka
            .
Rysunek 15. Pierwszych 6 wartości jest powtarzanych.

W kolejnym przykładzie załóżmy, że zakres temperatur dla określonej cechy musi musi mieścić się w przedziale od 10 do 30 stopni włącznie. Zdarzają się jednak wypadki, termometr jest tymczasowo wystawiony na działanie światła słonecznego, co powoduje występowanie nieprawidłowej wartości odstającej. Twój program lub skrypt musi określać wartości temperatury mniejsze niż 10 lub większe niż 30:

Rysunek 16. Dziewiętnaście wartości w zakresie i jedna wartość spoza zakresu.
Rysunek 16. Wartość spoza zakresu.

Jeśli etykiety są generowane przez wiele osób, zalecamy stosowanie statystyk określając, czy każdy oceniający wygenerował równoważne zestawy etykiet. Być może jeden weryfikator był ostrzejszy niż reszta inny zestaw kryteriów oceniania?

Zazwyczaj trzeba je „naprawić” przykłady z nieprawidłowymi funkcjami lub nieprawidłowych etykiet przez usunięcie ich ze zbioru danych lub przypisanie ich wartości. Więcej informacji: Cechy danych strony Zbiory danych, uogólnianie i nadmierne dopasowanie .