Podsumowanie

W ramach tego szkolenia omówiliśmy wiele typowych pułapek danych, takich jak jakość zbiorów danych po wizualizację i analizę statystyczną.

Specjaliści ds. systemów uczących się powinni zadać sobie te pytania:

  • Na ile dobrze rozumiem cechy moich zbiorów danych i warunki, w jakich dane te zostały zebrane?
  • Jakie problemy z jakością lub stronniczością są obecne w przypadku moich danych? są czynnikiem mylącym, obecnie?
  • Jakie potencjalne problemy w dalszej części działalności mogą się pojawić w wyniku zastosowania tych konkretnych w zbiorach danych?
  • Podczas trenowania modelu, który generuje prognozy lub klasyfikacje: zbiór danych, na którym jest trenowany model, zawiera wszystkie odpowiednie zmienne?

Niezależnie od tego, jakie są wyniki, osoby praktykujące systemy uczące się powinny zawsze analizować się pod kątem uprzedzeń w potwierdzeniu, a następnie porównują wyniki z intuicyjności i zdrowego rozsądku, a następnie zbadać, czy dane są sprzeczne z nimi.

Materiały dodatkowe

Kair, Alberto. Jak wykresy kłamią: jak lepiej prezentować informacje wizualne Nowy Jork: Z.W. Norton, 2019 r.

Uff, Darrell. Jak leżeć na statystykach. Nowy Jork: Norton, 1954.

Monmonier, Mark. How to Lie with Maps (Jak kłamać w Mapach), wersja 3 Chicago: U z Chicago P, 2018 roku.

Jones, Ben. Unikanie błędów związanych z danymi. Hoboken, NJ: Wiley, 2020 r.

Wheelan, Charles. Nagłe statystyki: jak wyeliminować strach z danych. Nowy Jork: Z.W. Norton, 2013