W ramach tego szkolenia omówiliśmy wiele typowych pułapek danych, takich jak jakość zbiorów danych po wizualizację i analizę statystyczną.
Specjaliści ds. systemów uczących się powinni zadać sobie te pytania:
- Na ile dobrze rozumiem cechy moich zbiorów danych i warunki, w jakich dane te zostały zebrane?
- Jakie problemy z jakością lub stronniczością są obecne w przypadku moich danych? są czynnikiem mylącym, obecnie?
- Jakie potencjalne problemy w dalszej części działalności mogą się pojawić w wyniku zastosowania tych konkretnych w zbiorach danych?
- Podczas trenowania modelu, który generuje prognozy lub klasyfikacje: zbiór danych, na którym jest trenowany model, zawiera wszystkie odpowiednie zmienne?
Niezależnie od tego, jakie są wyniki, osoby praktykujące systemy uczące się powinny zawsze analizować się pod kątem uprzedzeń w potwierdzeniu, a następnie porównują wyniki z intuicyjności i zdrowego rozsądku, a następnie zbadać, czy dane są sprzeczne z nimi.
Materiały dodatkowe
Kair, Alberto. Jak wykresy kłamią: jak lepiej prezentować informacje wizualne Nowy Jork: Z.W. Norton, 2019 r.
Uff, Darrell. Jak leżeć na statystykach. Nowy Jork: Norton, 1954.
Monmonier, Mark. How to Lie with Maps (Jak kłamać w Mapach), wersja 3 Chicago: U z Chicago P, 2018 roku.
Jones, Ben. Unikanie błędów związanych z danymi. Hoboken, NJ: Wiley, 2020 r.
Wheelan, Charles. Nagłe statystyki: jak wyeliminować strach z danych. Nowy Jork: Z.W. Norton, 2013