Pułapki na dane

Cele szkoleniowe

W tym module dowiesz się, jak:

  • Badanie potencjalnych problemów bazujących na nieprzetworzonych lub przetworzonych zbiorach danych, w tym problemy z zbieraniem danych i jakością.
  • Rozpoznaj uprzedzenia, nieprawidłowe wnioskowania i racjonalizacje.
  • Znajdź typowe problemy z analizą danych, w tym z korelacją, związku i nieistotności.
  • Przeanalizuj wykres pod kątem typowych problemów, nieporozumień wprowadzających w błąd w zakresie wyświetlania i projektowania.

ML – motywacja

Chociaż nie są tak wspaniałe jak architektury modeli i inne późniejsze modele, eksploracja danych, dokumentacja i wstępne przetwarzanie są kluczowe Systemy uczące się działają. Specjaliści ML mogą się odnieść do tego, co mówi Nithya Sambasivan i in. o nazwie kaskady danych w publikacji na temat ACM z 2021 r. jeśli nie rozumieją zbyt dobrze:

  • warunki, zgodnie z którymi zbierane są dane;
  • jakość, cechy i ograniczenia danych
  • Co można, a czego nie można wyświetlić,

Wytrenowanie modeli na złych danych jest bardzo kosztowne, dowiadywać się tylko, że w wynikach wyszukiwania niskiej jakości wystąpiły problemy z danymi. Podobnie niezrozumienie ograniczeń danych uprzedzeń w gromadzeniu danych lub mylących korelacji przyczynowo-skutkowych, mogą prowadzić do zbyt obiecujących i niezadowalających wyników, co może prowadzić do utraty zaufania.

W tym kursie omawiamy typowe, ale subtelne pułapki danych, które wiążą się z systemami uczącymi się i danymi które mogą być spotykane w pracy.