Cele szkoleniowe
W tym module dowiesz się, jak:
- Badanie potencjalnych problemów bazujących na nieprzetworzonych lub przetworzonych zbiorach danych, w tym problemy z zbieraniem danych i jakością.
- Rozpoznaj uprzedzenia, nieprawidłowe wnioskowania i racjonalizacje.
- Znajdź typowe problemy z analizą danych, w tym z korelacją, związku i nieistotności.
- Przeanalizuj wykres pod kątem typowych problemów, nieporozumień wprowadzających w błąd w zakresie wyświetlania i projektowania.
ML – motywacja
Chociaż nie są tak wspaniałe jak architektury modeli i inne późniejsze modele, eksploracja danych, dokumentacja i wstępne przetwarzanie są kluczowe Systemy uczące się działają. Specjaliści ML mogą się odnieść do tego, co mówi Nithya Sambasivan i in. o nazwie kaskady danych w publikacji na temat ACM z 2021 r. jeśli nie rozumieją zbyt dobrze:
- warunki, zgodnie z którymi zbierane są dane;
- jakość, cechy i ograniczenia danych
- Co można, a czego nie można wyświetlić,
Wytrenowanie modeli na złych danych jest bardzo kosztowne, dowiadywać się tylko, że w wynikach wyszukiwania niskiej jakości wystąpiły problemy z danymi. Podobnie niezrozumienie ograniczeń danych uprzedzeń w gromadzeniu danych lub mylących korelacji przyczynowo-skutkowych, mogą prowadzić do zbyt obiecujących i niezadowalających wyników, co może prowadzić do utraty zaufania.
W tym kursie omawiamy typowe, ale subtelne pułapki danych, które wiążą się z systemami uczącymi się i danymi które mogą być spotykane w pracy.