Jakość modelu systemów uczących się zależy od jego danych. Jeśli model będzie otrzymywać dobre dane, będzie się rozwijał, ale jeśli będzie otrzymywać śmieciowe dane, jego prognozy będą bezwartościowe.
Sprawdzone metody pracy z danymi liczbowymi:
- Pamiętaj, że model ML współpracuje z danymi w wektorze cech, a nie z danymi w zbiorze danych.
- Znormalizuj większość funkcji numerycznych.
- Jeśli pierwsza strategia normalizacji nie przyniesie oczekiwanych rezultatów, spróbuj innej metody normalizacji danych.
- Zbiory, czyli zbiory danych, są czasami lepsze od normalizacji.
- Biorąc pod uwagę, jak powinny wyglądać Twoje dane, napisz testy weryfikacyjne, aby sprawdzić, czy spełniają one oczekiwania. Na przykład:
- Wartość bezwzględna szerokości geograficznej nie powinna przekraczać 90. Możesz napisać test, aby sprawdzić, czy w danych pojawia się wartość szerokości geograficznej większa niż 90.
- Jeśli Twoje dane są ograniczone do stanu Floryda, możesz napisać testy, aby sprawdzić, czy szerokości geograficzne mieszczą się w zakresie od 24 do 31 włącznie.
- Wizualizuj dane za pomocą wykresów punktowych i histogramów. Poszukaj anomalii.
- Zbieraj statystyki nie tylko dla całego zbioru danych, ale też dla mniejszych podzbiorów. Dzieje się tak, ponieważ statystyki zbiorcze czasami ukrywają problemy w mniejszych częściach zbioru danych.
- Udokumentuj wszystkie przekształcenia danych.
Dane są Twoim najcenniejszym zasobem, dlatego należy o nie dbać.
Dodatkowe informacje
- Przewodnik Reguły dotyczące systemów uczących się zawiera przydatną sekcję Feature Engineering.
Co dalej?
Gratulujemy ukończenia tego modułu.
Zachęcamy do samodzielnego odkrywania różnych modułów MLCC. Jeśli chcesz zachować zalecaną kolejność, przejdź do następnego modułu: Przedstawianie danych kategorialnych.