Stan modelu systemów uczących się jest określany na podstawie jego danych. Nakarm że dane będą dobrze funkcjonować i będą się rozwijać; dostarczaniu śmieci modelu i jego prognozy będą bezwartościowe.
Sprawdzone metody pracy z danymi liczbowymi:
- Pamiętaj, że Twój model ML współdziała z danymi w wektor cech, a nie danych w tabeli zbiór danych,
- Normalizuj najbardziej funkcje liczbowe.
- Jeśli pierwsza strategia normalizacji się nie powiedzie, rozważ inne sposób na znormalizowanie danych.
- Binning (inaczej: grupowaniu, lepsze niż normalizacja.
- Zastanów się, jak powinny wyglądać Twoje dane, przeprowadź proces weryfikacji
aby potwierdzić te oczekiwania. Na przykład:
- Wartość bezwzględna szerokości geograficznej nigdy nie powinna przekraczać 90. Możesz napisać aby sprawdzić, czy w danych pojawia się szerokość geograficzna większa niż 90.
- Jeśli Twoje dane są ograniczone do stanu Floryda, możesz pisać testy aby sprawdzić, czy szerokość geograficzna mieści się w przedziale od 24 do 31 włącznie.
- Wizualizacja danych za pomocą wykresów punktowych i histogramów. Szukaj anomalie.
- Gromadzenie statystyk nie tylko na całym zbiorze danych, ale również na mniejszych podzbiorów zbioru danych. Dzieje się tak dlatego, że zagregowane statystyki czasami i ukrywają problemy w mniejszych sekcjach zbioru danych.
- Dokumentuj wszystkie przekształcenia danych.
Dane są Twoim najcenniejszym zasobem, więc traktuj je z rozwagą.
Dodatkowe informacje
- Przewodnik po regułach uczenia maszynowego zawiera przydatne Inżynieria cech.
Co dalej?
Gratulacje! Udało Ci się ukończyć ten moduł.
Zachęcamy do zapoznania się z różnymi modułami MLCC we własnym tempie i we własnym tempie. Jeśli chcesz postępować zgodnie z zalecaną kolejnością, zalecamy przejście do następującego modułu: Dane kategorialne.