Dane liczbowe: podsumowanie

Stan modelu systemów uczących się jest określany na podstawie jego danych. Nakarm że dane będą dobrze funkcjonować i będą się rozwijać; dostarczaniu śmieci modelu i jego prognozy będą bezwartościowe.

Sprawdzone metody pracy z danymi liczbowymi:

  • Pamiętaj, że Twój model ML współdziała z danymi w wektor cech, a nie danych w tabeli zbiór danych,
  • Normalizuj najbardziej funkcje liczbowe.
  • Jeśli pierwsza strategia normalizacji się nie powiedzie, rozważ inne sposób na znormalizowanie danych.
  • Binning (inaczej: grupowaniu, lepsze niż normalizacja.
  • Zastanów się, jak powinny wyglądać Twoje dane, przeprowadź proces weryfikacji aby potwierdzić te oczekiwania. Na przykład:
    • Wartość bezwzględna szerokości geograficznej nigdy nie powinna przekraczać 90. Możesz napisać aby sprawdzić, czy w danych pojawia się szerokość geograficzna większa niż 90.
    • Jeśli Twoje dane są ograniczone do stanu Floryda, możesz pisać testy aby sprawdzić, czy szerokość geograficzna mieści się w przedziale od 24 do 31 włącznie.
  • Wizualizacja danych za pomocą wykresów punktowych i histogramów. Szukaj anomalie.
  • Gromadzenie statystyk nie tylko na całym zbiorze danych, ale również na mniejszych podzbiorów zbioru danych. Dzieje się tak dlatego, że zagregowane statystyki czasami i ukrywają problemy w mniejszych sekcjach zbioru danych.
  • Dokumentuj wszystkie przekształcenia danych.

Dane są Twoim najcenniejszym zasobem, więc traktuj je z rozwagą.

Dodatkowe informacje

Co dalej?

Gratulacje! Udało Ci się ukończyć ten moduł.

Zachęcamy do zapoznania się z różnymi modułami MLCC we własnym tempie i we własnym tempie. Jeśli chcesz postępować zgodnie z zalecaną kolejnością, zalecamy przejście do następującego modułu: Dane kategorialne.