Dane liczbowe: pierwsze kroki

Przed utworzeniem wektorów cech zalecamy zbadanie danych liczbowych w na dwa sposoby:

  • Wizualizacja danych w postaci wykresów.
  • Pobierz statystyki dotyczące swoich danych.

Utwórz wizualizację danych

Wykresy mogą pomóc w znalezieniu anomalii lub wzorców ukrytych w danych. Dlatego, zanim zagłębimy się w analizę, przyjrzyj się wykresów, w postaci wykresów punktowych lub histogramów. Nie wyświetlaj wykresów tylko na początku potoku danych, ale także w obrębie danych przekształcenia danych. Wizualizacje pomagają stale sprawdzać założenia.

Do wizualizacji zalecamy użycie pand:

Pamiętaj, że niektóre narzędzia do wizualizacji są zoptymalizowane pod kątem określonych formatów danych. Narzędzie do wizualizacji pomagające ocenić bufory protokołów może, ale nie musi, w analizie danych CSV.

Ocena danych statystycznych

Oprócz analizy wizualnej zalecamy też ocenę potencjalnych funkcji oznacza matematycznie etykiety, zbierając podstawowe statystyki, takie jak:

  • średnia i mediana
  • odchylenie standardowe
  • wartości w podziale kwartyla: 0, 25, 50, 75 i 100. percentylu. 0 centyl to minimalna wartość w tej kolumnie; 100. percentyl to maksymalna wartość w tej kolumnie. (50% percentyl to mediana).

Znajdź wyniki odstające

Wartości odstające to wartość odległa od większości innych wartości w funkcji lub etykiecie. Wartości odstające często powodują problemy w trenowaniu modeli, więc znajdowanie wartości odstających jest ważne.

Gdy delta między 0 a 25 centylem znacznie się różni z delta między 75 a 100 centylem, zbiór danych prawdopodobnie zawiera wyniki odstające.

Wartości odstające mogą zaliczać się do dowolnej z tych kategorii:

  • Wynik odstający jest spowodowany błędem. Na przykład eksperymentator omyłkowo wpisał dodatkowe zero, lub narzędzia do zbierania danych. Usuwasz zwykle przykłady, które zawierają błędy odstające z perspektywy.
  • Wynik odstający to prawidłowy punkt danych, a nie błąd. Czy w tym przypadku wytrenowany model na podstawie tych danych odstających od wyników.
    • Jeśli tak, zachowaj te wyniki odstające w swoim zestawie treningowym. Przecież nietypowe w pewnych cechach często powielają odchylenia od normy, przez co odstające mogą pomóc modelowi w generowaniu lepszych prognoz. Ostrożnie, skrajne odchylenia mogą wciąż uszkodzić model.
    • Jeśli nie, usuń wartości odstające lub zastosuj bardziej inwazyjną inżynierię cech takich jak przycinanie.