Dane liczbowe: pierwsze kroki

Przed utworzeniem wektorów cech zalecamy zbadanie danych liczbowych na 2 sposoby:

  • wizualizować dane na wykresach lub w postaci wykresów,
  • uzyskiwać statystyki dotyczące swoich danych;

Utwórz wizualizację danych

Wykresy mogą pomóc w znalezieniu anomalii lub wzorców ukrytych w danych. Dlatego zanim zaczniesz analizować dane, warto je najpierw wyświetlić w postaci wykresów rozproszonych lub histogramów. Wyświetlaj wykresy nie tylko na początku potoku danych, ale też podczas przekształcania danych. Wizualizacje pomagają stale sprawdzać założenia.

Do wizualizacji zalecamy użycie biblioteki pandas:

Pamiętaj, że niektóre narzędzia do wizualizacji są zoptymalizowane pod kątem określonych formatów danych. Narzędzie do wizualizacji, które pomaga oceniać bufory protokołu, może, ale nie musi pomagać w ocenie danych CSV.

Statystyczna analiza danych

Oprócz analizy wizualnej zalecamy również ocenę potencjalnych funkcji i etykietek za pomocą obliczeń matematycznych, aby zebrać podstawowe statystyki, takie jak:

  • średnia i mediana
  • odchylenie standardowe
  • wartości w miejscach podziału na kwartyle: 0, 25, 50, 75 i 100 percentyla; 0. centyl to minimalna wartość w kolumnie, a 100. centyl to maksymalna wartość w kolumnie. (50 centyl to mediana).

znajdować wartości odstające.

Wyjątek to wartość odległa od większości innych wartości w cechu lub etykiecie. Warto pamiętać, że wartości odstające często powodują problemy podczas trenowania modelu, dlatego ważne jest ich znajdowanie.

Jeśli różnica między 0 a 25 procentylem różni się znacznie od różnicy między 75 a 100 procentylem, zbiór danych prawdopodobnie zawiera wartości odstające.

Wartości odstające mogą należeć do jednej z tych kategorii:

  • Wyjątek jest spowodowany błędem. Może na przykład eksperymentator przez pomyłkę wpisał dodatkową cyfrę 0, a może instrument zbierający dane działał nieprawidłowo. Zwykle usuwasz przykłady zawierające wartości odstające.
  • Wyjątek to prawidłowy punkt danych, a nie błąd. Czy w tym przypadku wytrenowany model będzie musiał w końcu wyciągać trafne wnioski na podstawie tych wartości odstających?
    • Jeśli tak, zachowaj te wartości odstające w swoim zbiorze treningowym. W szakramie te wartości skrajne w pewnych cechach czasami odzwierciedlają wartości skrajne w etykiecie, więc mogą pomagać modelowi w uzyskiwaniu lepszych wyników. Pamiętaj, że wartości skrajne mogą nadal negatywnie wpływać na model.
    • Jeśli nie, usuń wartości odstające lub zastosuj bardziej inwazyjne metody inżynierii cech, takie jak clipping.