Przed utworzeniem wektorów cech zalecamy zbadanie danych liczbowych w na dwa sposoby:
- Wizualizacja danych w postaci wykresów.
- Pobierz statystyki dotyczące swoich danych.
Utwórz wizualizację danych
Wykresy mogą pomóc w znalezieniu anomalii lub wzorców ukrytych w danych. Dlatego, zanim zagłębimy się w analizę, przyjrzyj się wykresów, w postaci wykresów punktowych lub histogramów. Nie wyświetlaj wykresów tylko na początku potoku danych, ale także w obrębie danych przekształcenia danych. Wizualizacje pomagają stale sprawdzać założenia.
Do wizualizacji zalecamy użycie pand:
Pamiętaj, że niektóre narzędzia do wizualizacji są zoptymalizowane pod kątem określonych formatów danych. Narzędzie do wizualizacji pomagające ocenić bufory protokołów może, ale nie musi, w analizie danych CSV.
Ocena danych statystycznych
Oprócz analizy wizualnej zalecamy też ocenę potencjalnych funkcji oznacza matematycznie etykiety, zbierając podstawowe statystyki, takie jak:
- średnia i mediana
- odchylenie standardowe
- wartości w podziale kwartyla: 0, 25, 50, 75 i 100. percentylu. 0 centyl to minimalna wartość w tej kolumnie; 100. percentyl to maksymalna wartość w tej kolumnie. (50% percentyl to mediana).
Znajdź wyniki odstające
Wartości odstające to wartość odległa od większości innych wartości w funkcji lub etykiecie. Wartości odstające często powodują problemy w trenowaniu modeli, więc znajdowanie wartości odstających jest ważne.
Gdy delta między 0 a 25 centylem znacznie się różni z delta między 75 a 100 centylem, zbiór danych prawdopodobnie zawiera wyniki odstające.
Wartości odstające mogą zaliczać się do dowolnej z tych kategorii:
- Wynik odstający jest spowodowany błędem. Na przykład eksperymentator omyłkowo wpisał dodatkowe zero, lub narzędzia do zbierania danych. Usuwasz zwykle przykłady, które zawierają błędy odstające z perspektywy.
- Wynik odstający to prawidłowy punkt danych, a nie błąd.
Czy w tym przypadku wytrenowany model
na podstawie tych danych odstających od wyników.
- Jeśli tak, zachowaj te wyniki odstające w swoim zestawie treningowym. Przecież nietypowe w pewnych cechach często powielają odchylenia od normy, przez co odstające mogą pomóc modelowi w generowaniu lepszych prognoz. Ostrożnie, skrajne odchylenia mogą wciąż uszkodzić model.
- Jeśli nie, usuń wartości odstające lub zastosuj bardziej inwazyjną inżynierię cech takich jak przycinanie.