Przed utworzeniem wektorów cech zalecamy zbadanie danych liczbowych na 2 sposoby:
- wizualizować dane na wykresach lub w postaci wykresów,
- uzyskiwać statystyki dotyczące swoich danych;
Utwórz wizualizację danych
Wykresy mogą pomóc w znalezieniu anomalii lub wzorców ukrytych w danych. Dlatego zanim zaczniesz analizować dane, warto je najpierw wyświetlić w postaci wykresów rozproszonych lub histogramów. Wyświetlaj wykresy nie tylko na początku potoku danych, ale też podczas przekształcania danych. Wizualizacje pomagają stale sprawdzać założenia.
Do wizualizacji zalecamy użycie biblioteki pandas:
Pamiętaj, że niektóre narzędzia do wizualizacji są zoptymalizowane pod kątem określonych formatów danych. Narzędzie do wizualizacji, które pomaga oceniać bufory protokołu, może, ale nie musi pomagać w ocenie danych CSV.
Statystyczna analiza danych
Oprócz analizy wizualnej zalecamy również ocenę potencjalnych funkcji i etykietek za pomocą obliczeń matematycznych, aby zebrać podstawowe statystyki, takie jak:
- średnia i mediana
- odchylenie standardowe
- wartości w miejscach podziału na kwartyle: 0, 25, 50, 75 i 100 percentyla; 0. centyl to minimalna wartość w kolumnie, a 100. centyl to maksymalna wartość w kolumnie. (50 centyl to mediana).
znajdować wartości odstające.
Wyjątek to wartość odległa od większości innych wartości w cechu lub etykiecie. Warto pamiętać, że wartości odstające często powodują problemy podczas trenowania modelu, dlatego ważne jest ich znajdowanie.
Jeśli różnica między 0 a 25 procentylem różni się znacznie od różnicy między 75 a 100 procentylem, zbiór danych prawdopodobnie zawiera wartości odstające.
Wartości odstające mogą należeć do jednej z tych kategorii:
- Wyjątek jest spowodowany błędem. Może na przykład eksperymentator przez pomyłkę wpisał dodatkową cyfrę 0, a może instrument zbierający dane działał nieprawidłowo. Zwykle usuwasz przykłady zawierające wartości odstające.
- Wyjątek to prawidłowy punkt danych, a nie błąd.
Czy w tym przypadku wytrenowany model będzie musiał w końcu wyciągać trafne wnioski na podstawie tych wartości odstających?
- Jeśli tak, zachowaj te wartości odstające w swoim zbiorze treningowym. W szakramie te wartości skrajne w pewnych cechach czasami odzwierciedlają wartości skrajne w etykiecie, więc mogą pomagać modelowi w uzyskiwaniu lepszych wyników. Pamiętaj, że wartości skrajne mogą nadal negatywnie wpływać na model.
- Jeśli nie, usuń wartości odstające lub zastosuj bardziej inwazyjne metody inżynierii cech, takie jak clipping.