Dane liczbowe: pierwsze kroki

Przed utworzeniem wektorów cech zalecamy zbadanie danych liczbowych na 2 sposoby:

wizualizować dane na wykresach lub w postaci wykresów,
uzyskiwać statystyki dotyczące swoich danych;

Utwórz wizualizację danych

Wykresy mogą pomóc w znalezieniu anomalii lub wzorców ukrytych w danych. Dlatego zanim zaczniesz analizować dane, warto je najpierw wyświetlić w postaci wykresów rozproszonych lub histogramów. Wyświetlaj wykresy nie tylko na początku potoku danych, ale też podczas przekształcania danych. Wizualizacje pomagają stale sprawdzać założenia.

Do wizualizacji zalecamy użycie biblioteki pandas:

Pamiętaj, że niektóre narzędzia do wizualizacji są zoptymalizowane pod kątem określonych formatów danych. Narzędzie do wizualizacji, które pomaga oceniać bufory protokołu, może, ale nie musi pomagać w ocenie danych CSV.

Statystyczna analiza danych

Oprócz analizy wizualnej zalecamy również ocenę potencjalnych funkcji i etykietek za pomocą obliczeń matematycznych, aby zebrać podstawowe statystyki, takie jak:

średnia i mediana
odchylenie standardowe
wartości w miejscach podziału na kwartyle: 0, 25, 50, 75 i 100 percentyla; 0. centyl to minimalna wartość w kolumnie, a 100. centyl to maksymalna wartość w kolumnie. (50 centyl to mediana).

znajdować wartości odstające.

Wyjątek to wartość odległa od większości innych wartości w cechu lub etykiecie. Warto pamiętać, że wartości odstające często powodują problemy podczas trenowania modelu, dlatego ważne jest ich znajdowanie.

Jeśli różnica między 0 a 25 procentylem różni się znacznie od różnicy między 75 a 100 procentylem, zbiór danych prawdopodobnie zawiera wartości odstające.

Wartości odstające mogą należeć do jednej z tych kategorii:

Wyjątek jest spowodowany błędem. Może na przykład eksperymentator przez pomyłkę wpisał dodatkową cyfrę 0, a może instrument zbierający dane działał nieprawidłowo. Zwykle usuwasz przykłady zawierające wartości odstające.
Wyjątek to prawidłowy punkt danych, a nie błąd. Czy w tym przypadku wytrenowany model będzie musiał w końcu wyciągać trafne wnioski na podstawie tych wartości odstających?
- Jeśli tak, zachowaj te wartości odstające w swoim zbiorze treningowym. W szakramie te wartości skrajne w pewnych cechach czasami odzwierciedlają wartości skrajne w etykiecie, więc mogą pomagać modelowi w uzyskiwaniu lepszych wyników. Pamiętaj, że wartości skrajne mogą nadal negatywnie wpływać na model.
- Jeśli nie, usuń wartości odstające lub zastosuj bardziej inwazyjne metody inżynierii cech, takie jak clipping.

Wstecz

Jak model przetwarza dane za pomocą wektorów cech (5 min)

Dalej

Ćwiczenia programistyczne (10 min)