Zacznijmy od krótkiego omówienia głównego pomysłu z systemu skutecznego szkolenia dotyczącego systemów uczących się. Rozkład możesz sprawdzić na wykresie poniżej.
Rysunek 1. Ceny domów a szerokość geograficzna
W przypadku tego pytania kliknij strzałkę, aby sprawdzić odpowiedź:
W przykładach szerokości geograficznej musisz podzielić współrzędne na zasobniki, aby dowiedzieć się więcej o wartościach przechowywania poszczególnych zasobników. Przekształcanie funkcji liczbowych w funkcje kategorialne z wykorzystaniem zestawu progów nazywane jest zasobnikiem (lub binerem). W tym przykładzie grupowania granice są równomiernie rozmieszczone.
Rysunek 2.Ceny domów a szerokość geograficzna, teraz podzielone na kategorie
Kostka kwantylowa
Omówmy zbiór danych o cenach samochodów z dodanymi zasobnikami. Model z jedną cechą na zasobnik wykorzystuje tyle samo pojemności, ile wynosi jeden przykład z zakresu >45 000, tak jak wszystkie przykłady z zakresu 5000–10 000. Trochę to strata. Jak możemy poprawić tę sytuację?
Rysunek 3.Liczba samochodów sprzedawanych w różnych cenach
Problem polega na tym, że porównywalne zasobniki nie przechwytują dobrze rozkładu. Rozwiązaniem jest utworzenie zasobników o takiej samej liczbie punktów. Ta metoda nosi nazwę zasobnika kwantylowego. Na przykład ta wartość dzieli ceny samochodów na zasobniki kwantylowe. Aby uzyskać taką samą liczbę przykładów w każdym zasobniku, w niektórych dostępny jest wąski przedział cenowy, a w innych – bardzo szeroki.
Rysunek 4.Wiązanie kwantylowe pokazuje każdej grupie tyle samo samochodów
Podsumowanie grupowania
Jeśli chcesz zgrupować funkcje liczbowe, jasno określ, jak określasz granice i jaki typ grupujesz:
- Zasobniki z równymi odstępami: granice są stałe i mają ten sam zakres (np. 0–4 stopnie, 5–9 stopni, 5000–9999 USD, 10 000–14 999 USD i 15 000–19 999 USD). Niektóre zasobniki mogą zawierać wiele punktów, a inne mogą nie mieć żadnych lub żadnych.
- Zasobniki z granicami kwantylowymi: każdy zasobnik ma taką samą liczbę punktów. Granice nie są stałe i mogą obejmować wąski lub szeroki zakres wartości.