Rozdzielanie

Zacznijmy od krótkiego omówienia głównego pomysłu z systemu skutecznego szkolenia dotyczącego systemów uczących się. Rozkład możesz sprawdzić na wykresie poniżej.

Działka na każdą szerokość geograficzną. Gracz jest nieregularnie rozmieszczony, co obejmuje 3 główne i gwałtowne skoki wokół szerokości 34–38.Rysunek 1. Ceny domów a szerokość geograficzna

 

W przypadku tego pytania kliknij strzałkę, aby sprawdzić odpowiedź:

Rysunek 1. Jeśli uważasz, że szerokość jest dobrym prognostą wartości mieszkaniowych, czy należy pozostawić szerokość jako wartość zmiennoprzecinkową? Dlaczego? (Załóżmy, że jest to model liniowy).
Tak – jeśli szerokość jest wartością zmiennoprzecinkową w zbiorze danych, nie zmieniaj jej.
Jeśli prześlesz do sieci wartości zmiennoprzecinkowe, spróbuje poznać liniową relację między tą funkcją a etykietą. W przypadku relacji linearnej najprawdopodobniej nie występuje też szerokość geograficzna. Zwiększenie szerokości o 1 stopień (np. z 34 do 35 stopni) może spowodować pewne zmiany w danych wyjściowych modelu, a inny wzrost o 1 stopień (np. z 35 do 36 stopni) może przynieść inną zmianę. To nielinearne zachowanie.
Nie – nie ma zależności liniowej między szerokością a wartością domu.
Podejrzewasz, że poszczególne współrzędne geograficzne są ze sobą powiązane, ale relacja nie jest liniowa.

W przykładach szerokości geograficznej musisz podzielić współrzędne na zasobniki, aby dowiedzieć się więcej o wartościach przechowywania poszczególnych zasobników. Przekształcanie funkcji liczbowych w funkcje kategorialne z wykorzystaniem zestawu progów nazywane jest zasobnikiem (lub binerem). W tym przykładzie grupowania granice są równomiernie rozmieszczone.

Ten sam wykres szerokości i mieszkań zawiera ten sam wykres co poprzednia wartość. Jednak w tym przypadku wykres podzielony jest na 11 "bins" szerokości geograficznych.

 

Rysunek 2.Ceny domów a szerokość geograficzna, teraz podzielone na kategorie

Kostka kwantylowa

Omówmy zbiór danych o cenach samochodów z dodanymi zasobnikami. Model z jedną cechą na zasobnik wykorzystuje tyle samo pojemności, ile wynosi jeden przykład z zakresu >45 000, tak jak wszystkie przykłady z zakresu 5000–10 000. Trochę to strata. Jak możemy poprawić tę sytuację?

Wykres ceny samochodu na liczbę samochodów sprzedawanych w tej cenie. Wykres jest podzielony na 10 zasobników o równych rozmiarach, których zakres wynosi 5000 (cena samochodu). Pierwsze trzy zasobniki zawierają wiele przykładów, ale ostatnie 7 zasobników zawiera bardzo mało przykładów.

Rysunek 3.Liczba samochodów sprzedawanych w różnych cenach

 

Problem polega na tym, że porównywalne zasobniki nie przechwytują dobrze rozkładu. Rozwiązaniem jest utworzenie zasobników o takiej samej liczbie punktów. Ta metoda nosi nazwę zasobnika kwantylowego. Na przykład ta wartość dzieli ceny samochodów na zasobniki kwantylowe. Aby uzyskać taką samą liczbę przykładów w każdym zasobniku, w niektórych dostępny jest wąski przedział cenowy, a w innych – bardzo szeroki.

Tak samo jak na rysunku 3, z wyjątkiem zasobników kwantylowych. Oznacza to, że zasobniki mają teraz różne rozmiary. Najmniejszy zasobnik ma zakres około 1000 dolarów, a największy zasobnik około 25 tys. dolarów.
Liczba samochodów w każdym zasobniku jest teraz taka sama.

Rysunek 4.Wiązanie kwantylowe pokazuje każdej grupie tyle samo samochodów

Podsumowanie grupowania

Jeśli chcesz zgrupować funkcje liczbowe, jasno określ, jak określasz granice i jaki typ grupujesz:

  • Zasobniki z równymi odstępami: granice są stałe i mają ten sam zakres (np. 0–4 stopnie, 5–9 stopni, 5000–9999 USD, 10 000–14 999 USD i 15 000–19 999 USD). Niektóre zasobniki mogą zawierać wiele punktów, a inne mogą nie mieć żadnych lub żadnych.
  • Zasobniki z granicami kwantylowymi: każdy zasobnik ma taką samą liczbę punktów. Granice nie są stałe i mogą obejmować wąski lub szeroki zakres wartości.