Przygotowanie danych

W tej sekcji omawiamy kroki przygotowania danych, które są najważniejsze w przypadku grupowania z Praca z danymi liczbowymi w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.

W grupowaniu obliczasz podobieństwo 2 przykładów, łącząc wszystkie dane cech z tych przykładów w wartość liczbową. Wymaga to parametru o tej samej skali, którą można osiągnąć przez normalizację, przekształcania lub tworzenia kwantyli. Jeśli chcesz przekształcić danych bez sprawdzania ich rozkładu, możesz domyślnie używać kwantyli.

Normalizowanie danych

Dane wielu cech można przekształcić na tę samą skalę przez normalizację dane.

Wyniki

Gdy zobaczysz zbiór danych w kształcie mniej więcej Rozkład Gaussa, należy obliczać wyniki z danych. Wyniki Z to liczba odchyleń standardowych, których wartość pochodzi od wartości argumentu średnią. Wyników z można też używać, gdy zbiór danych nie jest wystarczająco duży kwantyle.

Zobacz Skalowanie wyniku Z aby zapoznać się z instrukcjami.

Oto wizualizacja 2 cech zbioru danych przed i po skalowanie wyniku z:

Dwa wykresy porównujące dane cech przed normalizacją i po niej
Rysunek 1. Porównanie danych cech przed normalizacją i po niej.

W nieznormalizowanym zbiorze danych po lewej stronie funkcje 1 i 2: na osiach x i y, nie mają takiej samej skali. Dzień po lewej, czerwony przykład wydaje się bardziej zbliżone do niebieskiego niż żółtego. Po prawej, za w wyniku z, funkcje 1 i 2 mają taką samą skalę, jest podobny do żółtego. Znormalizowany zbiór danych zapewnia dokładniejsza miara podobieństwa między punktami.

Logi przekształceń

Gdy zbiór danych idealnie spełnia rozkładu prawa energetycznego, gdzie dane jest silnie zgrupowany przy najniższych wartościach, użyj przekształcenia logarytmicznego. Zobacz Skalowanie logów aby zapoznać się z instrukcjami.

Oto wizualizacja zbioru danych prawa mocy prawnej przed i po przekształceniu logu:

Wykres słupkowy z większością danych na końcu
Rysunek 2.Rozkład przepisów prawa energetycznych
Wykres przedstawiający rozkład normalny (gaussa)
Rys. 3. Transformacja logarytmiczna z Rys. 2

Przed skalowaniem logów (ilustracja 2) przykład czerwony wygląda bardziej podobnie do żółtego. Po skalowaniu logarytmicznym (ilustracja 3) kolor czerwony bardziej przypomina kolor niebieski.

Kwantyle

Powiązanie danych w kwantyle działa dobrze, gdy zbiór danych nie jest zgodny zgodnie ze znanym rozkładem. Weźmy na przykład ten zbiór danych:

Wykres przedstawiający rozkład danych przed wstępnym przetwarzaniem.
Rysunek 4. Rozkład niemożliwy do sklasyfikowania przed przetwarzaniem wstępnym.

Intuicyjnie pokazujemy, że 2 przykłady są bardziej podobne, jeśli tylko kilka z nich znajduje się między niezależnie od ich wartości, a bardziej różnych odmiennych między nimi. Powyższa wizualizacja utrudnia wyświetlenie całkowitej wartości jest liczba przykładów o przedziale między czerwonym a żółtym lub czerwonym i niebieskim.

Zrozumienie podobieństwa można wywnioskować, dzieląc zbiór danych na kwantyle lub przedziały, z których każdy zawiera taką samą liczbę przykładów; przypisując każdemu przykładowi indeks kwantylowy. Zobacz Grupowanie kwantylowe aby zapoznać się z instrukcjami.

Oto poprzedni rozkład podzielony na kwantyle. Wskazuje on, że czerwony o jeden kwantyl od żółtego i o 3 kwantyle od niebieskiego:

Wykres przedstawiający dane po konwersji.
  na kwantyle. Linia reprezentuje 20 interwałów.]
Rys. 5. Rozkład na rys. 4 po konwersji na 20 kwantyli.

Możesz wybrać dowolną liczbę \(n\) kwantyli. Jednak dla kwantyli zgodnie z istotną reprezentacją danych bazowych, zbiór danych powinien mieć przynajmniej \(10n\) przykładów. Jeśli nie masz wystarczającej ilości danych, znormalizuj dane.

Sprawdź swoją wiedzę

W przypadku poniższych pytań załóżmy, że masz wystarczającą ilość danych, aby utworzyć kwantyle.

Pytanie 1

Wykres przedstawiający 3 rozkłady danych
Jak należy przetwarzać rozkład danych widoczny w poprzednim kroku wykres?
Utwórz kwantyle.
Dobra odpowiedź. Ponieważ rozkład nie pasuje do zgodnie ze standardową dystrybucją danych, domyślnie kwantyle.
Normalizuj.
Dane są zwykle normalizowane, jeśli:
  • Rozkład danych jest rozkładany przez Gaussa.
  • Wiesz już, co te dane przedstawiają co sugeruje, że danych nie należy przekształcać w sposób nieliniowy.
Żadna z tych sytuacji nie ma tu zastosowania. Rozkład danych nie jest rozkładany na podstawie Gaussa, nie są symetryczne. A nie wiemy, jakie wartości w świecie rzeczywistym.
Loguj przekształcenie.
Nie jest to idealna dystrybucja praw autorskich, więc nie używaj przekształcenie.

Pytanie drugie

Wykres przedstawiający 3 rozkłady danych
Jak postępujesz w przypadku dystrybucji danych?
Normalizuj.
Dobra odpowiedź. Jest to rozkład Gaussa.
Utwórz kwantyle.
Źle. Ponieważ jest to rozkład Gaussa, preferowany jest jest normalizacja.
Loguj przekształcenie.
Źle. Stosuj przekształcenia logarytmiczne tylko do dystrybucji prawa władzy.

Brakujące dane

Jeśli zbiór danych zawiera przykłady z brakującymi wartościami dla określonej cechy, ale takie przypadki są rzadkością, więc możesz je usunąć. Jeśli te przykłady występują często, możesz usunąć tę cechę, lub możesz przewidzieć brakujące wartości z innych przykładów, używając algorytmu i modelu uczenia się. Możesz na przykład: umieszczanie brakujących danych liczbowych za pomocą model regresji wytrenowany na istniejących danych cech.