W tej sekcji omawiamy kroki przygotowania danych, które są najważniejsze w przypadku grupowania z Praca z danymi liczbowymi w ramach szybkiego szkolenia dotyczącego uczenia maszynowego.
W grupowaniu obliczasz podobieństwo 2 przykładów, łącząc wszystkie dane cech z tych przykładów w wartość liczbową. Wymaga to parametru o tej samej skali, którą można osiągnąć przez normalizację, przekształcania lub tworzenia kwantyli. Jeśli chcesz przekształcić danych bez sprawdzania ich rozkładu, możesz domyślnie używać kwantyli.
Normalizowanie danych
Dane wielu cech można przekształcić na tę samą skalę przez normalizację dane.
Wyniki
Gdy zobaczysz zbiór danych w kształcie mniej więcej Rozkład Gaussa, należy obliczać wyniki z danych. Wyniki Z to liczba odchyleń standardowych, których wartość pochodzi od wartości argumentu średnią. Wyników z można też używać, gdy zbiór danych nie jest wystarczająco duży kwantyle.
Zobacz Skalowanie wyniku Z aby zapoznać się z instrukcjami.
Oto wizualizacja 2 cech zbioru danych przed i po skalowanie wyniku z:
W nieznormalizowanym zbiorze danych po lewej stronie funkcje 1 i 2: na osiach x i y, nie mają takiej samej skali. Dzień po lewej, czerwony przykład wydaje się bardziej zbliżone do niebieskiego niż żółtego. Po prawej, za w wyniku z, funkcje 1 i 2 mają taką samą skalę, jest podobny do żółtego. Znormalizowany zbiór danych zapewnia dokładniejsza miara podobieństwa między punktami.
Logi przekształceń
Gdy zbiór danych idealnie spełnia rozkładu prawa energetycznego, gdzie dane jest silnie zgrupowany przy najniższych wartościach, użyj przekształcenia logarytmicznego. Zobacz Skalowanie logów aby zapoznać się z instrukcjami.
Oto wizualizacja zbioru danych prawa mocy prawnej przed i po przekształceniu logu:
Przed skalowaniem logów (ilustracja 2) przykład czerwony wygląda bardziej podobnie do żółtego. Po skalowaniu logarytmicznym (ilustracja 3) kolor czerwony bardziej przypomina kolor niebieski.
Kwantyle
Powiązanie danych w kwantyle działa dobrze, gdy zbiór danych nie jest zgodny zgodnie ze znanym rozkładem. Weźmy na przykład ten zbiór danych:
Intuicyjnie pokazujemy, że 2 przykłady są bardziej podobne, jeśli tylko kilka z nich znajduje się między niezależnie od ich wartości, a bardziej różnych odmiennych między nimi. Powyższa wizualizacja utrudnia wyświetlenie całkowitej wartości jest liczba przykładów o przedziale między czerwonym a żółtym lub czerwonym i niebieskim.
Zrozumienie podobieństwa można wywnioskować, dzieląc zbiór danych na kwantyle lub przedziały, z których każdy zawiera taką samą liczbę przykładów; przypisując każdemu przykładowi indeks kwantylowy. Zobacz Grupowanie kwantylowe aby zapoznać się z instrukcjami.
Oto poprzedni rozkład podzielony na kwantyle. Wskazuje on, że czerwony o jeden kwantyl od żółtego i o 3 kwantyle od niebieskiego:
Możesz wybrać dowolną liczbę \(n\) kwantyli. Jednak dla kwantyli zgodnie z istotną reprezentacją danych bazowych, zbiór danych powinien mieć przynajmniej \(10n\) przykładów. Jeśli nie masz wystarczającej ilości danych, znormalizuj dane.
Sprawdź swoją wiedzę
W przypadku poniższych pytań załóżmy, że masz wystarczającą ilość danych, aby utworzyć kwantyle.
Pytanie 1
- Rozkład danych jest rozkładany przez Gaussa.
- Wiesz już, co te dane przedstawiają co sugeruje, że danych nie należy przekształcać w sposób nieliniowy.
Pytanie drugie
Brakujące dane
Jeśli zbiór danych zawiera przykłady z brakującymi wartościami dla określonej cechy, ale takie przypadki są rzadkością, więc możesz je usunąć. Jeśli te przykłady występują często, możesz usunąć tę cechę, lub możesz przewidzieć brakujące wartości z innych przykładów, używając algorytmu i modelu uczenia się. Możesz na przykład: umieszczanie brakujących danych liczbowych za pomocą model regresji wytrenowany na istniejących danych cech.