Przepływ pracy w klastrze

Aby utworzyć klastry danych, wykonaj te czynności:

  1. Przygotuj dane.
  2. Utwórz dane podobieństwa.
  3. Uruchom algorytm grupowania.
  4. Interpretuj wyniki i dostosuj klastery.

Na tej stronie znajdziesz krótki opis tych czynności. W kolejnych sekcjach omówimy to bardziej szczegółowo.

Przygotuj dane

Podobnie jak w przypadku każdego problemu związanego z ML, przed trenowaniem lub dostrajaniem modelu na podstawie tych danych musisz znormalizować, przeskalować i przekształcić dane cech. Dodatkowo przed zgrupowaniem sprawdź, czy przygotowane dane umożliwiają dokładne obliczenie podobieństwa między przykładami.

Tworzenie danych podobieństwa

Zanim algorytm klastrowania będzie mógł grupować dane, musi wiedzieć, jak podobne są pary przykładów. Możesz określić podobieństwo między przykładami, tworząc wskaźnik podobieństwa, co wymaga dokładnego poznania danych.

Uruchamianie algorytmu grupowania

Algorytm grupowania używa miary podobieństwa do grupowania danych. W tym kursie używamy metody k-średnich.

Interpretowanie wyników i ich dostosowywanie

Klasteryzacja nie tworzy ani nie zawiera „danych rzeczywistych”, na podstawie których można zweryfikować dane wyjściowe. Dlatego ważne jest, aby porównać wynik z oczekiwaniami zarówno na poziomie klastra, jak i przykładu. Jeśli wynik wygląda dziwnie lub jest niskiej jakości, wypróbuj poprzednie 3 kroki. Powtarzaj ten proces, aż jakość danych wyjściowych będzie odpowiednia.