Kopia w ramkach: terminologia dotycząca systemów uczących się

Czym są systemy uczące się (nadzorowane)? Oznacza to, że:

  • Systemy uczące się uczą się łączyć dane wejściowe w celu tworzenia przydatnych prognoz dotyczących wcześniejszych danych.

Poznaj podstawową terminologię systemów uczących się.

Etykiety

Etykieta to przewidywana przez nas zmienna y w prostej regresji liniowej. Może to być na przykład przyszła cena pszenicy, rodzaj zwierzęcia pokazanego na zdjęciu, znaczenie klipu audio lub prawie wszystko.

Funkcje

Funkcja jest zmienną wejściową – zmienną x w prostej regresji liniowej. Prosty projekt systemów uczących się może korzystać z jednej funkcji, a bardziej zaawansowany projekt systemów uczących się – z milionów funkcji określonych jako:

\[\\{x_1, x_2, ... x_N\\}\]

W przykładzie do wykrywania spamu funkcje mogą obejmować:

  • słowa w e-mailu
  • adres nadawcy
  • pora dnia, o której wysłano e-maila.
  • e-mail zawiera frazę "jeden dziwny sztuczka."

Przykłady

Przykład to konkretna instancja danych, x. (Symbol x jest pogrubiony, aby wskazać, że jest to wektor). Przykłady dzielimy na 2 kategorie:

  • przykłady oznaczone etykietami
  • przykłady bez etykiety

Przykład z etykietą zawiera zarówno funkcje, jak i etykietę. Czyli:

  labeled examples: {features, label}: (x, y)

Aby wytrenować model, użyj etykiet. W naszym przykładzie wykrywania spamu byłyby to e-maile, które użytkownicy wyraźnie oznaczyli jako „spam” i „nie spam”."

Na przykład w tej tabeli podano 5 przykładów oznaczonych etykietą ze zbioru danych zawierającej informacje o cenach mieszkaniowych w Kalifornii:

medianAge
(funkcja)
łączna liczba sal
(funkcja)
łączna_sypialnia
(funkcja)
medianHouseValue
(etykieta)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

Przykład bez etykiety zawiera funkcje, ale nie etykietę. Czyli:

  unlabeled examples: {features, ?}: (x, ?)

Oto 3 oznaczenia bez etykiety z tego samego zbioru danych mieszkaniowych, które wykluczają atrybut medianHouseValue:

medianAge
(funkcja)
łączna liczba sal
(funkcja)
łączna_sypialnia
(funkcja)
42 1686 361
34 1226 180
33 1077 271

Gdy już wytrenujemy model na podstawie przykładów z etykietą, użyjemy go, aby przewidzieć etykietę na przykładach bez etykiety. W przykładzie do wykrywania spamu przykłady bez etykiety to nowe e-maile, które nie zostały jeszcze oznaczone przez ludzi.

Modele

Model definiuje zależność między funkcjami a etykietą. Na przykład model wykrywania spamu może silnie kojarzyć pewne funkcje z zasobami &spamu. Wyróżniamy 2 fazy życia modelu:

  • Trening oznacza utworzenie lub nauczenie modelu. Oznacza to, że wyświetlasz model z przykładami i zezwalasz na stopniowe poznawanie zależności między cechami a etykietami.

  • Wniosek oznacza zastosowanie wytrenowanego modelu do przykładów bez etykiety. Oznacza to, że używasz wytrenowanego modelu do tworzenia przydatnych przewidywań (y'). Podczas wnioskowania możesz na przykład prognozować medianHouseValue dla nowych przykładów bez etykiety.

Regresja a klasyfikacja

Model regresji przewiduje wartości ciągłe. Modele regresji potrafią na przykład tworzyć odpowiedzi na pytania takie jak:

  • Jaka jest wartość domu w Kalifornii?

  • Jakie jest prawdopodobieństwo, że użytkownik kliknie tę reklamę?

Model klasyfikacji prognozuje wartości odrębne. Modele klasyfikacji tworzą na przykład odpowiedzi na pytania takie jak:

  • Czy dana wiadomość e-mail jest spamem, czy nie jest spamem?

  • To zdjęcie psa, kota czy chomika?