Anziché confrontare i dati delle caratteristiche combinati manualmente, puoi ridurre il numero da dati a rappresentazioni chiamate incorporamenti, quindi confronta incorporamenti. Gli incorporamenti sono generati dall'addestramento di un rete neurale profondo supervisionato rete (DNN) sulla caratteristica e i dati stessi. Gli incorporamenti mappano i dati delle caratteristiche a un vettore in un incorporamento con in genere meno dimensioni rispetto ai dati delle caratteristiche. Gli incorporamenti sono illustrato nella sezione Incorporamenti del corso "Machine Learning Crash Course", mentre le reti neurali sono trattate nel Reti neurali in maggior dettaglio più avanti in questo modulo. Incorporamento di vettori per esempi simili, come i video di YouTube su argomenti simili guardati dagli stessi utenti, finiscono in modo ravvicinato nell'incorporamento spazio. Una misura di somiglianza con supervisione usa questa "vicinanza" per quantificare la somiglianza tra coppie di esempi.
Ricorda che stiamo parlando di apprendimento supervisionato solo per creare la nostra somiglianza misurare. La misura di somiglianza, manuale o supervisionata, viene quindi utilizzata un algoritmo per eseguire il clustering non supervisionato.
Confronto tra misure manuali e supervisionate
Questa tabella descrive quando utilizzare una somiglianza manuale o supervisionata a seconda dei tuoi requisiti.
Requisito | Manuale | Supervisionato |
---|---|---|
Elimina le informazioni ridondanti nelle caratteristiche correlate? | No, devi esaminare eventuali correlazioni tra le caratteristiche. | Sì, DNN elimina le informazioni ridondanti. |
Fornisce insight sulle somiglianze calcolate? | Sì | No, gli incorporamenti non possono essere decifrati. |
Adatto a set di dati di piccole dimensioni con poche caratteristiche? | Sì. | No, i set di dati di piccole dimensioni non forniscono dati di addestramento sufficienti per una DNN. |
È adatta a set di dati di grandi dimensioni con molte caratteristiche? | No, eliminando manualmente le informazioni ridondanti da più funzionalità e poi combinarli è molto difficile. | Sì, il DNN elimina automaticamente le informazioni ridondanti e combina le caratteristiche. |
Creazione di una misura di somiglianza supervisionata
Ecco una panoramica della procedura per creare una misura di somiglianza supervisionata:
Questa pagina illustra le DNN, mentre le pagine seguenti illustrano i passaggi rimanenti.
Scegli DNN in base alle etichette di addestramento
Riduci i dati delle caratteristiche agli incorporamenti a bassa dimensionalità mediante l'addestramento di un DNN e utilizza gli stessi dati delle caratteristiche sia come input sia come etichette. Ad esempio, nel Nel caso dei dati interni, il DNN userebbe le caratteristiche, come prezzo, dimensione e codice postale, per prevedere le caratteristiche in sé.
Autoencoder
Una DNN che apprende gli incorporamenti dei dati di input prevedendo i dati di input stessi è chiamato autoencoder. Poiché gli strati nascosti di un autoencoder sono più piccoli, rispetto ai livelli di input e output, l'autoencoder è costretto ad apprendere una rappresentazione compressa dei dati delle caratteristiche di input. Una volta addestrato il DNN, estrae gli incorporamenti dallo strato nascosto più piccolo per calcolare la somiglianza.
Predittore
Un autoencoder è la scelta più semplice per generare incorporamenti. Tuttavia, un autoencoder non è la scelta ottimale quando certe funzionalità potrebbero essere più sono importanti di altri per determinare le somiglianze. Ad esempio, i dati interni, presuppongono che il prezzo sia più importante del codice postale. In questi casi, utilizza solo la caratteristica importante come etichetta di addestramento per il DNN. Poiché questo DNN prevede una specifica caratteristica di input anziché tutte le caratteristiche di input, è chiamato DNN del previsione. Generalmente gli incorporamenti devono essere estratti all'ultimo strato di incorporamento.
Quando scegli una caratteristica come etichetta:
Preferisci caratteristiche numeriche a categoriche perché la perdita è più facile da calcolare e interpretare per le caratteristiche numeriche.
Rimuovi la caratteristica che utilizzi come etichetta dall'input del DNN oppure altrimenti il DNN utilizzerà quella caratteristica per prevedere perfettamente l'output. (Questo è un esempio estremo di fuga di etichette.)
A seconda delle etichette che scegli, il DNN risultante è un autoencoder o un predittore.