Inquadratura: verifica le tue conoscenze

Apprendimento supervisionato

Esplora le opzioni seguenti.

Supponi di voler sviluppare un modello di machine learning supervisionato per prevedere se un'email è "spam" o "non spam". Quali delle seguenti affermazioni sono vere?
Le email non contrassegnate come "spam" o "non spam" sono esempi senza etichetta.
Poiché la nostra etichetta è costituita dai valori "spam" e "not spam", le email non ancora contrassegnate come spam o non spam sono un esempio senza etichetta.
Le parole nell'intestazione dell'oggetto avranno buone etichette.
Le parole nell'intestazione dell'oggetto possono rappresentare caratteristiche eccellenti, ma non sono buone etichette.
Utilizzeremo esempi senza etichetta per addestrare il modello.
Utilizzeremo esempi etichettati per addestrare il modello. Possiamo quindi eseguire il modello addestrato utilizzando esempi senza etichetta per dedurre se i messaggi email senza etichetta sono spam o meno.
Le etichette applicate ad alcuni esempi potrebbero non essere attendibili.
Certamente. È importante controllare l'affidabilità dei tuoi dati. Le etichette di questo set di dati probabilmente provengono da utenti di email che contrassegnano determinati messaggi email come spam. Poiché la maggior parte degli utenti non contrassegna ogni messaggio email sospetto come spam, potremmo avere difficoltà a capire se si tratta di un'email. Inoltre, gli spammer potrebbero avvelenare intenzionalmente il nostro modello fornendo etichette errate.

Funzionalità ed etichette

Esplora le opzioni seguenti.

Supponiamo che un negozio di scarpe online voglia creare un modello di ML supervisionato che fornisca agli utenti suggerimenti personalizzati sulle scarpe. Ciò significa che il modello consiglierà alcune paia di scarpe a Marte e diverse paia di scarpe a Gianna. Il sistema utilizzerà i dati sul comportamento degli utenti precedenti per generare dati di addestramento. Quali delle seguenti affermazioni sono vere?
"Taglia scarpe" è una funzionalità utile.
"Numero delle scarpe" è un indicatore quantificabile che probabilmente ha un forte impatto sul modo in cui l'utente apprezzerà le scarpe consigliate. Ad esempio, se Marty indossa la taglia 9, la modella dovrebbe consigliare la taglia 7.
"Bellezza scarpe" è una funzionalità utile.
Le caratteristiche efficaci sono concrete e quantificabili. La bellezza è troppo vaga per essere un concetto utile. La bellezza è probabilmente una fusione di alcune caratteristiche concrete, come lo stile e il colore. Stile e colore sarebbero entrambi funzionalità migliori della bellezza.
"L'utente ha fatto clic sulla descrizione della scarpa" è un'etichetta utile.
Probabilmente gli utenti vogliono solo leggere ulteriori informazioni sulle scarpe che preferiscono. I clic degli utenti rappresentano quindi una metrica osservabile e quantificabile che potrebbe essere una buona etichetta di addestramento. Poiché i dati di addestramento derivano dal comportamento passato dell'utente, le nostre etichette devono derivare da comportamenti oggettivi come i clic che sono strettamente correlati alle preferenze dell'utente.
"Scarpe che un utente adora" è un'etichetta utile.
L'adorazione non è una metrica osservabile e quantificabile. La cosa migliore che possiamo fare è cercare le metriche del proxy osservabili per l'adorazione.