Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Set di dati, generalizzazione e overfitting

Obiettivi di apprendimento

Identifica quattro diverse caratteristiche di dati e set di dati.
Identifica almeno quattro diverse cause dell'inaffidabilità dei dati.
Determina quando eliminare i dati mancanti e quando imputarli.
Distinguere tra etichette dirette ed etichette derivate.
Identifica due diversi modi per migliorare la qualità delle etichette assegnate da persone.
Spiegare perché suddividere un set di dati in set di addestramento, set di convalida, e test; a identificare un potenziale problema nelle suddivisioni dei dati.
Spiegare l'overfitting e identificare tre possibili cause.
Spiega il concetto di regolarizzazione. In particolare, spiega seguenti:
- Bias rispetto alla varianza (adattamento agli outlier…)
- Regolarizzazione L₂, inclusa Lambda (regolarizzazione conv.)
- Interruzione anticipata
Interpretare diversi tipi di curve di perdita; rilevare la convergenza l'overfitting nelle curve di perdita.

Introduzione

Questo modulo inizia con una domanda guida. Scegli una delle seguenti risposte:

Se dovessi dare la priorità al miglioramento di una delle seguenti aree nel tuo progetto di machine learning, quale avrebbe un impatto maggiore?

Migliorare la qualità del set di dati

I dati sono più importanti di tutto. La qualità e le dimensioni del set di dati sono molto più importanti dell'algoritmo di Shiny che utilizzi per creare il modello.

Applicazione di una funzione di perdita più intelligente all'addestramento del modello

È vero, una funzione di perdita migliore può aiutare un modello ad addestrarsi più velocemente, ma rimane comunque molto indietro rispetto a un altro elemento di questo elenco.

Una domanda ancora più insolita:

Indovina: nel tuo progetto di machine learning, quanto tempo in genere investi in preparazione e trasformazione dei dati?

Più della metà del tempo del progetto

Sì, gli esperti di ML dedicano la maggior parte del loro tempo alla creazione di set di dati e al feature engineering.

Meno della metà del tempo del progetto

Pianifica di più. Di solito, l'80% delle volte utilizza il machine learning alla creazione di set di dati e alla trasformazione dei dati.

In questo modulo scoprirai di più sulle caratteristiche del machine learning set di dati e come prepararli per garantire risultati di alta qualità per l'addestramento e la valutazione del modello.

Indietro

Testa le tue conoscenze (10 min)

Avanti

Caratteristiche dei dati (10 min)

Set di dati, generalizzazione e overfitting Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Introduzione

Set di dati, generalizzazione e overfitting