Glossario del machine learning: nozioni di base del machine learning

Questa pagina contiene i termini del glossario dei concetti fondamentali dell'ML. Per tutti i termini del glossario, fai clic qui.

A

accuracy

#fundamentals
#Metric

Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 errate avrebbe un'accuratezza pari a:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Pertanto, la formula per l'accuratezza della classificazione binaria è la seguente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dove:

Confronta e contrapponi l'accuratezza con la precisione e il richiamo.

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.

funzione di attivazione

#fundamentals

Una funzione che consente alle reti neurali di apprendere relazioni non lineari (complesse) tra le caratteristiche e l'etichetta.

Le funzioni di attivazione più comuni includono:

I grafici delle funzioni di attivazione non sono mai singole linee rette. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:

Un grafico cartesiano di due linee. La prima linea ha un valore y costante pari a 0 e si estende lungo l'asse x da -infinity,0 a 0,-0.
          La seconda riga inizia da 0,0. Questa retta ha una pendenza di +1, quindi
          va da 0,0 a +infinito,+infinito.

Un grafico della funzione di attivazione sigmoidea è il seguente:

Un grafico curvo bidimensionale con valori x che coprono il dominio
          da -infinito a +positivo, mentre i valori y coprono l'intervallo da quasi 0 a
          quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre
          positiva, con la pendenza più alta a 0,0,5 e pendenze che diminuiscono gradualmente
          all'aumentare del valore assoluto di x.

Per saperne di più, consulta Reti neurali: funzioni di attivazione in Machine Learning Crash Course.

intelligenza artificiale

#fundamentals

Un programma o un modello non umano in grado di risolvere attività complesse. Ad esempio, un programma o un modello che traduce il testo o un programma o un modello che identifica le malattie dalle immagini radiologiche mostrano entrambi intelligenza artificiale.

Formalmente, il machine learning è un sottocampo dell'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.

AUC (area sotto la curva ROC)

#fundamentals
#Metric

Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicino a 1,0, migliore è la capacità del modello di separare le classi tra loro.

Ad esempio, la seguente illustrazione mostra un modello di classificazione che separa perfettamente le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello perfetto in modo non realistico ha un'AUC pari a 1,0:

Una retta numerica con 8 esempi positivi da un lato e
          9 esempi negativi dall'altro.

Al contrario, la seguente illustrazione mostra i risultati per un modello di classificazione che ha generato risultati casuali. Questo modello ha un AUC di 0,5:

Una retta numerica con 6 esempi positivi e 6 esempi negativi.
          La sequenza di esempi è positiva, negativa,
          positiva, negativa, positiva, negativa, positiva, negativa, positiva
          negativa, positiva, negativa.

Sì, il modello precedente ha un'AUC di 0,5, non di 0.

La maggior parte dei modelli si trova a metà strada tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi dai negativi e pertanto ha un'AUC compresa tra 0,5 e 1,0:

Una retta numerica con 6 esempi positivi e 6 esempi negativi.
          La sequenza di esempi è negativo, negativo, negativo, negativo,
          positivo, negativo, positivo, positivo, negativo, positivo, positivo,
          positivo.

L'AUC ignora qualsiasi valore impostato per la soglia di classificazione. L'AUC, invece, prende in considerazione tutte le possibili soglie di classificazione.

Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.

B

backpropagation

#fundamentals

L'algoritmo che implementa la discesa del gradiente nelle reti neurali.

L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:

  1. Durante la propagazione in avanti, il sistema elabora un batch di esempi per generare una o più previsioni. Il sistema confronta ogni previsione con ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite per tutti gli esempi per calcolare la perdita totale per il batch corrente.
  2. Durante il passaggio all'indietro (backpropagation), il sistema riduce la perdita modificando i pesi di tutti i neuroni in tutti gli strati nascosti.

Le reti neurali spesso contengono molti neuroni in molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione determina se aumentare o diminuire i pesi applicati a particolari neuroni.

Il tasso di apprendimento è un moltiplicatore che controlla il grado in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenterà o diminuirà ogni peso più di un tasso di apprendimento basso.

In termini di calcolo, la retropropagazione implementa la regola della catena del calcolo. ovvero la retropropagazione calcola la derivata parziale dell'errore rispetto a ogni parametro.

Anni fa, i professionisti del machine learning dovevano scrivere codice per implementare la retropropagazione. Le moderne API ML come Keras ora implementano la backpropagation per te. Finalmente.

Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.

batch

#fundamentals

L'insieme di esempi utilizzati in un'iterazione di addestramento. La dimensione del batch determina il numero di esempi in un batch.

Consulta la sezione Epoca per una spiegazione della relazione tra un batch e un'epoca.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

dimensione del batch

#fundamentals

Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.

Di seguito sono riportate le strategie più comuni per le dimensioni del batch:

  • Discesa stocastica del gradiente (SGD), in cui la dimensione del batch è 1.
  • Batch completo, in cui la dimensione del batch è il numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch sarà di un milione di esempi. Il caricamento completo del batch è in genere una strategia inefficiente.
  • Mini-batch in cui la dimensione del batch è generalmente compresa tra 10 e 1000. Il mini-batch è in genere la strategia più efficiente.

Per ulteriori informazioni, consulta le seguenti risorse:

bias (etica/equità)

#responsible
#fundamentals

1. Stereotipare, mostrare preconcetti o favoritismi verso determinate cose, persone o gruppi rispetto ad altri. Questi bias possono influire sulla raccolta e sull'interpretazione dei dati, sulla progettazione di un sistema e sul modo in cui gli utenti interagiscono con un sistema. Le forme di questo tipo di bias includono:

2. Errore sistematico introdotto da una procedura di campionamento o reporting. Le forme di questo tipo di bias includono:

Da non confondere con il termine di bias nei modelli di machine learning o con il bias di previsione.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

bias (matematica) o termine di bias

#fundamentals

Un'intercettazione o un offset da un'origine. Il bias è un parametro nei modelli di machine learning, che è simboleggiato da uno dei seguenti:

  • b
  • w0

Ad esempio, il bias è il b nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In una semplice retta bidimensionale, il bias indica semplicemente l'intercetta sull'asse y. Ad esempio, la pendenza della retta nell'illustrazione seguente è 2.

Il grafico di una retta con pendenza 0,5 e bias (intercetta sull'asse y) pari a 2.

Il bias esiste perché non tutti i modelli iniziano dall'origine (0,0). Ad esempio, supponiamo che l'ingresso in un parco divertimenti costi 2 euro e che vengano addebitati 0,50 euro per ogni ora di permanenza di un cliente. Pertanto, un modello che mappa il costo totale ha una distorsione di 2 perché il costo più basso è di 2 euro.

Il bias non deve essere confuso con il bias in etica ed equità o con il bias di previsione.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

classificazione binaria

#fundamentals

Un tipo di attività di classificazione che prevede una delle due classi reciprocamente esclusive:

Ad esempio, i seguenti due modelli di machine learning eseguono ciascuno la classificazione binaria:

  • Un modello che determina se i messaggi email sono spam (la classe positiva) o non spam (la classe negativa).
  • Un modello che valuta i sintomi medici per determinare se una persona ha una determinata malattia (la classe positiva) o non ha quella malattia (la classe negativa).

Contrasta con la classificazione multiclasse.

Vedi anche regressione logistica e soglia di classificazione.

Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.

il bucketing

#fundamentals

Conversione di una singola caratteristica in più caratteristiche binarie chiamate bucket o bin, in genere in base a un intervallo di valori. La caratteristica troncata è in genere una caratteristica continua.

Ad esempio, anziché rappresentare la temperatura come una singola caratteristica continua in virgola mobile, potresti dividere gli intervalli di temperatura in bucket discreti, ad esempio:

  • <= 10 gradi Celsius corrisponde al bucket "freddo".
  • 11-24 gradi Celsius rientrano nella categoria "temperato".
  • >= 25 gradi Celsius sarebbe il bucket "caldo".

Il modello tratterà ogni valore nello stesso bucket in modo identico. Ad esempio, i valori 13 e 22 si trovano entrambi nel bucket temperato, quindi il modello tratta i due valori in modo identico.

Per saperne di più, consulta Dati numerici: Binning in Machine Learning Crash Course.

C

dati categorici

#fundamentals

Caratteristiche con un insieme specifico di valori possibili. Ad esempio, considera una funzionalità categorica denominata traffic-light-state, che può avere solo uno dei seguenti tre valori possibili:

  • red
  • yellow
  • green

Rappresentando traffic-light-state come una caratteristica categorica, un modello può apprendere i diversi impatti di red, green e yellow sul comportamento del conducente.

Le caratteristiche categoriche sono a volte chiamate caratteristiche discrete.

Contrasto con i dati numerici.

Per saperne di più, consulta la sezione Lavorare con dati categorici di Machine Learning Crash Course.

classe

#fundamentals

Una categoria a cui può appartenere un'etichetta. Ad esempio:

  • In un modello di classificazione binaria che rileva lo spam, le due classi potrebbero essere spam e non spam.
  • In un modello di classificazione multi-classe che identifica le razze di cani, le classi potrebbero essere barboncino, beagle, carlino e così via.

Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero anziché una classe.

Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.

modello di classificazione

#fundamentals

Un modello la cui previsione è una classe. Ad esempio, i seguenti sono tutti modelli di classificazione:

  • Un modello che prevede la lingua di una frase di input (francese? Spagnolo? ?).
  • Un modello che prevede le specie di alberi (acero? Quercia? Baobab?).
  • Un modello che prevede la classe positiva o negativa per una particolare condizione medica.

Al contrario, i modelli di regressione prevedono numeri anziché classi.

Due tipi comuni di modelli di classificazione sono:

soglia di classificazione

#fundamentals

In una classificazione binaria, un numero compreso tra 0 e 1 che converte l'output non elaborato di un modello di regressione logistica in una previsione della classe positiva o della classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non un valore scelto dall'addestramento del modello.

Un modello di regressione logistica restituisce un valore grezzo compreso tra 0 e 1. Quindi:

  • Se questo valore grezzo è maggiore della soglia di classificazione, viene prevista la classe positiva.
  • Se questo valore grezzo è inferiore alla soglia di classificazione, viene prevista la classe negativa.

Ad esempio, supponiamo che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.

La scelta della soglia di classificazione influisce notevolmente sul numero di falsi positivi e falsi negativi.

Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.

classificatore

#fundamentals

Un termine informale per un modello di classificazione.

set di dati sbilanciato per classe

#fundamentals

Un set di dati per una classificazione in cui il numero totale di etichette di ogni classe differisce in modo significativo. Ad esempio, considera un set di dati di classificazione binaria le cui due etichette sono suddivise come segue:

  • 1.000.000 di etichette negative
  • 10 etichette positive

Il rapporto tra etichette negative e positive è di 100.000 a 1, quindi si tratta di un set di dati con classi sbilanciate.

Al contrario, il seguente set di dati è bilanciato per classe perché il rapporto tra etichette negative ed etichette positive è relativamente vicino a 1:

  • 517 etichette negative
  • 483 etichette positive

I set di dati multiclasse possono anche essere sbilanciati. Ad esempio, il seguente set di dati di classificazione multiclasse è anche sbilanciato perché un'etichetta ha molti più esempi rispetto alle altre due:

  • 1.000.000 di etichette con la classe "verde"
  • 200 etichette con la classe "viola"
  • 350 etichette con la classe "arancione"

L'addestramento di set di dati con classi sbilanciate può presentare sfide particolari. Per maggiori dettagli, consulta Dataset sbilanciati in Machine Learning Crash Course.

Vedi anche entropia, classe maggioritaria e classe minoritaria.

clipping

#fundamentals

Una tecnica per gestire gli outlier eseguendo una o entrambe le seguenti operazioni:

  • Riduzione dei valori della funzionalità superiori a una soglia massima fino a tale soglia.
  • Aumentando i valori delle funzionalità inferiori a una soglia minima fino a quella soglia minima.

Ad esempio, supponiamo che meno dello 0,5% dei valori di una determinata caratteristica rientri al di fuori dell'intervallo 40-60. In questo caso, puoi procedere nel seguente modo:

  • Tronca tutti i valori superiori a 60 (la soglia massima) in modo che siano esattamente 60.
  • Taglia tutti i valori inferiori a 40 (la soglia minima) in modo che siano esattamente 40.

Gli outlier possono danneggiare i modelli, a volte causando l'overflow dei pesi�� durante l'addestramento. Alcuni valori anomali possono anche rovinare drasticamente metriche come l'accuratezza. Il clipping è una tecnica comune per limitare i danni.

Il taglio del gradiente forza i valori del gradiente all'interno di un intervallo designato durante l'addestramento.

Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.

matrice di confusione

#fundamentals

Una tabella NxN che riassume il numero di previsioni corrette e errate effettuate da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione binaria:

Tumore (previsto) Non tumorale (previsto)
Tumore (dati di fatto) 18 (VP) 1 (FN)
Non-Tumor (ground truth) 6 (FP) 452 (TN)

La matrice di confusione precedente mostra quanto segue:

  • Delle 19 previsioni in cui la verità di base era Tumore, il modello ne ha classificate correttamente 18 e in modo errato 1.
  • Delle 458 previsioni in cui la verità di base era Non-Tumor, il modello ne ha classificate correttamente 452 e in modo errato 6.

La matrice di confusione per un problema di classificazione multiclasse può aiutarti a identificare i pattern di errori. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione multiclasse a 3 classi che classifica tre diversi tipi di iris (Virginica, Versicolor e Setosa). Quando i dati empirici reali erano Virginica, la matrice di confusione mostra che il modello aveva molte più probabilità di prevedere erroneamente Versicolor rispetto a Setosa:

  Setosa (previsto) Versicolor (previsto) Virginica (previsto)
Setosa (dati di fatto) 88 12 0
Versicolor (dati di fatto) 6 141 7
Virginica (dati empirici reali) 2 27 109

Come altro esempio, una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere le cifre scritte a mano tende a prevedere erroneamente 9 anziché 4 o 1 anziché 7.

Le matrici di confusione contengono informazioni sufficienti per calcolare una varietà di metriche di rendimento, tra cui precisione e richiamo.

funzionalità continua

#fundamentals

Una caratteristica in virgola mobile con un intervallo infinito di valori possibili, come temperatura o peso.

Contrasto con la funzionalità discreta.

convergenza

#fundamentals

Uno stato raggiunto quando i valori di perdita cambiano molto poco o non cambiano affatto a ogni iterazione. Ad esempio, la seguente curva di perdita suggerisce la convergenza dopo circa 700 iterazioni:

Grafico cartesiano. L&#39;asse X è perso. L&#39;asse Y indica il numero di iterazioni di addestramento. La perdita è molto elevata durante le prime iterazioni, ma
          diminuisce bruscamente. Dopo circa 100 iterazioni, la perdita continua a diminuire, ma in modo molto più graduale. Dopo circa 700 iterazioni,
          la perdita rimane invariata.

Un modello converge quando un ulteriore addestramento non lo migliora.

Nel deep learning, i valori di perdita a volte rimangono costanti o quasi per molte iterazioni prima di diminuire. Durante un lungo periodo di valori di perdita costanti, potresti avere temporaneamente una falsa sensazione di convergenza.

Vedi anche interruzione anticipata.

Per saperne di più, consulta Convergenza del modello e curve di perdita in Machine Learning Crash Course.

D

DataFrame

#fundamentals

Un tipo di dati pandas popolare per rappresentare i set di dati in memoria.

Un DataFrame è analogo a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.

Ogni colonna di un DataFrame è strutturata come un array bidimensionale, tranne per il fatto che a ogni colonna può essere assegnato un proprio tipo di dati.

Consulta anche la pagina di riferimento di pandas.DataFrame ufficiale.

set di dati

#fundamentals

Una raccolta di dati non elaborati, comunemente (ma non esclusivamente) organizzati in uno dei seguenti formati:

  • un foglio di lavoro
  • un file in formato CSV (valori separati da virgola)

modello deep

#fundamentals

Una rete neurale contenente più di un strato nascosto.

Un modello profondo è chiamato anche rete neurale profonda.

Contrasta con il modello ampio.

caratteristica densa

#fundamentals

Una caratteristica in cui la maggior parte o tutti i valori sono diversi da zero, in genere un tensore di valori in virgola mobile. Ad esempio, il seguente tensore di 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:

8 3 7 5 2 4 0 4 9 6

Contrasto con la funzionalità sparsa.

profondità

#fundamentals

La somma di quanto segue in una rete neurale:

Ad esempio, una rete neurale con cinque strati nascosti e uno strato di output ha una profondità di 6.

Tieni presente che il livello di input non influisce sulla profondità.

funzionalità discreta

#fundamentals

Una caratteristica con un insieme finito di valori possibili. Ad esempio, una caratteristica i cui valori possono essere solo animale, vegetale o minerale è una caratteristica discreta (o categorica).

Contrasto con la caratteristica continua.

dinamico

#fundamentals

Qualcosa che viene fatto spesso o in modo continuo. I termini dinamico e online sono sinonimi nel machine learning. Di seguito sono riportati gli utilizzi comuni di dinamico e online nel machine learning:

  • Un modello dinamico (o modello online) è un modello che viene riaddestrato di frequente o continuamente.
  • L'addestramento dinamico (o addestramento online) è il processo di addestramento frequente o continuo.
  • L'inferenza dinamica (o inferenza online) è il processo di generazione di previsioni on demand.

modello dinamico

#fundamentals

Un modello che viene riaddestrato frequentemente (forse anche in modo continuo). Un modello dinamico è un "apprendista permanente" che si adatta costantemente all'evoluzione dei dati. Un modello dinamico è noto anche come modello online.

Contrasto con il modello statico.

E

interruzione anticipata

#fundamentals

Un metodo di regolarizzazione che prevede di terminare l'addestramento prima che la perdita di addestramento finisca di diminuire. Nell'interruzione anticipata, l'addestramento del modello viene interrotto intenzionalmente quando la perdita su un set di dati di convalida inizia ad aumentare, ovvero quando le prestazioni di generalizzazione peggiorano.

In contrasto con l'uscita anticipata.

strato di embedding

#fundamentals

Uno speciale livello nascosto che viene addestrato su una caratteristica categorica ad alta dimensionalità per apprendere gradualmente un vettore di incorporamento a dimensionalità inferiore. Un livello di incorporamento consente a una rete neurale di eseguire l'addestramento in modo molto più efficiente rispetto all'addestramento basato solo sulla caratteristica categorica ad alta dimensionalità.

Ad esempio, attualmente Earth supporta circa 73.000 specie di alberi. Supponiamo che la specie di albero sia una caratteristica del tuo modello, quindi il livello di input del modello include un vettore one-hot lungo 73.000 elementi. Ad esempio, forse baobab potrebbe essere rappresentato in questo modo:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore
     0. L&#39;elemento successivo contiene il valore 1. Gli ultimi 66.767 elementi contengono
     il valore zero.

Un array di 73.000 elementi è molto lungo. Se non aggiungi un livello di incorporamento al modello, l'addestramento richiederà molto tempo a causa della moltiplicazione di 72.999 zeri. Forse scegli che lo strato di incorporamento sia composto da 12 dimensioni. Di conseguenza, il livello di incorporamento imparerà gradualmente un nuovo vettore di incorporamento per ogni specie di albero.

In alcune situazioni, l'hashing è un'alternativa ragionevole a un livello di incorporamento.

Per saperne di più, consulta la sezione Incorporamenti di Machine Learning Crash Course.

periodo

#fundamentals

Un passaggio di addestramento completo sull'intero set di addestramento in modo che ogni esempio sia stato elaborato una volta.

Un'epoca rappresenta N/dimensione batch iterazioni di addestramento, dove N è il numero totale di esempi.

Ad esempio, supponiamo quanto segue:

  • Il set di dati è composto da 1000 esempi.
  • La dimensione del batch è di 50 esempi.

Pertanto, una singola epoca richiede 20 iterazioni:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

esempio

#fundamentals

I valori di una riga di caratteristiche ed eventualmente un'etichetta. Gli esempi di apprendimento supervisionato rientrano in due categorie generali:

  • Un esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Gli esempi etichettati vengono utilizzati durante l'addestramento.
  • Un esempio senza etichetta è costituito da una o più funzionalità, ma nessuna etichetta. Gli esempi senza etichetta vengono utilizzati durante l'inferenza.

Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. Ecco tre esempi etichettati:

Funzionalità Etichetta
Temperatura Umidità Pressione Punteggio del test
15 47 998 Buono
19 34 1020 Eccellente
18 92 1012 Scadente

Ecco tre esempi senza etichetta:

Temperatura Umidità Pressione  
12 62 1014  
21 47 1017  
19 41 1021  

La riga di un set di dati è in genere l'origine non elaborata di un esempio. ovvero un sottoinsieme delle colonne del set di dati. Inoltre, le caratteristiche di un esempio possono includere anche caratteristiche sintetiche, come incroci di caratteristiche.

Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

V

falso negativo (FN)

#fundamentals
#Metric

Un esempio in cui il modello prevede erroneamente la classe negativa. Ad esempio, il modello prevede che un determinato messaggio email non sia spam (la classe negativa), ma che in realtà sia spam.

falso positivo (FP)

#fundamentals
#Metric

Un esempio in cui il modello prevede erroneamente la classe positiva. Ad esempio, il modello prevede che un determinato messaggio email sia spam (la classe positiva), ma che in realtà non lo sia.

Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.

percentuale di falsi positivi (FPR)

#fundamentals
#Metric

La proporzione di esempi negativi effettivi per i quali il modello ha previsto erroneamente la classe positiva. La seguente formula calcola il tasso di falsi positivi:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La percentuale di falsi positivi è l'asse x di una curva ROC.

Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.

caratteristica

#fundamentals

Una variabile di input per un modello di machine learning. Un esempio è composto da una o più funzionalità. Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. La tabella seguente mostra tre esempi, ognuno dei quali contiene tre funzionalità e un'etichetta:

Funzionalità Etichetta
Temperatura Umidità Pressione Punteggio del test
15 47 998 92
19 34 1020 84
18 92 1012 87

Contrasto con l'etichetta.

Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

incrocio di caratteristiche

#fundamentals

Una caratteristica sintetica formata "incrociando" caratteristiche categoriche o raggruppate.

Ad esempio, considera un modello di "previsione dell'umore" che rappresenta la temperatura in uno dei seguenti quattro bucket:

  • freezing
  • chilly
  • temperate
  • warm

e rappresenta la velocità del vento in uno dei seguenti tre bucket:

  • still
  • light
  • windy

Senza incroci di caratteristiche, il modello lineare viene addestrato in modo indipendente su ciascuno dei sette bucket precedenti. Pertanto, il modello viene addestrato, ad esempio, su freezing indipendentemente dall'addestramento su, ad esempio, windy.

In alternativa, potresti creare un incrocio di caratteristiche di temperatura e velocità del vento. Questa funzionalità sintetica avrebbe i seguenti 12 valori possibili:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Grazie agli incroci di caratteristiche, il modello può apprendere le differenze di umore tra un giorno freezing-windy e un giorno freezing-still.

Se crei una caratteristica sintetica da due caratteristiche che hanno molte bucket diversi, l'incrocio di caratteristiche risultante avrà un numero enorme di combinazioni possibili. Ad esempio, se una funzionalità ha 1000 bucket e l'altra ne ha 2000, il cross di funzionalità risultante ha 2.000.000 di bucket.

Formalmente, un incrocio è un prodotto cartesiano.

I cross di caratteristiche vengono utilizzati principalmente con i modelli lineari e raramente con le reti neurali.

Per saperne di più, consulta Dati categorici: combinazioni di funzionalità in Machine Learning Crash Course.

e applicazione del feature engineering.

#fundamentals
#TensorFlow

Un processo che prevede i seguenti passaggi:

  1. Determinare quali caratteristiche potrebbero essere utili per l'addestramento di un modello.
  2. Conversione dei dati non elaborati del set di dati in versioni efficienti di queste caratteristiche.

Ad esempio, potresti determinare che temperature potrebbe essere una funzionalità utile. Poi, potresti sperimentare il raggruppamento per ottimizzare ciò che il modello può apprendere da diversi intervalli di temperature.

Il feature engineering è talvolta chiamato estrazione delle funzionalità o featurizzazione.

Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle caratteristiche in Machine Learning Crash Course.

set di funzionalità

#fundamentals

Il gruppo di funzionalità su cui viene addestrato il tuo modello di machine learning. Ad esempio, un semplice insieme di funzionalità per un modello che prevede i prezzi delle case potrebbe essere costituito da codice postale, dimensioni della proprietà e condizioni della proprietà.

vettore di caratteristiche

#fundamentals

L'array di valori delle funzionalità che compongono un esempio. Il vettore delle caratteristiche viene inserito durante l'addestramento e durante l'inferenza. Ad esempio, il vettore delle caratteristiche per un modello con due caratteristiche discrete potrebbe essere:

[0.92, 0.56]

Quattro livelli: uno di input, due nascosti e uno di output.
          Lo strato di input contiene due nodi, uno con il valore
          0,92 e l&#39;altro con il valore 0,56.

Ogni esempio fornisce valori diversi per il vettore delle caratteristiche, quindi il vettore delle caratteristiche per l'esempio successivo potrebbe essere simile a questo:

[0.73, 0.49]

Il feature engineering determina come rappresentare le caratteristiche nel vettore di caratteristiche. Ad esempio, una caratteristica categorica binaria con cinque valori possibili potrebbe essere rappresentata con codifica one-hot. In questo caso, la porzione del vettore delle caratteristiche per un particolare esempio sarebbe costituita da quattro zeri e un singolo 1.0 nella terza posizione, come segue:

[0.0, 0.0, 1.0, 0.0, 0.0]

Come altro esempio, supponiamo che il tuo modello sia composto da tre funzionalità:

  • una caratteristica categorica binaria con cinque valori possibili rappresentati con la codifica one-hot; ad esempio: [0.0, 1.0, 0.0, 0.0, 0.0]
  • un'altra caratteristica categorica binaria con tre valori possibili rappresentati con la codifica one-hot; ad esempio: [0.0, 0.0, 1.0]
  • una funzionalità in virgola mobile, ad esempio 8.3.

In questo caso, il vettore delle caratteristiche per ogni esempio sarebbe rappresentato da nove valori. Dati i valori di esempio nell'elenco precedente, il vettore delle funzionalità sarebbe:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle caratteristiche in Machine Learning Crash Course.

ciclo di feedback

#fundamentals

Nel machine learning, una situazione in cui le previsioni di un modello influenzano i dati di addestramento per lo stesso modello o per un altro modello. Ad esempio, un modello che consiglia film influenzerà i film che le persone vedono, il che influenzerà a sua volta i modelli di consigli sui film successivi.

Per saperne di più, consulta Sistemi ML di produzione: domande da porre in Machine Learning Crash Course.

G

generalizzazione

#fundamentals

La capacità di un modello di fare previsioni corrette su dati nuovi e mai visti prima. Un modello in grado di generalizzare è l'opposto di un modello che è overfitting.

Per saperne di più, consulta la sezione Generalizzazione di Machine Learning Crash Course.

curva di generalizzazione

#fundamentals

Un grafico della perdita di addestramento e della perdita di convalida in funzione del numero di iterazioni.

Una curva di generalizzazione può aiutarti a rilevare un possibile overfitting. Ad esempio, la seguente curva di generalizzazione suggerisce un overfitting perché la perdita di convalida alla fine diventa significativamente superiore alla perdita di addestramento.

Un grafico cartesiano in cui l&#39;asse Y è etichettato come perdita e l&#39;asse X
          è etichettato come iterazioni. Vengono visualizzati due grafici. Un grafico mostra la
          perdita di addestramento e l&#39;altro la perdita di convalida.
          I due grafici iniziano in modo simile, ma la perdita di addestramento alla fine
          scende molto più in basso della perdita di convalida.

Per saperne di più, consulta la sezione Generalizzazione di Machine Learning Crash Course.

discesa del gradiente

#fundamentals

Una tecnica matematica per ridurre al minimo la perdita. La discesa del gradiente regola in modo iterativo pesi e bias, trovando gradualmente la combinazione migliore per ridurre al minimo la perdita.

La discesa del gradiente è più vecchia, molto più vecchia, del machine learning.

Per saperne di più, consulta Regressione lineare: discesa del gradiente in Machine Learning Crash Course.

dati di fatto

#fundamentals

Realtà.

La cosa che è effettivamente accaduta.

Ad esempio, considera un modello di classificazione binaria che prevede se uno studente al primo anno di università si laureerà entro sei anni. I dati di riferimento per questo modello sono se lo studente si è effettivamente laureato entro sei anni.

H

strato nascosto

#fundamentals

Un livello in una rete neurale tra il livello di input (le funzionalità) e il livello di output (la previsione). Ogni livello nascosto è costituito da uno o più neuroni. Ad esempio, la seguente rete neurale contiene due strati nascosti, il primo con tre neuroni e il secondo con due neuroni:

Quattro strati. Il primo livello è un livello di input contenente due
          caratteristiche. Il secondo strato è uno strato nascosto contenente tre
          neuroni. Il terzo strato è uno strato nascosto contenente due
          neuroni. Il quarto strato è uno strato di output. Ogni funzionalità
          contiene tre bordi, ognuno dei quali punta a un neurone diverso
          nel secondo livello. Ciascuno dei neuroni del secondo strato
          contiene due archi, ognuno dei quali punta a un neurone diverso
          nel terzo strato. Ciascuno dei neuroni del terzo strato contiene
          un arco, ciascuno dei quali punta allo strato di output.

Una rete neurale profonda contiene più di uno strato nascosto. Ad esempio, l'illustrazione precedente è una rete neurale profonda perché il modello contiene due livelli nascosti.

Per saperne di più, consulta Reti neurali: nodi e livelli nascosti in Machine Learning Crash Course.

iperparametro

#fundamentals

Le variabili che tu o un servizio di ottimizzazione degli iperparametri regolate durante le esecuzioni successive dell'addestramento di un modello. Ad esempio, il tasso di apprendimento è un iperparametro. Potresti impostare il tasso di apprendimento su 0,01 prima di una sessione di addestramento. Se determini che 0,01 è troppo alto, potresti impostare il tasso di apprendimento su 0,003 per la sessione di addestramento successiva.

Al contrario, i parametri sono i vari pesi e bias che il modello apprende durante l'addestramento.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

I

indipendenti e identicamente distribuiti (i.i.d.)

#fundamentals

Dati estratti da una distribuzione che non cambia e in cui ogni valore estratto non dipende dai valori estratti in precedenza. Una distribuzione i.i.d. è il gas ideale del machine learning, un costrutto matematico utile ma quasi mai trovato esattamente nel mondo reale. Ad esempio, la distribuzione dei visitatori di una pagina web potrebbe essere i.i.d. in un breve periodo di tempo, ovvero la distribuzione non cambia durante questo breve periodo e la visita di una persona è generalmente indipendente da quella di un'altra. Tuttavia, se espandi questo periodo di tempo, potrebbero comparire differenze stagionali nei visitatori della pagina web.

Vedi anche non stazionarietà.

inferenza

#fundamentals
#generativeAI

Nel machine learning tradizionale, il processo di fare previsioni applicando un modello addestrato a esempi non etichettati. Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

Nei modelli linguistici di grandi dimensioni, l'inferenza è il processo di utilizzo di un modello addestrato per generare una risposta a un prompt di input.

L'inferenza ha un significato leggermente diverso in statistica. Per maggiori dettagli, consulta l' articolo di Wikipedia sull'inferenza statistica.

livello di input

#fundamentals

Lo strato di una rete neurale che contiene il vettore di caratteristiche. ovvero il livello di input fornisce esempi per l'addestramento o l'inferenza. Ad esempio, il livello di input nella seguente rete neurale è costituito da due funzionalità:

Quattro strati: uno di input, due nascosti e uno di output.

interpretabilità

#fundamentals

La capacità di spiegare o presentare il ragionamento di un modello di ML in termini comprensibili per un essere umano.

La maggior parte dei modelli di regressione lineare, ad esempio, sono altamente interpretabili. Basta controllare i pesi dell'addestramento di ogni caratteristica. Anche le foreste decisionali sono altamente interpretabili. Alcuni modelli, tuttavia, richiedono una visualizzazione sofisticata per poter essere interpretati.

Puoi utilizzare lo strumento di interpretabilità dell'apprendimento (LIT) per interpretare i modelli ML.

iteration

#fundamentals

Un singolo aggiornamento dei parametri di un modello, ovvero i pesi e i bias del modello, durante l'addestramento. La dimensione del batch determina il numero di esempi che il modello elabora in una singola iterazione. Ad esempio, se la dimensione del batch è 20, il modello elabora 20 esempi prima di regolare i parametri.

Quando addestri una rete neurale, una singola iterazione prevede i seguenti due passaggi:

  1. Un passaggio in avanti per valutare la perdita su un singolo batch.
  2. Un passaggio all'indietro (retropropagazione) per regolare i parametri del modello in base alla perdita e al tasso di apprendimento.

Per saperne di più, consulta la sezione Discesa del gradiente in Machine Learning Crash Course.

L

Regolarizzazione L0

#fundamentals

Un tipo di regolarizzazione che penalizza il numero totale di pesi diversi da zero in un modello. Ad esempio, un modello con 11 pesi diversi da zero verrebbe penalizzato più di un modello simile con 10 pesi diversi da zero.

La regolarizzazione L0 viene talvolta chiamata regolarizzazione della norma L0.

Perdita L1

#fundamentals
#Metric

Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L1 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Valore assoluto del delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 persa

La perdita L1 è meno sensibile ai valori anomali rispetto alla perdita L2.

L'errore assoluto medio è la perdita L1 media per esempio.

Per saperne di più, consulta Regressione lineare: perdita in Machine Learning Crash Course.

Regolarizzazione L1

#fundamentals

Un tipo di regolarizzazione che penalizza i pesi in proporzione alla somma del valore assoluto dei pesi. La regolarizzazione L1 contribuisce a portare i pesi delle caratteristiche irrilevanti o appena rilevanti a esattamente 0. Una caratteristica con un peso pari a 0 viene effettivamente rimossa dal modello.

Contrasto con la regolarizzazione L2.

Perdita L2

#fundamentals
#Metric

Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L2 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Quadrato del delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 loss

A causa dell'elevazione al quadrato, la perdita L2 amplifica l'influenza degli outlier. ovvero la perdita L2 reagisce più fortemente alle previsioni errate rispetto alla perdita L1. Ad esempio, la perdita L1 per il batch precedente sarebbe 8 anziché 16. Nota che un singolo valore anomalo rappresenta 9 dei 16.

I modelli di regressione in genere utilizzano la perdita L2 come funzione di perdita.

L'errore quadratico medio è la perdita L2 media per esempio. Perdita quadratica è un altro nome per la perdita L2.

Per saperne di più, consulta Regressione logistica: perdita e regolarizzazione in Machine Learning Crash Course.

Regolarizzazione L2

#fundamentals

Un tipo di regolarizzazione che penalizza i pesi in proporzione alla somma dei quadrati dei pesi. La regolarizzazione L2 contribuisce a ridurre i pesi anomali (quelli con valori positivi elevati o negativi bassi) più vicini a 0, ma non esattamente a 0. Le caratteristiche con valori molto vicini a 0 rimangono nel modello, ma non influiscono molto sulla previsione del modello.

La regolarizzazione L2 migliora sempre la generalizzazione nei modelli lineari.

Contrasto con la regolarizzazione L1.

Per saperne di più, consulta Overfitting: regolarizzazione L2 in Machine Learning Crash Course.

etichetta

#fundamentals

Nell'apprendimento supervisionato, la parte "risposta" o "risultato" di un esempio.

Ogni esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Ad esempio, in un set di dati per il rilevamento dello spam, l'etichetta sarebbe probabilmente "spam" o "non spam". In un set di dati sulle precipitazioni, l'etichetta potrebbe essere la quantità di pioggia caduta in un determinato periodo.

Per saperne di più, consulta Apprendimento supervisionato in Introduzione al machine learning.

esempio etichettato

#fundamentals

Un esempio che contiene una o più caratteristiche e un'etichetta. Ad esempio, la seguente tabella mostra tre esempi etichettati di un modello di valutazione di una casa, ognuno con tre funzionalità e un'etichetta:

Numero di camere Numero di bagni Età della casa Prezzo della casa (etichetta)
3 2 15 $345.000
2 1 72 $179.000
4 2 34 $392.000

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni su esempi non etichettati.

Esempio con contrasto etichettato con esempi senza etichetta.

Per saperne di più, consulta Apprendimento supervisionato in Introduzione al machine learning.

lambda

#fundamentals

Sinonimo di tasso di regolarizzazione.

Lambda è un termine sovraccarico. Qui ci concentriamo sulla definizione del termine all'interno della regolarizzazione.

livello

#fundamentals

Un insieme di neuroni in una rete neurale. Di seguito sono riportati tre tipi comuni di livelli:

Ad esempio, la seguente illustrazione mostra una rete neurale con uno strato di input, due strati nascosti e uno strato di output:

Una rete neurale con uno strato di input, due strati nascosti e uno di output. Il livello di input è costituito da due caratteristiche. Il primo strato nascosto è composto da tre neuroni e il secondo da due. Lo strato di output è costituito da un singolo nodo.

In TensorFlow, i livelli sono anche funzioni Python che accettano tensori e opzioni di configurazione come input e producono altri tensori come output.

tasso di apprendimento

#fundamentals

Un numero in virgola mobile che indica all'algoritmo di discesa del gradiente con quale intensità regolare i pesi e i bias in ogni iterazione. Ad esempio, un tasso di apprendimento di 0,3 modifica i pesi e i bias tre volte più intensamente di un tasso di apprendimento di 0,1.

Il tasso di apprendimento è un iperparametro fondamentale. Se imposti il tasso di apprendimento troppo basso, l'addestramento richiederà troppo tempo. Se imposti il tasso di apprendimento troppo alto, la discesa del gradiente spesso ha difficoltà a raggiungere la convergenza.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

lineare

#fundamentals

Una relazione tra due o più variabili che può essere rappresentata esclusivamente tramite addizione e moltiplicazione.

Il grafico di una relazione lineare è una retta.

Contrasto con non lineare.

modello lineare

#fundamentals

Un modello che assegna un peso per caratteristica per fare previsioni. I modelli lineari incorporano anche un bias. Al contrario, la relazione tra le caratteristiche e le previsioni nei modelli deep è generalmente non lineare.

I modelli lineari sono in genere più facili da addestrare e più interpretabili rispetto ai modelli profondi. Tuttavia, i modelli profondi possono apprendere relazioni complesse tra le caratteristiche.

La regressione lineare e la regressione logistica sono due tipi di modelli lineari.

regressione lineare

#fundamentals

Un tipo di modello di machine learning in cui sono vere entrambe le seguenti affermazioni:

  • Il modello è un modello lineare.
  • La previsione è un valore in virgola mobile. (Questa è la parte di regressione della regressione lineare.)

Confronta la regressione lineare con la regressione logistica. Inoltre, metti a confronto la regressione con la classificazione.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

regressione logistica

#fundamentals

Un tipo di modello di regressione che prevede una probabilità. I modelli di regressione logistica hanno le seguenti caratteristiche:

  • L'etichetta è categorica. Il termine regressione logistica si riferisce in genere alla regressione logistica binaria, ovvero a un modello che calcola le probabilità per le etichette con due valori possibili. Una variante meno comune, la regressione logistica multinomiale, calcola le probabilità per le etichette con più di due valori possibili.
  • La funzione di perdita durante l'addestramento è Log Loss. È possibile inserire più unità Log Loss in parallelo per le etichette con più di due valori possibili.
  • Il modello ha un'architettura lineare, non una rete neurale profonda. Tuttavia, il resto di questa definizione si applica anche ai modelli di deep learning che prevedono probabilità per le etichette categoriche.

Ad esempio, considera un modello di regressione logistica che calcola la probabilità che un'email di input sia spam o meno. Durante l'inferenza, supponiamo che il modello preveda 0,72. Pertanto, il modello sta stimando:

  • Una probabilità del 72% che l'email sia spam.
  • Il 28% di probabilità che l'email non sia spam.

Un modello di regressione logistica utilizza la seguente architettura in due passaggi:

  1. Il modello genera una previsione non elaborata (y') applicando una funzione lineare delle caratteristiche di input.
  2. Il modello utilizza questa previsione non elaborata come input per una funzione sigmoide, che converte la previsione non elaborata in un valore compreso tra 0 e 1, esclusi.

Come qualsiasi modello di regressione, un modello di regressione logistica prevede un numero. Tuttavia, questo numero in genere diventa parte di un modello di classificazione binaria come segue:

  • Se il numero previsto è maggiore della soglia di classificazione, il modello di classificazione binaria prevede la classe positiva.
  • Se il numero previsto è inferiore alla soglia di classificazione, il modello di classificazione binaria prevede la classe negativa.

Per saperne di più, consulta Regressione logistica in Machine Learning Crash Course.

Log Loss

#fundamentals

La funzione di perdita utilizzata nella regressione logistica binaria.

Per saperne di più, consulta Regressione logistica: perdita e regolarizzazione in Machine Learning Crash Course.

log-odds

#fundamentals

Il logaritmo delle probabilità di un evento.

perdita

#fundamentals
#Metric

Durante l'addestramento di un modello supervisionato, una misura della distanza tra la previsione di un modello e la sua etichetta.

Una funzione di perdita calcola la perdita.

Per saperne di più, consulta Regressione lineare: perdita in Machine Learning Crash Course.

curva di perdita

#fundamentals

Un grafico della perdita in funzione del numero di iterazioni di addestramento. Il seguente grafico mostra una tipica curva di perdita:

Un grafico cartesiano della perdita rispetto alle iterazioni di addestramento, che mostra una
          rapida diminuzione della perdita per le iterazioni iniziali, seguita da una
          diminuzione graduale e poi da una pendenza piatta durante le iterazioni finali.

Le curve di perdita possono aiutarti a determinare quando il modello converge o quando si verifica l'overfitting.

Le curve di perdita possono tracciare tutti i seguenti tipi di perdita:

Vedi anche la curva di generalizzazione.

Per saperne di più, consulta Overfitting: interpretare le curve di perdita in Machine Learning Crash Course.

funzione di perdita

#fundamentals
#Metric

Durante l'addestramento o il test, una funzione matematica che calcola la perdita su un batch di esempi. Una funzione di perdita restituisce una perdita inferiore per i modelli che fanno buone previsioni rispetto a quelli che fanno previsioni errate.

L'obiettivo dell'addestramento è in genere quello di ridurre al minimo la perdita restituita da una funzione di perdita.

Esistono molti tipi diversi di funzioni di perdita. Scegli la funzione di perdita appropriata per il tipo di modello che stai creando. Ad esempio:

M

machine learning

#fundamentals

Un programma o un sistema che addestra un modello a partire dai dati di input. Il modello addestrato può fare previsioni utili a partire da dati nuovi (mai visti prima) estratti dalla stessa distribuzione di quelli utilizzati per addestrare il modello.

Il machine learning si riferisce anche al campo di studio che si occupa di questi programmi o sistemi.

Per saperne di più, consulta il corso Introduzione al machine learning.

classe maggioritaria

#fundamentals

L'etichetta più comune in un insieme di dati con sbilanciamento di classe. Ad esempio, dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette negative sono la classe di maggioranza.

Contrasto con la classe di minoranza.

Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.

mini-batch

#fundamentals

Un piccolo sottoinsieme selezionato casualmente di un batch elaborato in una iterazione. La dimensione del batch di un mini-batch è in genere compresa tra 10 e 1000 esempi.

Ad esempio, supponiamo che l'intero set di addestramento (l'intero batch) sia composto da 1000 esempi. Supponiamo inoltre di impostare la dimensione del batch di ogni mini-batch su 20. Pertanto, ogni iterazione determina la perdita su 20 esempi casuali su 1000 e poi modifica di conseguenza i pesi e i bias.

È molto più efficiente calcolare la perdita su un mini-batch rispetto alla perdita su tutti gli esempi nel batch completo.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

classe minoritaria

#fundamentals

L'etichetta meno comune in un insieme di dati con sbilanciamento di classe. Ad esempio, dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette positive sono la classe di minoranza.

Contrasto con la classe maggioritaria.

Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.

modello

#fundamentals

In generale, qualsiasi costrutto matematico che elabora i dati di input e restituisce l'output. In altre parole, un modello è l'insieme di parametri e della struttura necessari a un sistema per fare previsioni. Nel machine learning supervisionato, un modello prende un esempio come input e deduce una previsione come output. Nell'ambito del machine learning supervisionato, i modelli differiscono leggermente. Ad esempio:

  • Un modello di regressione lineare è costituito da un insieme di pesi e da un bias.
  • Un modello di rete neurale è costituito da:
    • Un insieme di strati nascosti, ognuno contenente uno o più neuroni.
    • I pesi e il bias associati a ogni neurone.
  • Un modello ad albero decisionale è costituito da:
    • La forma dell'albero, ovvero il pattern in cui sono collegate le condizioni e le foglie.
    • Le condizioni e i permessi.

Puoi salvare, ripristinare o creare copie di un modello.

L'apprendimento automatico non supervisionato genera anche modelli, in genere una funzione che può mappare un esempio di input al cluster più appropriato.

classificazione multiclasse

#fundamentals

Nell'apprendimento supervisionato, un problema di classificazione in cui il set di dati contiene più di due classi di etichette. Ad esempio, le etichette nel set di dati Iris devono appartenere a una delle seguenti tre classi:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Un modello addestrato sul set di dati Iris che prevede il tipo di Iris su nuovi esempi esegue la classificazione multi-classe.

Al contrario, i problemi di classificazione che distinguono esattamente due classi sono modelli di classificazione binaria. Ad esempio, un modello di email che prevede spam o non spam è un modello di classificazione binaria.

Nei problemi di clustering, la classificazione multiclasse si riferisce a più di due cluster.

Per saperne di più, consulta la sezione Reti neurali: classificazione multiclasse di Machine Learning Crash Course.

No

classe negativa

#fundamentals
#Metric

Nella classificazione binaria, una classe è definita positiva e l'altra è definita negativa. La classe positiva è l'elemento o l'evento che il modello sta testando, mentre la classe negativa è l'altra possibilità. Ad esempio:

  • La classe negativa in un test medico potrebbe essere "non tumore".
  • La classe negativa in un modello di classificazione delle email potrebbe essere "non spam".

Contrasto con la classe positiva.

feed-forward

#fundamentals

Un modello contenente almeno un livello nascosto. Una rete neurale profonda è un tipo di rete neurale che contiene più di uno strato nascosto. Ad esempio, il seguente diagramma mostra una rete neurale profonda contenente due livelli nascosti.

Una rete neurale con uno strato di input, due strati nascosti e uno di output.

Ogni neurone di una rete neurale si connette a tutti i nodi del livello successivo. Ad esempio, nel diagramma precedente, nota che ciascuno dei tre neuroni nel primo strato nascosto si connette separatamente a entrambi i neuroni nel secondo strato nascosto.

Le reti neurali implementate sui computer sono a volte chiamate reti neurali artificiali per distinguerle dalle reti neurali presenti nel cervello e in altri sistemi nervosi.

Alcune reti neurali possono imitare relazioni non lineari estremamente complesse tra le diverse caratteristiche e l'etichetta.

Vedi anche rete neurale convoluzionale e rete neurale ricorrente.

Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.

neurone

#fundamentals

Nel machine learning, un'unità distinta all'interno di un livello nascosto di una rete neurale. Ogni neurone esegue la seguente azione in due passaggi:

  1. Calcola la somma ponderata dei valori di input moltiplicati per i pesi corrispondenti.
  2. Passa la somma ponderata come input a una funzione di attivazione.

Un neurone del primo strato nascosto accetta gli input dai valori delle caratteristiche nel strato di input. Un neurone in qualsiasi strato nascosto oltre il primo accetta input dai neuroni dello strato nascosto precedente. Ad esempio, un neurone del secondo strato nascosto accetta input dai neuroni del primo strato nascosto.

La seguente illustrazione mette in evidenza due neuroni e i relativi input.

Una rete neurale con uno strato di input, due strati nascosti e uno di output. Sono evidenziati due neuroni: uno nel primo strato nascosto e uno nel secondo strato nascosto. Il neurone evidenziato
          nel primo strato nascosto riceve input da entrambe le funzionalità
          nello strato di input. Il neurone evidenziato nel secondo strato nascosto
          riceve input da ciascuno dei tre neuroni del primo strato
          nascosto.

Un neurone in una rete neurale imita il comportamento dei neuroni nel cervello e in altre parti del sistema nervoso.

nodo (rete neurale)

#fundamentals

Un neurone in un livello nascosto.

Per ulteriori informazioni, consulta la sezione Reti neurali di Machine Learning Crash Course.

non lineare

#fundamentals

Una relazione tra due o più variabili che non può essere rappresentata solo tramite addizione e moltiplicazione. Una relazione lineare può essere rappresentata come una linea, mentre una relazione non lineare non può essere rappresentata come una linea. Ad esempio, considera due modelli che mettono in relazione una singola caratteristica a una singola etichetta. Il modello a sinistra è lineare e quello a destra è non lineare:

Due trame. Un grafico è una linea, quindi si tratta di una relazione lineare.
          L&#39;altro grafico è una curva, quindi si tratta di una relazione non lineare.

Consulta la sezione Reti neurali: nodi e livelli nascosti del corso intensivo di machine learning per sperimentare diversi tipi di funzioni non lineari.

non stazionarietà

#fundamentals

Una funzionalità i cui valori cambiano in una o più dimensioni, in genere il tempo. Ad esempio, considera i seguenti esempi di non stazionarietà:

  • Il numero di costumi da bagno venduti in un determinato negozio varia a seconda della stagione.
  • La quantità di un determinato frutto raccolto in una regione specifica è pari a zero per gran parte dell'anno, ma elevata per un breve periodo.
  • A causa dei cambiamenti climatici, le temperature medie annue stanno cambiando.

Contrasto con la stazionarietà.

normalizzazione

#fundamentals

In termini generali, il processo di conversione dell'intervallo effettivo di valori di una variabile in un intervallo standard di valori, ad esempio:

  • Da -1 a +1
  • Da 0 a 1
  • Punteggi z (approssimativamente da -3 a +3)

Ad esempio, supponiamo che l'intervallo effettivo di valori di una determinata caratteristica sia da 800 a 2400. Nell'ambito dell'ingegneria delle funzionalità, puoi normalizzare i valori effettivi in un intervallo standard, ad esempio da -1 a +1.

La normalizzazione è un'attività comune nell'ingegneria delle funzionalità. I modelli di solito vengono addestrati più velocemente (e producono previsioni migliori) quando ogni caratteristica numerica nel vettore delle caratteristiche ha all'incirca lo stesso intervallo.

Vedi anche Normalizzazione del punteggio Z.

Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.

dati numerici

#fundamentals

Caratteristiche rappresentate come numeri interi o con valori reali. Ad esempio, un modello di valutazione di una casa rappresenterebbe probabilmente le dimensioni di una casa (in piedi quadrati o metri quadrati) come dati numerici. La rappresentazione di una caratteristica come dati numerici indica che i valori della caratteristica hanno una relazione matematica con l'etichetta. ovvero il numero di metri quadrati di una casa probabilmente ha una relazione matematica con il valore della casa.

Non tutti i dati interi devono essere rappresentati come dati numerici. Ad esempio, i codici postali in alcune parti del mondo sono numeri interi; tuttavia, i codici postali interi non devono essere rappresentati come dati numerici nei modelli. Questo perché un codice postale di 20000 non è due volte (o la metà) più efficace di un codice postale di 10000. Inoltre, anche se codici postali diversi corrispondono a valori immobiliari diversi, non possiamo presumere che i valori immobiliari del codice postale 20000 siano il doppio di quelli del codice postale 10000. I codici postali devono essere rappresentati come dati categorici.

Le caratteristiche numeriche sono a volte chiamate caratteristiche continue.

Per saperne di più, consulta la sezione Utilizzo dei dati numerici di Machine Learning Crash Course.

O

offline

#fundamentals

Sinonimo di static.

inferenza offline

#fundamentals

Il processo di generazione di un batch di previsioni da parte di un modello e il successivo salvataggio nella cache. Le app possono quindi accedere alla previsione inferita dalla cache anziché eseguire nuovamente il modello.

Ad esempio, considera un modello che genera previsioni meteo locali (previsioni) una volta ogni quattro ore. Dopo ogni esecuzione del modello, il sistema memorizza nella cache tutte le previsioni meteo locali. Le app meteo recuperano le previsioni dalla cache.

L'inferenza offline è chiamata anche inferenza statica.

Contrasto con l'inferenza online. Per saperne di più, consulta la sezione Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.

codifica one-hot

#fundamentals

Rappresentazione dei dati categorici come un vettore in cui:

  • Un elemento è impostato su 1.
  • Tutti gli altri elementi sono impostati su 0.

La codifica one-hot viene comunemente utilizzata per rappresentare stringhe o identificatori che hanno un insieme finito di valori possibili. Ad esempio, supponiamo che una determinata caratteristica categorica denominata Scandinavia abbia cinque valori possibili:

  • "Danimarca"
  • "Svezia"
  • "Norvegia"
  • "Finlandia"
  • "Islanda"

La codifica one-hot potrebbe rappresentare ciascuno dei cinque valori nel seguente modo:

Paese Vettoriale
"Danimarca" 1 0 0 0 0
"Svezia" 0 1 0 0 0
"Norvegia" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islanda" 0 0 0 0 1

Grazie alla codifica one-hot, un modello può apprendere connessioni diverse in base a ciascuno dei cinque paesi.

La rappresentazione di una caratteristica come dati numerici è un'alternativa alla codifica one-hot. Purtroppo, rappresentare i paesi scandinavi numericamente non è una buona scelta. Ad esempio, considera la seguente rappresentazione numerica:

  • "Danimarca" è 0
  • "Svezia" è 1
  • "Norvegia" è 2
  • "Finlandia" è 3
  • "Iceland" è 4

Con la codifica numerica, un modello interpreterebbe i numeri grezzi matematicamente e tenterebbe di addestrarsi su questi numeri. Tuttavia, l'Islanda non è il doppio (o la metà) di qualcosa rispetto alla Norvegia, quindi il modello arriverebbe a conclusioni strane.

Per saperne di più, consulta Dati categorici: vocabolario e codifica one-hot in Machine Learning Crash Course.

one-vs.-all

#fundamentals

Dato un problema di classificazione con N classi, una soluzione costituita da N modelli di classificazione binaria separati, un modello di classificazione binaria per ogni possibile risultato. Ad esempio, dato un modello che classifica gli esempi come animale, vegetale o minerale, una soluzione uno contro tutti fornirebbe i seguenti tre modelli di classificazione binaria separati:

  • animale o non animale
  • verdura o non verdura
  • minerale o non minerale

online

#fundamentals

Sinonimo di dinamico.

inferenza online

#fundamentals

Generazione di previsioni on demand. Ad esempio, supponiamo che un'app passi l'input a un modello ed emetta una richiesta di previsione. Un sistema che utilizza l'inferenza online risponde alla richiesta eseguendo il modello (e restituendo la previsione all'app).

Contrasto con l'inferenza offline.

Per saperne di più, consulta la sezione Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.

livello di output

#fundamentals

Il livello "finale" di una rete neurale. Lo strato di output contiene la previsione.

La seguente illustrazione mostra una piccola rete neurale profonda con uno strato di input, due strati nascosti e uno strato di output:

Una rete neurale con uno strato di input, due strati nascosti e uno di output. Il livello di input è costituito da due caratteristiche. Il primo strato nascosto è composto da tre neuroni e il secondo da due. Lo strato di output è costituito da un singolo nodo.

overfitting

#fundamentals

Creazione di un modello che corrisponde ai dati di addestramento in modo così preciso che il modello non riesce a fare previsioni corrette su nuovi dati.

La regolarizzazione può ridurre l'overfitting. L'addestramento su un set di addestramento ampio e diversificato può anche ridurre l'overfitting.

Per saperne di più, consulta la sezione Overfitting di Machine Learning Crash Course.

P

panda

#fundamentals

Un'API per l'analisi dei dati orientata alle colonne basata su numpy. Molti framework di machine learning, tra cui TensorFlow, supportano le strutture di dati pandas come input. Per informazioni dettagliate, consulta la documentazione di pandas.

parametro

#fundamentals

Le ponderazioni e i bias che un modello apprende durante l'addestramento. Ad esempio, in un modello di regressione lineare, i parametri sono costituiti dal bias (b) e da tutti i pesi (w1, w2 e così via) nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Al contrario, gli iperparametri sono i valori che tu (o un servizio di ottimizzazione degli iperparametri) fornisci al modello. Ad esempio, il tasso di apprendimento è un iperparametro.

classe positiva

#fundamentals
#Metric

Il corso per cui stai eseguendo il test.

Ad esempio, la classe positiva in un modello per il cancro potrebbe essere "tumore". La classe positiva in un modello di classificazione delle email potrebbe essere "spam".

Contrasta con la classe negativa.

post-elaborazione

#responsible
#fundamentals

Modifica dell'output di un modello dopo l'esecuzione. Il post-processing può essere utilizzato per applicare vincoli di equità senza modificare i modelli stessi.

Ad esempio, è possibile applicare il post-processing a un modello di classificazione binaria impostando una soglia di classificazione in modo che l'uguaglianza delle opportunità venga mantenuta per un determinato attributo verificando che il tasso di veri positivi sia lo stesso per tutti i valori di quell'attributo.

precisione

#fundamentals
#Metric

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando il modello ha previsto la classe positiva, qual è stata la percentuale di previsioni corrette?

Ecco la formula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

dove:

  • vero positivo significa che il modello ha previsto correttamente la classe positiva.
  • Un falso positivo significa che il modello ha previsto erroneamente la classe positiva.

Ad esempio, supponiamo che un modello abbia effettuato 200 previsioni positive. Delle 200 previsioni positive:

  • 150 erano veri positivi.
  • 50 erano falsi positivi.

In questo caso:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Contrasta con accuratezza e richiamo.

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.

previsione

#fundamentals

L'output di un modello. Ad esempio:

  • La previsione di un modello di classificazione binaria è la classe positiva o la classe negativa.
  • La previsione di un modello di classificazione multi-classe è una classe.
  • La previsione di un modello di regressione lineare è un numero.

proxy labels

#fundamentals

Dati utilizzati per approssimare le etichette non direttamente disponibili in un set di dati.

Ad esempio, supponiamo di dover addestrare un modello per prevedere il livello di stress dei dipendenti. Il tuo set di dati contiene molte funzionalità predittive, ma non contiene un'etichetta denominata livello di stress. Senza scoraggiarti, scegli "incidenti sul lavoro" come etichetta proxy per il livello di stress. Dopo tutto, i dipendenti sotto forte stress sono coinvolti in più incidenti rispetto a quelli tranquilli. O no? Forse gli incidenti sul lavoro aumentano e diminuiscono per diversi motivi.

Come secondo esempio, supponiamo che tu voglia che is it raining? sia un'etichetta booleana per il tuo set di dati, ma il tuo set di dati non contiene dati sulla pioggia. Se sono disponibili fotografie, potresti stabilire immagini di persone che portano ombrelli come etichetta proxy per sta piovendo? È un'etichetta proxy valida? Probabilmente, ma le persone di alcune culture potrebbero portare con sé l'ombrello più per proteggersi dal sole che dalla pioggia.

Le etichette proxy spesso non sono perfette. Se possibile, scegli etichette reali anziché etichette proxy. Detto questo, quando un'etichetta effettiva è assente, scegli l'etichetta proxy con molta attenzione, selezionando il candidato meno orribile.

Per saperne di più, consulta Set di dati: etichette in Machine Learning Crash Course.

R

RAG

#fundamentals

Abbreviazione di retrieval-augmented generation.

valutatore

#fundamentals

Una persona che fornisce etichette per gli esempi. "Annotatore" è un altro nome per valutatore.

Per saperne di più, consulta Dati categorici: problemi comuni in Machine Learning Crash Course.

richiamo

#fundamentals
#Metric

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando la verità di riferimento era la classe positiva, quale percentuale di previsioni è stata identificata correttamente dal modello come classe positiva?

Ecco la formula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

dove:

  • vero positivo significa che il modello ha previsto correttamente la classe positiva.
  • Un falso negativo significa che il modello ha previsto erroneamente la classe negativa.

Ad esempio, supponiamo che il modello abbia effettuato 200 previsioni su esempi per i quali la verità di base era la classe positiva. Di queste 200 previsioni:

  • 180 erano veri positivi.
  • 20 erano falsi negativi.

In questo caso:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate.

Unità lineare rettificata (ReLU)

#fundamentals

Una funzione di attivazione con il seguente comportamento:

  • Se l'input è negativo o zero, l'output è 0.
  • Se l'input è positivo, l'output è uguale all'input.

Ad esempio:

  • Se l'input è -3, l'output è 0.
  • Se l'input è +3, l'output è 3.0.

Ecco un grafico della ReLU:

Un grafico cartesiano di due linee. La prima linea ha un valore y costante pari a 0 e si estende lungo l&#39;asse x da -infinity,0 a 0,-0.
          La seconda riga inizia da 0,0. Questa retta ha una pendenza di +1, quindi
          va da 0,0 a +infinito,+infinito.

ReLU è una funzione di attivazione molto popolare. Nonostante il suo comportamento semplice, ReLU consente comunque a una rete neurale di apprendere relazioni non lineari tra le funzionalità e l'etichetta.

modello di regressione

#fundamentals

Informalmente, un modello che genera una previsione numerica. Al contrario, un modello di classificazione genera una previsione di classe. Ad esempio, i seguenti sono tutti modelli di regressione:

  • Un modello che prevede il valore di una determinata casa in euro, ad esempio 423.000.
  • Un modello che prevede l'aspettativa di vita di un determinato albero in anni, ad esempio 23,2.
  • Un modello che prevede la quantità di pioggia in centimetri che cadrà in una determinata città nelle sei ore successive, ad esempio 0,18.

Due tipi comuni di modelli di regressione sono:

  • Regressione lineare, che trova la linea che meglio si adatta ai valori delle etichette alle caratteristiche.
  • Regressione logistica, che genera una probabilità compresa tra 0.0 e 1.0 che un sistema in genere mappa a una previsione di classe.

Non tutti i modelli che restituiscono previsioni numeriche sono modelli di regressione. In alcuni casi, una previsione numerica è in realtà solo un modello di classificazione che ha nomi di classe numerici. Ad esempio, un modello che prevede un codice postale numerico è un modello di classificazione, non di regressione.

regolarizzazione

#fundamentals

Qualsiasi meccanismo che riduce l'overfitting. I tipi più comuni di regolarizzazione includono:

La regolarizzazione può anche essere definita come la penalità per la complessità di un modello.

Per saperne di più, consulta Overfitting: complessità del modello in Machine Learning Crash Course.

tasso di regolarizzazione

#fundamentals

Un numero che specifica l'importanza relativa della regolarizzazione durante l'addestramento. L'aumento del tasso di regolarizzazione riduce l'overfitting, ma potrebbe ridurre il potere predittivo del modello. Al contrario, la riduzione o l'omissione del tasso di regolarizzazione aumenta l'overfitting.

Per saperne di più, consulta Overfitting: regolarizzazione L2 in Machine Learning Crash Course.

ReLU

#fundamentals

Abbreviazione di Rectified Linear Unit.

Retrieval-augmented generation (RAG)

#fundamentals

Una tecnica per migliorare la qualità dell'output di un modello linguistico di grandi dimensioni (LLM) basandolo su fonti di conoscenza recuperate dopo l'addestramento del modello. La RAG migliora l'accuratezza delle risposte dell'LLM fornendo all'LLM addestrato l'accesso alle informazioni recuperate da knowledge base o documenti attendibili.

I motivi più comuni per utilizzare la generazione aumentata dal recupero includono:

  • Aumentare l'accuratezza oggettiva delle risposte generate da un modello.
  • Consentire al modello di accedere a conoscenze su cui non è stato addestrato.
  • Modifica delle conoscenze utilizzate dal modello.
  • Consentire al modello di citare le fonti.

Ad esempio, supponiamo che un'app di chimica utilizzi l'API PaLM per generare riepiloghi relativi alle query degli utenti. Quando il backend dell'app riceve una query, esegue le seguenti operazioni:

  1. Cerca ("recupera") i dati pertinenti alla query dell'utente.
  2. Aggiunge ("aumenta") i dati chimici pertinenti alla query dell'utente.
  3. Indica al modello LLM di creare un riepilogo in base ai dati aggiunti.

Curva ROC (caratteristica operativa del ricevitore)

#fundamentals
#Metric

Un grafico della percentuale di veri positivi rispetto alla percentuale di falsi positivi per diverse soglie di classificazione nella classificazione binaria.

La forma di una curva ROC suggerisce la capacità di un modello di classificazione binaria di separare le classi positive da quelle negative. Supponiamo, ad esempio, che un modello di classificazione binaria separi perfettamente tutte le classi negative da tutte le classi positive:

Una retta numerica con 8 esempi positivi sul lato destro e
          7 esempi negativi sul lato sinistro.

La curva ROC per il modello precedente ha il seguente aspetto:

Una curva ROC. L&#39;asse x è la percentuale di falsi positivi e l&#39;asse y
          è la percentuale di veri positivi. La curva ha una forma a L invertita. La curva
          inizia da (0.0,0.0) e sale direttamente fino a (0.0,1.0). Poi la curva
          va da (0.0,1.0) a (1.0,1.0).

Al contrario, il grafico dell'illustrazione seguente mostra i valori di regressione logistica grezzi per un modello pessimo che non riesce a separare le classi negative da quelle positive:

Una retta numerica con esempi positivi e classi negative
          completamente mescolati.

La curva ROC per questo modello ha il seguente aspetto:

Una curva ROC, che in realtà è una linea retta da (0.0,0.0)
          a (1.0,1.0).

Nel frattempo, nel mondo reale, la maggior parte dei modelli di classificazione binaria separa le classi positive e negative in una certa misura, ma di solito non in modo perfetto. Pertanto, una tipica curva ROC si trova a metà strada tra i due estremi:

Una curva ROC. L&#39;asse x è la percentuale di falsi positivi e l&#39;asse y
          è la percentuale di veri positivi. La curva ROC approssima un arco instabile
          che attraversa i punti cardinali da ovest a nord.

Il punto su una curva ROC più vicino a (0.0,1.0) identifica teoricamente la soglia di classificazione ideale. Tuttavia, diversi altri problemi del mondo reale influenzano la selezione della soglia di classificazione ideale. Ad esempio, forse i falsi negativi causano molto più dolore dei falsi positivi.

Una metrica numerica chiamata AUC riassume la curva ROC in un singolo valore in virgola mobile.

Errore quadratico medio (RMSE)

#fundamentals
#Metric

La radice quadrata dell'errore quadratico medio.

S

funzione sigmoidea

#fundamentals

Una funzione matematica che "comprime" un valore di input in un intervallo vincolato, in genere da 0 a 1 o da -1 a +1. ovvero puoi passare qualsiasi numero (2, un milione, un miliardo negativo, quello che vuoi) a una sigmoide e l'output sarà comunque nell'intervallo vincolato. Un grafico della funzione di attivazione sigmoidea è il seguente:

Un grafico curvo bidimensionale con valori x che coprono il dominio
          da -infinito a +positivo, mentre i valori y coprono l&#39;intervallo da quasi 0 a
          quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre
          positiva, con la pendenza più alta a 0,0,5 e pendenze che diminuiscono gradualmente
          all&#39;aumentare del valore assoluto di x.

La funzione sigmoide ha diversi utilizzi nel machine learning, tra cui:

softmax

#fundamentals

Una funzione che determina le probabilità per ogni classe possibile in un modello di classificazione multiclasse. La somma delle probabilità è esattamente 1.0. Ad esempio, la tabella seguente mostra come la funzione softmax distribuisce varie probabilità:

L'immagine è un/una… Probabilità
cane 0,85
gatto ,13
cavallo .02

Softmax è anche chiamata softmax completa.

Contrasta con il campionamento dei candidati.

Per saperne di più, consulta la sezione Reti neurali: classificazione multiclasse di Machine Learning Crash Course.

caratteristica sparsa

#fundamentals

Una caratteristica i cui valori sono prevalentemente zero o vuoti. Ad esempio, una caratteristica contenente un singolo valore 1 e un milione di valori 0 è scarsa. Al contrario, una caratteristica densa ha valori che non sono prevalentemente zero o vuoti.

Nel machine learning, un numero sorprendente di caratteristiche sono caratteristiche sparse. Le caratteristiche categoriche sono in genere caratteristiche sparse. Ad esempio, delle 300 specie di alberi possibili in una foresta, un singolo esempio potrebbe identificare solo un acero. Oppure, tra i milioni di video possibili in una raccolta video, un singolo esempio potrebbe identificare solo "Casablanca".

In un modello, in genere le caratteristiche sparse vengono rappresentate con la codifica one-hot. Se la codifica one-hot è grande, potresti inserire un livello di incorporamento sopra la codifica one-hot per una maggiore efficienza.

rappresentazione sparsa

#fundamentals

Memorizzazione solo delle posizioni degli elementi diversi da zero in una funzionalità sparsa.

Ad esempio, supponiamo che una funzionalità categorica denominata species identifichi le 36 specie di alberi in una determinata foresta. Supponiamo inoltre che ogni esempio identifichi una sola specie.

Potresti utilizzare un vettore one-hot per rappresentare le specie di alberi in ogni esempio. Un vettore one-hot conterrebbe un singolo 1 (per rappresentare la particolare specie di albero nell'esempio) e 35 0 (per rappresentare le 35 specie di alberi non presenti nell'esempio). Pertanto, la rappresentazione one-hot di maple potrebbe avere un aspetto simile al seguente:

Un vettore in cui le posizioni da 0 a 23 contengono il valore 0, la posizione
          24 contiene il valore 1 e le posizioni da 25 a 35 contengono il valore 0.

In alternativa, la rappresentazione sparsa identificherebbe semplicemente la posizione della specie in questione. Se maple si trova nella posizione 24, la rappresentazione sparsa di maple sarà semplicemente:

24

Tieni presente che la rappresentazione sparsa è molto più compatta di quella one-hot.

Per saperne di più, consulta la sezione Lavorare con dati categorici in Machine Learning Crash Course.

vettore sparso

#fundamentals

Un vettore i cui valori sono per lo più zeri. Vedi anche funzionalità sparse e sparsità.

perdita quadratica

#fundamentals
#Metric

Sinonimo di perdita L2.

static

#fundamentals

Qualcosa fatto una volta anziché in modo continuo. I termini statico e offline sono sinonimi. Di seguito sono riportati gli utilizzi comuni di statico e offline nel machine learning:

  • Un modello statico (o modello offline) è un modello addestrato una sola volta e poi utilizzato per un po' di tempo.
  • L'addestramento statico (o addestramento offline) è il processo di addestramento di un modello statico.
  • L'inferenza statica (o inferenza offline) è un processo in cui un modello genera un batch di previsioni alla volta.

Contrasta con dinamico.

inferenza statica

#fundamentals

Sinonimo di inferenza offline.

stazionarietà

#fundamentals

Una funzionalità i cui valori non cambiano in una o più dimensioni, in genere il tempo. Ad esempio, una caratteristica i cui valori appaiono più o meno uguali nel 2021 e nel 2023 mostra stazionarietà.

Nel mondo reale, pochissime caratteristiche mostrano stazionarietà. Anche le caratteristiche sinonimo di stabilità (come il livello del mare) cambiano nel tempo.

Contrasto con la non stazionarietà.

discesa stocastica del gradiente (SGD)

#fundamentals

Un algoritmo di discesa del gradiente in cui la dimensione del batch è pari a uno. In altre parole, SGD esegue l'addestramento su un singolo esempio scelto in modo uniforme e casuale da un set di addestramento.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

machine learning supervisionato

#fundamentals

Addestramento di un modello a partire dalle caratteristiche e dalle relative etichette. L'apprendimento supervisionato nel machine learning è analogo all'apprendimento di una materia studiando una serie di domande e le risposte corrispondenti. Dopo aver acquisito la mappatura tra domande e risposte, uno studente può fornire risposte a nuove domande (mai viste prima) sullo stesso argomento.

Confronta con il machine learning non supervisionato.

Per saperne di più, consulta la sezione Apprendimento supervisionato del corso Introduzione al machine learning.

funzionalità sintetica

#fundamentals

Una caratteristica non presente tra le caratteristiche di input, ma assemblata a partire da una o più di queste. I metodi per creare funzionalità sintetiche includono quanto segue:

  • Suddivisione in bucket di una caratteristica continua in bin di intervallo.
  • Creazione di un incrocio di caratteristiche.
  • Moltiplicando (o dividendo) un valore di una caratteristica per altri valori di caratteristiche o per se stesso. Ad esempio, se a e b sono caratteristiche di input, di seguito sono riportati alcuni esempi di caratteristiche sintetiche:
    • ab
    • a2
  • Applicazione di una funzione trascendentale a un valore della funzionalità. Ad esempio, se c è una caratteristica di input, di seguito sono riportati alcuni esempi di caratteristiche sintetiche:
    • sin(c)
    • ln(c)

Le caratteristiche create solo mediante normalizzazione o scalabilità non sono considerate caratteristiche sintetiche.

T

test loss

#fundamentals
#Metric

Una metrica che rappresenta la perdita di un modello rispetto al set di test. Quando crei un modello, in genere cerchi di ridurre al minimo la perdita del test. Questo perché una perdita dei dati di test bassa è un indicatore di qualità più forte rispetto a una perdita di addestramento bassa o una perdita di convalida bassa.

Un ampio divario tra la perdita di test e la perdita di addestramento o di convalida a volte suggerisce di aumentare il tasso di regolarizzazione.

formazione

#fundamentals

Il processo di determinazione dei parametri (pesi e bias) ideali che compongono un modello. Durante l'addestramento, un sistema legge esempi e regola gradualmente i parametri. L'addestramento utilizza ogni esempio da poche volte a miliardi di volte.

Per saperne di più, consulta la sezione Apprendimento supervisionato del corso Introduzione al machine learning.

perdita di addestramento

#fundamentals
#Metric

Una metrica che rappresenta la perdita di un modello durante una particolare iterazione di addestramento. Ad esempio, supponiamo che la funzione di perdita sia l'errore quadratico medio. Forse la perdita di addestramento (l'errore quadratico medio) per la decima iterazione è 2,2 e la perdita di addestramento per la centesima iterazione è 1,9.

Una curva di perdita traccia la perdita di addestramento rispetto al numero di iterazioni. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:

  • Una pendenza verso il basso implica che il modello sta migliorando.
  • Una pendenza verso l'alto implica che il modello sta peggiorando.
  • Una pendenza piatta implica che il modello ha raggiunto la convergenza.

Ad esempio, la seguente curva di perdita un po' idealizzata mostra:

  • Una pendenza ripida verso il basso durante le iterazioni iniziali, il che implica un rapido miglioramento del modello.
  • Una pendenza che si appiattisce gradualmente (ma sempre verso il basso) fino quasi alla fine dell'addestramento, il che implica un miglioramento continuo del modello a un ritmo un po' più lento rispetto alle iterazioni iniziali.
  • Una pendenza piatta verso la fine dell'addestramento, che suggerisce la convergenza.

Il grafico della perdita di addestramento rispetto alle iterazioni. Questa curva di perdita inizia
     con una pendenza ripida verso il basso. La pendenza si appiattisce gradualmente finché non diventa zero.

Sebbene la perdita di addestramento sia importante, consulta anche la generalizzazione.

disallineamento addestramento/produzione

#fundamentals

La differenza tra il rendimento di un modello durante l'addestramento e quello dello stesso modello durante la produzione.

training set

#fundamentals

Il sottoinsieme del set di dati utilizzato per addestrare un modello.

Tradizionalmente, gli esempi nel set di dati sono suddivisi nei seguenti tre sottoinsiemi distinti:

Idealmente, ogni esempio nel set di dati dovrebbe appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di convalida.

Per saperne di più, consulta la sezione Set di dati: divisione del set di dati originale in Machine Learning Crash Course.

vero negativo (VN)

#fundamentals
#Metric

Un esempio in cui il modello prevede correttamente la classe negativa. Ad esempio, il modello deduce che un determinato messaggio email non è spam e in effetti non lo è.

vero positivo (VP)

#fundamentals
#Metric

Un esempio in cui il modello prevede correttamente la classe positiva. Ad esempio, il modello deduce che un determinato messaggio email è spam e questo messaggio email è effettivamente spam.

tasso di veri positivi (TVP)

#fundamentals
#Metric

Sinonimo di richiamo. Ossia:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

La percentuale di veri positivi è l'asse Y di una curva ROC.

U

underfitting

#fundamentals

Produzione di un modello con scarsa capacità predittiva perché il modello non ha acquisito completamente la complessità dei dati di addestramento. Molti problemi possono causare un adattamento insufficiente, tra cui:

Per saperne di più, consulta la sezione Overfitting di Machine Learning Crash Course.

esempio senza etichetta

#fundamentals

Un esempio che contiene funzionalità, ma nessuna etichetta. Ad esempio, la tabella seguente mostra tre esempi senza etichetta di un modello di valutazione di una casa, ognuno con tre caratteristiche ma senza valore della casa:

Numero di camere Numero di bagni Età della casa
3 2 15
2 1 72
4 2 34

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni su esempi non etichettati.

Nell'apprendimento semi-supervisionato e non supervisionato, vengono utilizzati esempi non etichettati durante l'addestramento.

Confronta l'esempio senza etichetta con l'esempio con etichetta.

machine learning non supervisionato

#clustering
#fundamentals

Addestramento di un modello per trovare pattern in un set di dati, in genere un set di dati senza etichette.

L'utilizzo più comune del machine learning non supervisionato è quello di raggruppare i dati in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato può raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare un input per altri algoritmi di machine learning (ad esempio, per un servizio di consigli musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini come la prevenzione di abusi e frodi, i cluster possono aiutare le persone a comprendere meglio i dati.

Contrasto con il machine learning supervisionato.

Per saperne di più, consulta Che cos'è il machine learning? nel corso Introduction to ML.

V

convalida

#fundamentals

La valutazione iniziale della qualità di un modello. La convalida verifica la qualità delle previsioni di un modello rispetto al set di convalida.

Poiché il set di convalida è diverso dal set di addestramento, la convalida aiuta a evitare l'overfitting.

Puoi considerare la valutazione del modello rispetto al set di convalida come il primo round di test e la valutazione del modello rispetto al set di test come il secondo round di test.

perdita di convalida

#fundamentals
#Metric

Una metrica che rappresenta la perdita di un modello sul set di convalida durante una particolare iterazione dell'addestramento.

Vedi anche la curva di generalizzazione.

set di convalida

#fundamentals

Il sottoinsieme del set di dati che esegue la valutazione iniziale rispetto a un modello addestrato. In genere, valuti il modello addestrato rispetto al set di convalida più volte prima di valutare il modello rispetto al set di test.

Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

Idealmente, ogni esempio nel set di dati dovrebbe appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di convalida.

Per saperne di più, consulta la sezione Set di dati: divisione del set di dati originale in Machine Learning Crash Course.

M

peso

#fundamentals

Un valore che un modello moltiplica per un altro valore. L'addestramento è il processo di determinazione dei pesi ideali di un modello; l'inferenza è il processo di utilizzo di questi pesi appresi per fare previsioni.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

somma ponderata

#fundamentals

La somma di tutti i valori di input pertinenti moltiplicati per i pesi corrispondenti. Ad esempio, supponiamo che gli input pertinenti siano i seguenti:

valore di input peso dell'input
2 -1,3
-1 0,6
3 0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una somma ponderata è l'argomento di input di una funzione di attivazione.

Z

Normalizzazione del punteggio z

#fundamentals

Una tecnica di scalabilità che sostituisce un valore di caratteristica non elaborato con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di quella caratteristica. Ad esempio, considera una funzionalità con una media di 800 e una deviazione standard di 100. La tabella seguente mostra in che modo la normalizzazione Z-score mapperebbe il valore non elaborato al suo Z-score:

Valore non elaborato Z-score
800 0
950 +1,5
575 -2,25

Il modello di machine learning viene quindi addestrato sugli Z-score di questa funzionalità anziché sui valori non elaborati.

Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.