Questa pagina è stata tradotta dall'API Cloud Translation.

Glossario del machine learning: nozioni di base del machine learning

Questa pagina contiene i termini del glossario dei concetti fondamentali dell'ML. Per tutti i termini del glossario, fai clic qui.

A

accuracy

#fundamentals

#Metric

Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 errate avrebbe un'accuratezza pari a:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Pertanto, la formula per l'accuratezza della classificazione binaria è la seguente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dove:

TP è il numero di veri positivi (previsioni corrette).
TN è il numero di veri negativi (previsioni corrette).
FP è il numero di falsi positivi (previsioni errate).
FN è il numero di falsi negativi (previsioni errate).

Confronta e contrapponi l'accuratezza con la precisione e il richiamo.

Fai clic sull'icona per visualizzare i dettagli sull'accuratezza e sui set di dati con sbilanciamento di classe.

Sebbene sia una metrica preziosa per alcune situazioni, l'accuratezza è molto fuorviante per altre. In particolare, l'accuratezza è in genere una metrica scadente per valutare i modelli di classificazione che elaborano set di dati con squilibrio di classe.

Ad esempio, supponiamo che in una determinata città subtropicale nevichi solo 25 giorni al secolo. Poiché i giorni senza neve (la classe negativa) superano di gran lunga i giorni con neve (la classe positiva), il set di dati sulla neve per questa città è sbilanciato. Immagina un modello di classificazione binaria che dovrebbe prevedere se nevicherà o meno ogni giorno, ma prevede semplicemente "no neve" ogni giorno. Questo modello è molto preciso, ma non ha potere predittivo. La tabella seguente riassume i risultati per un secolo di previsioni:

Categoria	Numero
VP	0
TN	36499
FP	0
FN	25

L'accuratezza di questo modello è quindi:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Sebbene un'accuratezza del 99,93% sembri una percentuale molto impressionante, il modello in realtà non ha capacità predittiva.

Precisione e richiamo sono in genere metriche più utili rispetto all'accuratezza per valutare i modelli addestrati su set di dati con classi sbilanciate.

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.

funzione di attivazione

#fundamentals

Una funzione che consente alle reti neurali di apprendere relazioni non lineari (complesse) tra le caratteristiche e l'etichetta.

Le funzioni di attivazione più comuni includono:

ReLU
Sigmoide

I grafici delle funzioni di attivazione non sono mai singole linee rette. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:

Un grafico cartesiano di due linee. La prima linea ha un valore y costante pari a 0 e si estende lungo l'asse x da -infinity,0 a 0,-0.
La seconda riga inizia da 0,0. Questa retta ha una pendenza di +1, quindi
va da 0,0 a +infinito,+infinito.

Un grafico della funzione di attivazione sigmoidea è il seguente:

Un grafico curvo bidimensionale con valori x che coprono il dominio
da -infinito a +positivo, mentre i valori y coprono l'intervallo da quasi 0 a
quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre
positiva, con la pendenza più alta a 0,0,5 e pendenze che diminuiscono gradualmente
all'aumentare del valore assoluto di x.

Fai clic sull'icona per visualizzare un esempio.

In una rete neurale, le funzioni di attivazione manipolano la somma ponderata di tutti gli input di un neurone. Per calcolare una somma ponderata, il neurone somma i prodotti dei valori e dei pesi pertinenti. Ad esempio, supponiamo che l'input pertinente a un neurone sia costituito da:

valore di input	peso dell'input
2	-1,3
-1	0,6
3	0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supponiamo che il progettista di questa rete neurale scelga la funzione sigmoide come funzione di attivazione. In questo caso, il neurone calcola la sigmoide di -2,0, che è circa 0,12. Pertanto, il neurone passa 0,12 (anziché -2,0) al livello successivo della rete neurale. La figura seguente illustra la parte pertinente della procedura:

Per saperne di più, consulta Reti neurali: funzioni di attivazione in Machine Learning Crash Course.

intelligenza artificiale

#fundamentals

Un programma o un modello non umano in grado di risolvere attività complesse. Ad esempio, un programma o un modello che traduce il testo o un programma o un modello che identifica le malattie dalle immagini radiologiche mostrano entrambi intelligenza artificiale.

Formalmente, il machine learning è un sottocampo dell'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.

AUC (area sotto la curva ROC)

#fundamentals

#Metric

Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicino a 1,0, migliore è la capacità del modello di separare le classi tra loro.

Ad esempio, la seguente illustrazione mostra un modello di classificazione che separa perfettamente le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello perfetto in modo non realistico ha un'AUC pari a 1,0:

Una retta numerica con 8 esempi positivi da un lato e
9 esempi negativi dall'altro.

Al contrario, la seguente illustrazione mostra i risultati per un modello di classificazione che ha generato risultati casuali. Questo modello ha un AUC di 0,5:

Una retta numerica con 6 esempi positivi e 6 esempi negativi.
La sequenza di esempi è positiva, negativa,
positiva, negativa, positiva, negativa, positiva, negativa, positiva
negativa, positiva, negativa.

Sì, il modello precedente ha un'AUC di 0,5, non di 0.

La maggior parte dei modelli si trova a metà strada tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi dai negativi e pertanto ha un'AUC compresa tra 0,5 e 1,0:

Una retta numerica con 6 esempi positivi e 6 esempi negativi.
La sequenza di esempi è negativo, negativo, negativo, negativo,
positivo, negativo, positivo, positivo, negativo, positivo, positivo,
positivo.

L'AUC ignora qualsiasi valore impostato per la soglia di classificazione. L'AUC, invece, prende in considerazione tutte le possibili soglie di classificazione.

Fai clic sull'icona per scoprire la relazione tra le curve AUC e ROC.

L'AUC rappresenta l'area sotto una curva ROC. Ad esempio, la curva ROC per un modello che separa perfettamente i positivi dai negativi ha il seguente aspetto:

L'AUC è l'area della regione grigia nell'illustrazione precedente. In questo caso insolito, l'area è semplicemente la lunghezza della regione grigia (1.0) moltiplicata per la larghezza della regione grigia (1.0). Pertanto, il prodotto di 1,0 e 1,0 produce un AUC pari esattamente a 1,0, che è il punteggio AUC più alto possibile.

Al contrario, la curva ROC per un modello di classificazione che non riesce a separare le classi è la seguente. L'area di questa regione grigia è 0,5.

Una curva ROC più tipica ha un aspetto simile al seguente:

Calcolare manualmente l'area sotto questa curva sarebbe un'operazione laboriosa, motivo per cui in genere un programma calcola la maggior parte dei valori AUC.

Fai clic sull'icona per una definizione più formale di AUC.

L'AUC è la probabilità che un modello di classificazione sia più sicuro che un esempio positivo scelto a caso sia effettivamente positivo rispetto a un esempio negativo scelto a caso.

Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.

B

backpropagation

#fundamentals

L'algoritmo che implementa la discesa del gradiente nelle reti neurali.

L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:

Durante la propagazione in avanti, il sistema elabora un batch di esempi per generare una o più previsioni. Il sistema confronta ogni previsione con ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite per tutti gli esempi per calcolare la perdita totale per il batch corrente.
Durante il passaggio all'indietro (backpropagation), il sistema riduce la perdita modificando i pesi di tutti i neuroni in tutti gli strati nascosti.

Le reti neurali spesso contengono molti neuroni in molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione determina se aumentare o diminuire i pesi applicati a particolari neuroni.

Il tasso di apprendimento è un moltiplicatore che controlla il grado in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenterà o diminuirà ogni peso più di un tasso di apprendimento basso.

In termini di calcolo, la retropropagazione implementa la regola della catena del calcolo. ovvero la retropropagazione calcola la derivata parziale dell'errore rispetto a ogni parametro.

Anni fa, i professionisti del machine learning dovevano scrivere codice per implementare la retropropagazione. Le moderne API ML come Keras ora implementano la backpropagation per te. Finalmente.

Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.

batch

#fundamentals

L'insieme di esempi utilizzati in un'iterazione di addestramento. La dimensione del batch determina il numero di esempi in un batch.

Consulta la sezione Epoca per una spiegazione della relazione tra un batch e un'epoca.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

dimensione del batch

#fundamentals

Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.

Di seguito sono riportate le strategie più comuni per le dimensioni del batch:

Discesa stocastica del gradiente (SGD), in cui la dimensione del batch è 1.
Batch completo, in cui la dimensione del batch è il numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch sarà di un milione di esempi. Il caricamento completo del batch è in genere una strategia inefficiente.
Mini-batch in cui la dimensione del batch è generalmente compresa tra 10 e 1000. Il mini-batch è in genere la strategia più efficiente.

Per ulteriori informazioni, consulta le seguenti risorse:

Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.
Guida pratica per l'ottimizzazione del deep learning.

bias (etica/equità)

#responsible

#fundamentals

1. Stereotipare, mostrare preconcetti o favoritismi verso determinate cose, persone o gruppi rispetto ad altri. Questi bias possono influire sulla raccolta e sull'interpretazione dei dati, sulla progettazione di un sistema e sul modo in cui gli utenti interagiscono con un sistema. Le forme di questo tipo di bias includono:

2. Errore sistematico introdotto da una procedura di campionamento o reporting. Le forme di questo tipo di bias includono:

Da non confondere con il termine di bias nei modelli di machine learning o con il bias di previsione.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

bias (matematica) o termine di bias

#fundamentals

Un'intercettazione o un offset da un'origine. Il bias è un parametro nei modelli di machine learning, che è simboleggiato da uno dei seguenti:

b
w₀

Ad esempio, il bias è il b nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In una semplice retta bidimensionale, il bias indica semplicemente l'intercetta sull'asse y. Ad esempio, la pendenza della retta nell'illustrazione seguente è 2.

Il grafico di una retta con pendenza 0,5 e bias (intercetta sull'asse y) pari a 2.

Il bias esiste perché non tutti i modelli iniziano dall'origine (0,0). Ad esempio, supponiamo che l'ingresso in un parco divertimenti costi 2 euro e che vengano addebitati 0,50 euro per ogni ora di permanenza di un cliente. Pertanto, un modello che mappa il costo totale ha una distorsione di 2 perché il costo più basso è di 2 euro.

Il bias non deve essere confuso con il bias in etica ed equità o con il bias di previsione.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

classificazione binaria

#fundamentals

Un tipo di attività di classificazione che prevede una delle due classi reciprocamente esclusive:

la classe positiva
la classe negativa

Ad esempio, i seguenti due modelli di machine learning eseguono ciascuno la classificazione binaria:

Un modello che determina se i messaggi email sono spam (la classe positiva) o non spam (la classe negativa).
Un modello che valuta i sintomi medici per determinare se una persona ha una determinata malattia (la classe positiva) o non ha quella malattia (la classe negativa).

Contrasta con la classificazione multiclasse.

Vedi anche regressione logistica e soglia di classificazione.

Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.

il bucketing

#fundamentals

Conversione di una singola caratteristica in più caratteristiche binarie chiamate bucket o bin, in genere in base a un intervallo di valori. La caratteristica troncata è in genere una caratteristica continua.

Ad esempio, anziché rappresentare la temperatura come una singola caratteristica continua in virgola mobile, potresti dividere gli intervalli di temperatura in bucket discreti, ad esempio:

<= 10 gradi Celsius corrisponde al bucket "freddo".
11-24 gradi Celsius rientrano nella categoria "temperato".
>= 25 gradi Celsius sarebbe il bucket "caldo".

Il modello tratterà ogni valore nello stesso bucket in modo identico. Ad esempio, i valori 13 e 22 si trovano entrambi nel bucket temperato, quindi il modello tratta i due valori in modo identico.

Fai clic sull'icona per ulteriori note.

Se rappresenti la temperatura come una funzionalità continua, il modello la considera come una singola funzionalità. Se rappresenti la temperatura come tre bucket, il modello tratta ogni bucket come una funzionalità separata. ovvero un modello può apprendere relazioni separate di ogni bucket con l'etichetta. Ad esempio, un modello di regressione lineare può apprendere pesi separati per ogni bucket.

Aumentando il numero di bucket, il modello diventa più complesso perché aumenta il numero di relazioni che deve apprendere. Ad esempio, i bucket freddo, temperato e caldo sono essenzialmente tre funzionalità separate su cui addestrare il modello. Se decidi di aggiungere altri due bucket, ad esempio per il freddo e il caldo, il modello dovrà ora essere addestrato su cinque funzionalità separate.

Come fai a sapere quanti bucket creare o quali devono essere gli intervalli per ciascun bucket? Le risposte in genere richiedono una buona dose di sperimentazione.

Per saperne di più, consulta Dati numerici: Binning in Machine Learning Crash Course.

C

dati categorici

#fundamentals

Caratteristiche con un insieme specifico di valori possibili. Ad esempio, considera una funzionalità categorica denominata traffic-light-state, che può avere solo uno dei seguenti tre valori possibili:

red
yellow
green

Rappresentando traffic-light-state come una caratteristica categorica, un modello può apprendere i diversi impatti di red, green e yellow sul comportamento del conducente.

Le caratteristiche categoriche sono a volte chiamate caratteristiche discrete.

Contrasto con i dati numerici.

Per saperne di più, consulta la sezione Lavorare con dati categorici di Machine Learning Crash Course.

classe

#fundamentals

Una categoria a cui può appartenere un'etichetta. Ad esempio:

In un modello di classificazione binaria che rileva lo spam, le due classi potrebbero essere spam e non spam.
In un modello di classificazione multi-classe che identifica le razze di cani, le classi potrebbero essere barboncino, beagle, carlino e così via.

Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero anziché una classe.

Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.

modello di classificazione

#fundamentals

Un modello la cui previsione è una classe. Ad esempio, i seguenti sono tutti modelli di classificazione:

Un modello che prevede la lingua di una frase di input (francese? Spagnolo? ?).
Un modello che prevede le specie di alberi (acero? Quercia? Baobab?).
Un modello che prevede la classe positiva o negativa per una particolare condizione medica.

Al contrario, i modelli di regressione prevedono numeri anziché classi.

Due tipi comuni di modelli di classificazione sono:

classificazione binaria
Classificazione multiclasse

soglia di classificazione

#fundamentals

In una classificazione binaria, un numero compreso tra 0 e 1 che converte l'output non elaborato di un modello di regressione logistica in una previsione della classe positiva o della classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non un valore scelto dall'addestramento del modello.

Un modello di regressione logistica restituisce un valore grezzo compreso tra 0 e 1. Quindi:

Se questo valore grezzo è maggiore della soglia di classificazione, viene prevista la classe positiva.
Se questo valore grezzo è inferiore alla soglia di classificazione, viene prevista la classe negativa.

Ad esempio, supponiamo che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.

La scelta della soglia di classificazione influisce notevolmente sul numero di falsi positivi e falsi negativi.

Fai clic sull'icona per ulteriori note.

Man mano che i modelli o i set di dati si evolvono, a volte gli ingegneri modificano anche la soglia di classificazione. Quando la soglia di classificazione cambia, le previsioni della classe positiva possono improvvisamente diventare classi negative e viceversa.

Ad esempio, considera un modello di previsione di malattie di classificazione binaria. Supponiamo che quando il sistema viene eseguito nel primo anno:

Il valore grezzo per un determinato paziente è 0,95.
La soglia di classificazione è 0,94.

Pertanto, il sistema diagnostica la classe positiva. (Il paziente ansima, "Oh no! Non mi sento bene.")

Un anno dopo, forse i valori sono i seguenti:

Il valore grezzo per lo stesso paziente rimane a 0,95.
La soglia di classificazione cambia in 0,97.

Pertanto, il sistema ora riclassifica il paziente come classe negativa. ("Happy day! Non sono malato.") Stesso paziente. Diagnosi diversa.

Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.

classificatore

#fundamentals

Un termine informale per un modello di classificazione.

set di dati sbilanciato per classe

#fundamentals

Un set di dati per una classificazione in cui il numero totale di etichette di ogni classe differisce in modo significativo. Ad esempio, considera un set di dati di classificazione binaria le cui due etichette sono suddivise come segue:

1.000.000 di etichette negative
10 etichette positive

Il rapporto tra etichette negative e positive è di 100.000 a 1, quindi si tratta di un set di dati con classi sbilanciate.

Al contrario, il seguente set di dati è bilanciato per classe perché il rapporto tra etichette negative ed etichette positive è relativamente vicino a 1:

517 etichette negative
483 etichette positive

I set di dati multiclasse possono anche essere sbilanciati. Ad esempio, il seguente set di dati di classificazione multiclasse è anche sbilanciato perché un'etichetta ha molti più esempi rispetto alle altre due:

1.000.000 di etichette con la classe "verde"
200 etichette con la classe "viola"
350 etichette con la classe "arancione"

L'addestramento di set di dati con classi sbilanciate può presentare sfide particolari. Per maggiori dettagli, consulta Dataset sbilanciati in Machine Learning Crash Course.

Vedi anche entropia, classe maggioritaria e classe minoritaria.

clipping

#fundamentals

Una tecnica per gestire gli outlier eseguendo una o entrambe le seguenti operazioni:

Riduzione dei valori della funzionalità superiori a una soglia massima fino a tale soglia.
Aumentando i valori delle funzionalità inferiori a una soglia minima fino a quella soglia minima.

Ad esempio, supponiamo che meno dello 0,5% dei valori di una determinata caratteristica rientri al di fuori dell'intervallo 40-60. In questo caso, puoi procedere nel seguente modo:

Tronca tutti i valori superiori a 60 (la soglia massima) in modo che siano esattamente 60.
Taglia tutti i valori inferiori a 40 (la soglia minima) in modo che siano esattamente 40.

Gli outlier possono danneggiare i modelli, a volte causando l'overflow dei pesi�� durante l'addestramento. Alcuni valori anomali possono anche rovinare drasticamente metriche come l'accuratezza. Il clipping è una tecnica comune per limitare i danni.

Il taglio del gradiente forza i valori del gradiente all'interno di un intervallo designato durante l'addestramento.

Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.

matrice di confusione

#fundamentals

Una tabella NxN che riassume il numero di previsioni corrette e errate effettuate da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione binaria:

	Tumore (previsto)	Non tumorale (previsto)
Tumore (dati di fatto)	18 (VP)	1 (FN)
Non-Tumor (ground truth)	6 (FP)	452 (TN)

La matrice di confusione precedente mostra quanto segue:

Delle 19 previsioni in cui la verità di base era Tumore, il modello ne ha classificate correttamente 18 e in modo errato 1.
Delle 458 previsioni in cui la verità di base era Non-Tumor, il modello ne ha classificate correttamente 452 e in modo errato 6.

La matrice di confusione per un problema di classificazione multiclasse può aiutarti a identificare i pattern di errori. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione multiclasse a 3 classi che classifica tre diversi tipi di iris (Virginica, Versicolor e Setosa). Quando i dati empirici reali erano Virginica, la matrice di confusione mostra che il modello aveva molte più probabilità di prevedere erroneamente Versicolor rispetto a Setosa:

	Setosa (previsto)	Versicolor (previsto)	Virginica (previsto)
Setosa (dati di fatto)	88	12	0
Versicolor (dati di fatto)	6	141	7
Virginica (dati empirici reali)	2	27	109

Come altro esempio, una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere le cifre scritte a mano tende a prevedere erroneamente 9 anziché 4 o 1 anziché 7.

Le matrici di confusione contengono informazioni sufficienti per calcolare una varietà di metriche di rendimento, tra cui precisione e richiamo.

funzionalità continua

#fundamentals

Una caratteristica in virgola mobile con un intervallo infinito di valori possibili, come temperatura o peso.

Contrasto con la funzionalità discreta.

convergenza

#fundamentals

Uno stato raggiunto quando i valori di perdita cambiano molto poco o non cambiano affatto a ogni iterazione. Ad esempio, la seguente curva di perdita suggerisce la convergenza dopo circa 700 iterazioni:

Grafico cartesiano. L'asse X è perso. L'asse Y indica il numero di iterazioni di addestramento. La perdita è molto elevata durante le prime iterazioni, ma
diminuisce bruscamente. Dopo circa 100 iterazioni, la perdita continua a diminuire, ma in modo molto più graduale. Dopo circa 700 iterazioni,
la perdita rimane invariata.

Un modello converge quando un ulteriore addestramento non lo migliora.

Nel deep learning, i valori di perdita a volte rimangono costanti o quasi per molte iterazioni prima di diminuire. Durante un lungo periodo di valori di perdita costanti, potresti avere temporaneamente una falsa sensazione di convergenza.

Vedi anche interruzione anticipata.

Per saperne di più, consulta Convergenza del modello e curve di perdita in Machine Learning Crash Course.

D

DataFrame

#fundamentals

Un tipo di dati pandas popolare per rappresentare i set di dati in memoria.

Un DataFrame è analogo a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.

Ogni colonna di un DataFrame è strutturata come un array bidimensionale, tranne per il fatto che a ogni colonna può essere assegnato un proprio tipo di dati.

Consulta anche la pagina di riferimento di pandas.DataFrame ufficiale.

set di dati

#fundamentals

Una raccolta di dati non elaborati, comunemente (ma non esclusivamente) organizzati in uno dei seguenti formati:

un foglio di lavoro
un file in formato CSV (valori separati da virgola)

modello deep

#fundamentals

Una rete neurale contenente più di un strato nascosto.

Un modello profondo è chiamato anche rete neurale profonda.

Contrasta con il modello ampio.

caratteristica densa

#fundamentals

Una caratteristica in cui la maggior parte o tutti i valori sono diversi da zero, in genere un tensore di valori in virgola mobile. Ad esempio, il seguente tensore di 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:

Contrasto con la funzionalità sparsa.

profondità

#fundamentals

La somma di quanto segue in una rete neurale:

il numero di livelli nascosti
il numero di livelli di output, in genere 1
il numero di eventuali strati di embedding

Ad esempio, una rete neurale con cinque strati nascosti e uno strato di output ha una profondità di 6.

Tieni presente che il livello di input non influisce sulla profondità.

funzionalità discreta

#fundamentals

Una caratteristica con un insieme finito di valori possibili. Ad esempio, una caratteristica i cui valori possono essere solo animale, vegetale o minerale è una caratteristica discreta (o categorica).

Contrasto con la caratteristica continua.

dinamico

#fundamentals

Qualcosa che viene fatto spesso o in modo continuo. I termini dinamico e online sono sinonimi nel machine learning. Di seguito sono riportati gli utilizzi comuni di dinamico e online nel machine learning:

Un modello dinamico (o modello online) è un modello che viene riaddestrato di frequente o continuamente.
L'addestramento dinamico (o addestramento online) è il processo di addestramento frequente o continuo.
L'inferenza dinamica (o inferenza online) è il processo di generazione di previsioni on demand.

modello dinamico

#fundamentals

Un modello che viene riaddestrato frequentemente (forse anche in modo continuo). Un modello dinamico è un "apprendista permanente" che si adatta costantemente all'evoluzione dei dati. Un modello dinamico è noto anche come modello online.

Contrasto con il modello statico.

E

interruzione anticipata

#fundamentals

Un metodo di regolarizzazione che prevede di terminare l'addestramento prima che la perdita di addestramento finisca di diminuire. Nell'interruzione anticipata, l'addestramento del modello viene interrotto intenzionalmente quando la perdita su un set di dati di convalida inizia ad aumentare, ovvero quando le prestazioni di generalizzazione peggiorano.

Fai clic sull'icona per ulteriori note.

L'interruzione anticipata può sembrare controintuitiva. Dopo tutto, dire a un modello di interrompere l'addestramento mentre la perdita è ancora in diminuzione può sembrare come dire a uno chef di smettere di cucinare prima che il dolce sia completamente cotto. Tuttavia, addestrare un modello per troppo tempo può portare a un overfitting. ovvero, se addestri un modello troppo a lungo, il modello potrebbe adattarsi così bene ai dati di addestramento che non fa buone previsioni su nuovi esempi.

In contrasto con l'uscita anticipata.

strato di embedding

#fundamentals

Uno speciale livello nascosto che viene addestrato su una caratteristica categorica ad alta dimensionalità per apprendere gradualmente un vettore di incorporamento a dimensionalità inferiore. Un livello di incorporamento consente a una rete neurale di eseguire l'addestramento in modo molto più efficiente rispetto all'addestramento basato solo sulla caratteristica categorica ad alta dimensionalità.

Ad esempio, attualmente Earth supporta circa 73.000 specie di alberi. Supponiamo che la specie di albero sia una caratteristica del tuo modello, quindi il livello di input del modello include un vettore one-hot lungo 73.000 elementi. Ad esempio, forse baobab potrebbe essere rappresentato in questo modo:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore
0. L'elemento successivo contiene il valore 1. Gli ultimi 66.767 elementi contengono
il valore zero.

Un array di 73.000 elementi è molto lungo. Se non aggiungi un livello di incorporamento al modello, l'addestramento richiederà molto tempo a causa della moltiplicazione di 72.999 zeri. Forse scegli che lo strato di incorporamento sia composto da 12 dimensioni. Di conseguenza, il livello di incorporamento imparerà gradualmente un nuovo vettore di incorporamento per ogni specie di albero.

In alcune situazioni, l'hashing è un'alternativa ragionevole a un livello di incorporamento.

Per saperne di più, consulta la sezione Incorporamenti di Machine Learning Crash Course.

periodo

#fundamentals

Un passaggio di addestramento completo sull'intero set di addestramento in modo che ogni esempio sia stato elaborato una volta.

Un'epoca rappresenta N/dimensione batch iterazioni di addestramento, dove N è il numero totale di esempi.

Ad esempio, supponiamo quanto segue:

Il set di dati è composto da 1000 esempi.
La dimensione del batch è di 50 esempi.

Pertanto, una singola epoca richiede 20 iterazioni:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

esempio

#fundamentals

I valori di una riga di caratteristiche ed eventualmente un'etichetta. Gli esempi di apprendimento supervisionato rientrano in due categorie generali:

Un esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Gli esempi etichettati vengono utilizzati durante l'addestramento.
Un esempio senza etichetta è costituito da una o più funzionalità, ma nessuna etichetta. Gli esempi senza etichetta vengono utilizzati durante l'inferenza.

Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. Ecco tre esempi etichettati:

Funzionalità			Etichetta
Temperatura	Umidità	Pressione	Punteggio del test
15	47	998	Buono
19	34	1020	Eccellente
18	92	1012	Scadente

Ecco tre esempi senza etichetta:

Temperatura	Umidità	Pressione
12	62	1014
21	47	1017
19	41	1021

La riga di un set di dati è in genere l'origine non elaborata di un esempio. ovvero un sottoinsieme delle colonne del set di dati. Inoltre, le caratteristiche di un esempio possono includere anche caratteristiche sintetiche, come incroci di caratteristiche.

Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

V

falso negativo (FN)

#fundamentals

#Metric

Un esempio in cui il modello prevede erroneamente la classe negativa. Ad esempio, il modello prevede che un determinato messaggio email non sia spam (la classe negativa), ma che in realtà sia spam.

falso positivo (FP)

#fundamentals

#Metric

Un esempio in cui il modello prevede erroneamente la classe positiva. Ad esempio, il modello prevede che un determinato messaggio email sia spam (la classe positiva), ma che in realtà non lo sia.

Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.

percentuale di falsi positivi (FPR)

#fundamentals

#Metric

La proporzione di esempi negativi effettivi per i quali il modello ha previsto erroneamente la classe positiva. La seguente formula calcola il tasso di falsi positivi:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La percentuale di falsi positivi è l'asse x di una curva ROC.

Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.

caratteristica

#fundamentals

Una variabile di input per un modello di machine learning. Un esempio è composto da una o più funzionalità. Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. La tabella seguente mostra tre esempi, ognuno dei quali contiene tre funzionalità e un'etichetta:

Funzionalità			Etichetta
Temperatura	Umidità	Pressione	Punteggio del test
15	47	998	92
19	34	1020	84
18	92	1012	87

Contrasto con l'etichetta.

Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

incrocio di caratteristiche

#fundamentals

Una caratteristica sintetica formata "incrociando" caratteristiche categoriche o raggruppate.

Ad esempio, considera un modello di "previsione dell'umore" che rappresenta la temperatura in uno dei seguenti quattro bucket:

freezing
chilly
temperate
warm

e rappresenta la velocità del vento in uno dei seguenti tre bucket:

still
light
windy

Senza incroci di caratteristiche, il modello lineare viene addestrato in modo indipendente su ciascuno dei sette bucket precedenti. Pertanto, il modello viene addestrato, ad esempio, su freezing indipendentemente dall'addestramento su, ad esempio, windy.

In alternativa, potresti creare un incrocio di caratteristiche di temperatura e velocità del vento. Questa funzionalità sintetica avrebbe i seguenti 12 valori possibili:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Grazie agli incroci di caratteristiche, il modello può apprendere le differenze di umore tra un giorno freezing-windy e un giorno freezing-still.

Se crei una caratteristica sintetica da due caratteristiche che hanno molte bucket diversi, l'incrocio di caratteristiche risultante avrà un numero enorme di combinazioni possibili. Ad esempio, se una funzionalità ha 1000 bucket e l'altra ne ha 2000, il cross di funzionalità risultante ha 2.000.000 di bucket.

Formalmente, un incrocio è un prodotto cartesiano.

I cross di caratteristiche vengono utilizzati principalmente con i modelli lineari e raramente con le reti neurali.

Per saperne di più, consulta Dati categorici: combinazioni di funzionalità in Machine Learning Crash Course.

e applicazione del feature engineering.

#fundamentals

#TensorFlow

Un processo che prevede i seguenti passaggi:

Determinare quali caratteristiche potrebbero essere utili per l'addestramento di un modello.
Conversione dei dati non elaborati del set di dati in versioni efficienti di queste caratteristiche.

Ad esempio, potresti determinare che temperature potrebbe essere una funzionalità utile. Poi, potresti sperimentare il raggruppamento per ottimizzare ciò che il modello può apprendere da diversi intervalli di temperature.

Il feature engineering è talvolta chiamato estrazione delle funzionalità o featurizzazione.

Fai clic sull'icona per ulteriori note su TensorFlow.

In TensorFlow, il feature engineering spesso significa convertire le voci dei file di log non elaborati in buffer di protocollo tf.Example. Vedi anche tf.Transform.

Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle caratteristiche in Machine Learning Crash Course.

set di funzionalità

#fundamentals

Il gruppo di funzionalità su cui viene addestrato il tuo modello di machine learning. Ad esempio, un semplice insieme di funzionalità per un modello che prevede i prezzi delle case potrebbe essere costituito da codice postale, dimensioni della proprietà e condizioni della proprietà.

vettore di caratteristiche

#fundamentals

L'array di valori delle funzionalità che compongono un esempio. Il vettore delle caratteristiche viene inserito durante l'addestramento e durante l'inferenza. Ad esempio, il vettore delle caratteristiche per un modello con due caratteristiche discrete potrebbe essere:

[0.92, 0.56]

Quattro livelli: uno di input, due nascosti e uno di output.
Lo strato di input contiene due nodi, uno con il valore
0,92 e l'altro con il valore 0,56.

Ogni esempio fornisce valori diversi per il vettore delle caratteristiche, quindi il vettore delle caratteristiche per l'esempio successivo potrebbe essere simile a questo:

[0.73, 0.49]

Il feature engineering determina come rappresentare le caratteristiche nel vettore di caratteristiche. Ad esempio, una caratteristica categorica binaria con cinque valori possibili potrebbe essere rappresentata con codifica one-hot. In questo caso, la porzione del vettore delle caratteristiche per un particolare esempio sarebbe costituita da quattro zeri e un singolo 1.0 nella terza posizione, come segue:

[0.0, 0.0, 1.0, 0.0, 0.0]

Come altro esempio, supponiamo che il tuo modello sia composto da tre funzionalità:

una caratteristica categorica binaria con cinque valori possibili rappresentati con la codifica one-hot; ad esempio: [0.0, 1.0, 0.0, 0.0, 0.0]
un'altra caratteristica categorica binaria con tre valori possibili rappresentati con la codifica one-hot; ad esempio: [0.0, 0.0, 1.0]
una funzionalità in virgola mobile, ad esempio 8.3.

In questo caso, il vettore delle caratteristiche per ogni esempio sarebbe rappresentato da nove valori. Dati i valori di esempio nell'elenco precedente, il vettore delle funzionalità sarebbe:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle caratteristiche in Machine Learning Crash Course.

ciclo di feedback

#fundamentals

Nel machine learning, una situazione in cui le previsioni di un modello influenzano i dati di addestramento per lo stesso modello o per un altro modello. Ad esempio, un modello che consiglia film influenzerà i film che le persone vedono, il che influenzerà a sua volta i modelli di consigli sui film successivi.

Per saperne di più, consulta Sistemi ML di produzione: domande da porre in Machine Learning Crash Course.

G

generalizzazione

#fundamentals

La capacità di un modello di fare previsioni corrette su dati nuovi e mai visti prima. Un modello in grado di generalizzare è l'opposto di un modello che è overfitting.

Fai clic sull'icona per ulteriori note.

Addestra un modello sugli esempi nel set di addestramento. Di conseguenza, il modello apprende le peculiarità dei dati nel set di addestramento. La generalizzazione si chiede essenzialmente se il modello può fare buone previsioni su esempi che non sono nel set di addestramento.

Per favorire la generalizzazione, la regolarizzazione aiuta un modello ad addestrarsi in modo meno preciso sulle peculiarità dei dati nel set di addestramento.

Per saperne di più, consulta la sezione Generalizzazione di Machine Learning Crash Course.

curva di generalizzazione

#fundamentals

Un grafico della perdita di addestramento e della perdita di convalida in funzione del numero di iterazioni.

Una curva di generalizzazione può aiutarti a rilevare un possibile overfitting. Ad esempio, la seguente curva di generalizzazione suggerisce un overfitting perché la perdita di convalida alla fine diventa significativamente superiore alla perdita di addestramento.

Un grafico cartesiano in cui l'asse Y è etichettato come perdita e l'asse X
è etichettato come iterazioni. Vengono visualizzati due grafici. Un grafico mostra la
perdita di addestramento e l'altro la perdita di convalida.
I due grafici iniziano in modo simile, ma la perdita di addestramento alla fine
scende molto più in basso della perdita di convalida.

Per saperne di più, consulta la sezione Generalizzazione di Machine Learning Crash Course.

discesa del gradiente

#fundamentals

Una tecnica matematica per ridurre al minimo la perdita. La discesa del gradiente regola in modo iterativo pesi e bias, trovando gradualmente la combinazione migliore per ridurre al minimo la perdita.

La discesa del gradiente è più vecchia, molto più vecchia, del machine learning.

Per saperne di più, consulta Regressione lineare: discesa del gradiente in Machine Learning Crash Course.

dati di fatto

#fundamentals

Realtà.

La cosa che è effettivamente accaduta.

Ad esempio, considera un modello di classificazione binaria che prevede se uno studente al primo anno di università si laureerà entro sei anni. I dati di riferimento per questo modello sono se lo studente si è effettivamente laureato entro sei anni.

Fai clic sull'icona per ulteriori note.

Valutiamo la qualità del modello rispetto ai dati di fatto. Tuttavia, il dato di fatto non è sempre completamente veritiero. Ad esempio, considera i seguenti esempi di potenziali imperfezioni nei dati empirici reali:

Nell'esempio del diploma, siamo sicuri che i registri dei diplomi di ogni studente siano sempre corretti? Il sistema di registrazione dell'università è impeccabile?
Supponiamo che l'etichetta sia un valore in virgola mobile misurato da strumenti (ad esempio, barometri). Come possiamo assicurarci che ogni strumento sia calibrato in modo identico o che ogni lettura sia stata eseguita nelle stesse circostanze?
Se l'etichetta è una questione di opinione umana, come possiamo assicurarci che ogni revisore valuti gli eventi nello stesso modo? Per migliorare la coerenza, a volte intervengono valutatori umani esperti.

H

strato nascosto

#fundamentals

Un livello in una rete neurale tra il livello di input (le funzionalità) e il livello di output (la previsione). Ogni livello nascosto è costituito da uno o più neuroni. Ad esempio, la seguente rete neurale contiene due strati nascosti, il primo con tre neuroni e il secondo con due neuroni:

Una rete neurale profonda contiene più di uno strato nascosto. Ad esempio, l'illustrazione precedente è una rete neurale profonda perché il modello contiene due livelli nascosti.

Per saperne di più, consulta Reti neurali: nodi e livelli nascosti in Machine Learning Crash Course.

iperparametro

#fundamentals

Le variabili che tu o un servizio di ottimizzazione degli iperparametri regolate durante le esecuzioni successive dell'addestramento di un modello. Ad esempio, il tasso di apprendimento è un iperparametro. Potresti impostare il tasso di apprendimento su 0,01 prima di una sessione di addestramento. Se determini che 0,01 è troppo alto, potresti impostare il tasso di apprendimento su 0,003 per la sessione di addestramento successiva.

Al contrario, i parametri sono i vari pesi e bias che il modello apprende durante l'addestramento.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

I

indipendenti e identicamente distribuiti (i.i.d.)

#fundamentals

Dati estratti da una distribuzione che non cambia e in cui ogni valore estratto non dipende dai valori estratti in precedenza. Una distribuzione i.i.d. è il gas ideale del machine learning, un costrutto matematico utile ma quasi mai trovato esattamente nel mondo reale. Ad esempio, la distribuzione dei visitatori di una pagina web potrebbe essere i.i.d. in un breve periodo di tempo, ovvero la distribuzione non cambia durante questo breve periodo e la visita di una persona è generalmente indipendente da quella di un'altra. Tuttavia, se espandi questo periodo di tempo, potrebbero comparire differenze stagionali nei visitatori della pagina web.

Vedi anche non stazionarietà.

inferenza

#fundamentals

#generativeAI

Nel machine learning tradizionale, il processo di fare previsioni applicando un modello addestrato a esempi non etichettati. Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

Nei modelli linguistici di grandi dimensioni, l'inferenza è il processo di utilizzo di un modello addestrato per generare una risposta a un prompt di input.

L'inferenza ha un significato leggermente diverso in statistica. Per maggiori dettagli, consulta l' articolo di Wikipedia sull'inferenza statistica.

livello di input

#fundamentals

Lo strato di una rete neurale che contiene il vettore di caratteristiche. ovvero il livello di input fornisce esempi per l'addestramento o l'inferenza. Ad esempio, il livello di input nella seguente rete neurale è costituito da due funzionalità:

Quattro strati: uno di input, due nascosti e uno di output.

interpretabilità

#fundamentals

La capacità di spiegare o presentare il ragionamento di un modello di ML in termini comprensibili per un essere umano.

La maggior parte dei modelli di regressione lineare, ad esempio, sono altamente interpretabili. Basta controllare i pesi dell'addestramento di ogni caratteristica. Anche le foreste decisionali sono altamente interpretabili. Alcuni modelli, tuttavia, richiedono una visualizzazione sofisticata per poter essere interpretati.

Puoi utilizzare lo strumento di interpretabilità dell'apprendimento (LIT) per interpretare i modelli ML.

iteration

#fundamentals

Un singolo aggiornamento dei parametri di un modello, ovvero i pesi e i bias del modello, durante l'addestramento. La dimensione del batch determina il numero di esempi che il modello elabora in una singola iterazione. Ad esempio, se la dimensione del batch è 20, il modello elabora 20 esempi prima di regolare i parametri.

Quando addestri una rete neurale, una singola iterazione prevede i seguenti due passaggi:

Un passaggio in avanti per valutare la perdita su un singolo batch.
Un passaggio all'indietro (retropropagazione) per regolare i parametri del modello in base alla perdita e al tasso di apprendimento.

Per saperne di più, consulta la sezione Discesa del gradiente in Machine Learning Crash Course.

L

Regolarizzazione L₀

#fundamentals

Un tipo di regolarizzazione che penalizza il numero totale di pesi diversi da zero in un modello. Ad esempio, un modello con 11 pesi diversi da zero verrebbe penalizzato più di un modello simile con 10 pesi diversi da zero.

La regolarizzazione L₀ viene talvolta chiamata regolarizzazione della norma L0.

Fai clic sull'icona per ulteriori note.

La regolarizzazione L₀ è generalmente impraticabile nei modelli di grandi dimensioni perché la regolarizzazione L₀ trasforma l'addestramento in un problema di ottimizzazione convesso.

Perdita L₁

#fundamentals

#Metric

Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L₁ per un batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Valore assoluto del delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ persa

La perdita L₁ è meno sensibile ai valori anomali rispetto alla perdita L₂.

L'errore assoluto medio è la perdita L₁ media per esempio.

Fai clic sull'icona per visualizzare la matematica formale.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore che il modello prevede per $y$.

Per saperne di più, consulta Regressione lineare: perdita in Machine Learning Crash Course.

Regolarizzazione L₁

#fundamentals

Un tipo di regolarizzazione che penalizza i pesi in proporzione alla somma del valore assoluto dei pesi. La regolarizzazione L₁ contribuisce a portare i pesi delle caratteristiche irrilevanti o appena rilevanti a esattamente 0. Una caratteristica con un peso pari a 0 viene effettivamente rimossa dal modello.

Contrasto con la regolarizzazione _L2.

Perdita L₂

#fundamentals

#Metric

Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L₂ per un batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Quadrato del delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ loss

A causa dell'elevazione al quadrato, la perdita L₂ amplifica l'influenza degli outlier. ovvero la perdita L₂ reagisce più fortemente alle previsioni errate rispetto alla perdita L₁. Ad esempio, la perdita L₁ per il batch precedente sarebbe 8 anziché 16. Nota che un singolo valore anomalo rappresenta 9 dei 16.

I modelli di regressione in genere utilizzano la perdita L₂ come funzione di perdita.

L'errore quadratico medio è la perdita L₂ media per esempio. Perdita quadratica è un altro nome per la perdita L₂.

Fai clic sull'icona per visualizzare la matematica formale.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore che il modello prevede per $y$.

Per saperne di più, consulta Regressione logistica: perdita e regolarizzazione in Machine Learning Crash Course.

Regolarizzazione L₂

#fundamentals

Un tipo di regolarizzazione che penalizza i pesi in proporzione alla somma dei quadrati dei pesi. La regolarizzazione L₂ contribuisce a ridurre i pesi anomali (quelli con valori positivi elevati o negativi bassi) più vicini a 0, ma non esattamente a 0. Le caratteristiche con valori molto vicini a 0 rimangono nel modello, ma non influiscono molto sulla previsione del modello.

La regolarizzazione L₂ migliora sempre la generalizzazione nei modelli lineari.

Contrasto con la regolarizzazione L₁.

Per saperne di più, consulta Overfitting: regolarizzazione L2 in Machine Learning Crash Course.

etichetta

#fundamentals

Nell'apprendimento supervisionato, la parte "risposta" o "risultato" di un esempio.

Ogni esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Ad esempio, in un set di dati per il rilevamento dello spam, l'etichetta sarebbe probabilmente "spam" o "non spam". In un set di dati sulle precipitazioni, l'etichetta potrebbe essere la quantità di pioggia caduta in un determinato periodo.

Per saperne di più, consulta Apprendimento supervisionato in Introduzione al machine learning.

esempio etichettato

#fundamentals

Un esempio che contiene una o più caratteristiche e un'etichetta. Ad esempio, la seguente tabella mostra tre esempi etichettati di un modello di valutazione di una casa, ognuno con tre funzionalità e un'etichetta:

Numero di camere	Numero di bagni	Età della casa	Prezzo della casa (etichetta)
3	2	15	$345.000
2	1	72	$179.000
4	2	34	$392.000

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni su esempi non etichettati.

Esempio con contrasto etichettato con esempi senza etichetta.

Per saperne di più, consulta Apprendimento supervisionato in Introduzione al machine learning.

lambda

#fundamentals

Sinonimo di tasso di regolarizzazione.

Lambda è un termine sovraccarico. Qui ci concentriamo sulla definizione del termine all'interno della regolarizzazione.

livello

#fundamentals

Un insieme di neuroni in una rete neurale. Di seguito sono riportati tre tipi comuni di livelli:

Il livello di input, che fornisce i valori per tutte le funzionalità.
Uno o più livelli nascosti, che trovano relazioni non lineari tra le caratteristiche e l'etichetta.
Il livello di output, che fornisce la previsione.

Ad esempio, la seguente illustrazione mostra una rete neurale con uno strato di input, due strati nascosti e uno strato di output:

Una rete neurale con uno strato di input, due strati nascosti e uno di output. Il livello di input è costituito da due caratteristiche. Il primo strato nascosto è composto da tre neuroni e il secondo da due. Lo strato di output è costituito da un singolo nodo.

In TensorFlow, i livelli sono anche funzioni Python che accettano tensori e opzioni di configurazione come input e producono altri tensori come output.

tasso di apprendimento

#fundamentals

Un numero in virgola mobile che indica all'algoritmo di discesa del gradiente con quale intensità regolare i pesi e i bias in ogni iterazione. Ad esempio, un tasso di apprendimento di 0,3 modifica i pesi e i bias tre volte più intensamente di un tasso di apprendimento di 0,1.

Il tasso di apprendimento è un iperparametro fondamentale. Se imposti il tasso di apprendimento troppo basso, l'addestramento richiederà troppo tempo. Se imposti il tasso di apprendimento troppo alto, la discesa del gradiente spesso ha difficoltà a raggiungere la convergenza.

Fai clic sull'icona per una spiegazione più matematica.

Durante ogni iterazione, l'algoritmo di discesa del gradiente moltiplica il tasso di apprendimento per il gradiente. Il prodotto risultante è chiamato passo del gradiente.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

lineare

#fundamentals

Una relazione tra due o più variabili che può essere rappresentata esclusivamente tramite addizione e moltiplicazione.

Il grafico di una relazione lineare è una retta.

Contrasto con non lineare.

modello lineare

#fundamentals

Un modello che assegna un peso per caratteristica per fare previsioni. I modelli lineari incorporano anche un bias. Al contrario, la relazione tra le caratteristiche e le previsioni nei modelli deep è generalmente non lineare.

I modelli lineari sono in genere più facili da addestrare e più interpretabili rispetto ai modelli profondi. Tuttavia, i modelli profondi possono apprendere relazioni complesse tra le caratteristiche.

La regressione lineare e la regressione logistica sono due tipi di modelli lineari.

Fai clic sull'icona per visualizzare i calcoli.

Un modello lineare segue questa formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

dove:

y' è la previsione non elaborata. In alcuni tipi di modelli lineari, questa previsione grezza verrà ulteriormente modificata. Ad esempio, vedi regressione logistica.
b è il bias.
w è una ponderazione, quindi w₁ è la ponderazione della prima funzionalità, w₂ è la ponderazione della seconda funzionalità e così via.
x è una caratteristica, quindi x₁ è il valore della prima caratteristica, x₂ è il valore della seconda caratteristica e così via.

Ad esempio, supponiamo che un modello lineare per tre caratteristiche apprenda i seguenti bias e pesi:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Pertanto, date tre caratteristiche (x₁, x₂ e x₃), il modello lineare utilizza la seguente equazione per generare ogni previsione:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Supponiamo che un particolare esempio contenga i seguenti valori:

x₁ = 4
x₂ = -10
x₃ = 5

Inserendo questi valori nella formula si ottiene una previsione per questo esempio:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

I modelli lineari includono non solo i modelli che utilizzano solo un'equazione lineare per fare previsioni, ma anche un insieme più ampio di modelli che utilizzano un'equazione lineare come unico componente della formula che fa previsioni. Ad esempio, la regressione logistica post-elabora la previsione grezza (y') per produrre un valore di previsione finale compreso tra 0 e 1, esclusivamente.

regressione lineare

#fundamentals

Un tipo di modello di machine learning in cui sono vere entrambe le seguenti affermazioni:

Il modello è un modello lineare.
La previsione è un valore in virgola mobile. (Questa è la parte di regressione della regressione lineare.)

Confronta la regressione lineare con la regressione logistica. Inoltre, metti a confronto la regressione con la classificazione.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

regressione logistica

#fundamentals

Un tipo di modello di regressione che prevede una probabilità. I modelli di regressione logistica hanno le seguenti caratteristiche:

L'etichetta è categorica. Il termine regressione logistica si riferisce in genere alla regressione logistica binaria, ovvero a un modello che calcola le probabilità per le etichette con due valori possibili. Una variante meno comune, la regressione logistica multinomiale, calcola le probabilità per le etichette con più di due valori possibili.
La funzione di perdita durante l'addestramento è Log Loss. È possibile inserire più unità Log Loss in parallelo per le etichette con più di due valori possibili.
Il modello ha un'architettura lineare, non una rete neurale profonda. Tuttavia, il resto di questa definizione si applica anche ai modelli di deep learning che prevedono probabilità per le etichette categoriche.

Ad esempio, considera un modello di regressione logistica che calcola la probabilità che un'email di input sia spam o meno. Durante l'inferenza, supponiamo che il modello preveda 0,72. Pertanto, il modello sta stimando:

Una probabilità del 72% che l'email sia spam.
Il 28% di probabilità che l'email non sia spam.

Un modello di regressione logistica utilizza la seguente architettura in due passaggi:

Il modello genera una previsione non elaborata (y') applicando una funzione lineare delle caratteristiche di input.
Il modello utilizza questa previsione non elaborata come input per una funzione sigmoide, che converte la previsione non elaborata in un valore compreso tra 0 e 1, esclusi.

Come qualsiasi modello di regressione, un modello di regressione logistica prevede un numero. Tuttavia, questo numero in genere diventa parte di un modello di classificazione binaria come segue:

Se il numero previsto è maggiore della soglia di classificazione, il modello di classificazione binaria prevede la classe positiva.
Se il numero previsto è inferiore alla soglia di classificazione, il modello di classificazione binaria prevede la classe negativa.

Per saperne di più, consulta Regressione logistica in Machine Learning Crash Course.

Log Loss

#fundamentals

La funzione di perdita utilizzata nella regressione logistica binaria.

Fai clic sull'icona per visualizzare i calcoli.

La seguente formula calcola la perdita logaritmica:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

dove:

$(x,y)\in D$ è il set di dati contenente molti esempi etichettati, che sono coppie $(x,y)$ .
$y$ è l'etichetta in un esempio etichettato. Poiché si tratta di una regressione logistica, ogni valore di $y$ deve essere 0 o 1.
$y'$ è il valore previsto (compreso tra 0 e 1, esclusi), dato l'insieme di funzionalità in $x$.

Per saperne di più, consulta Regressione logistica: perdita e regolarizzazione in Machine Learning Crash Course.

log-odds

#fundamentals

Il logaritmo delle probabilità di un evento.

Fai clic sull'icona per visualizzare i calcoli.

Se l'evento è una probabilità binaria, allora odds si riferisce al rapporto tra la probabilità di successo (p) e la probabilità di insuccesso (1-p). Ad esempio, supponiamo che un determinato evento abbia una probabilità di successo del 90% e una probabilità di errore del 10%. In questo caso, la probabilità viene calcolata come segue:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Il logit è semplicemente il logaritmo delle probabilità. Per convenzione, "logaritmo" si riferisce al logaritmo naturale, ma il logaritmo potrebbe essere qualsiasi base maggiore di 1. Attenendoci alla convenzione, il logit del nostro esempio è quindi:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

La funzione log-odds è l'inverso della funzione sigmoidea.

perdita

#fundamentals

#Metric

Durante l'addestramento di un modello supervisionato, una misura della distanza tra la previsione di un modello e la sua etichetta.

Una funzione di perdita calcola la perdita.

Per saperne di più, consulta Regressione lineare: perdita in Machine Learning Crash Course.

curva di perdita

#fundamentals

Un grafico della perdita in funzione del numero di iterazioni di addestramento. Il seguente grafico mostra una tipica curva di perdita:

Un grafico cartesiano della perdita rispetto alle iterazioni di addestramento, che mostra una
rapida diminuzione della perdita per le iterazioni iniziali, seguita da una
diminuzione graduale e poi da una pendenza piatta durante le iterazioni finali.

Le curve di perdita possono aiutarti a determinare quando il modello converge o quando si verifica l'overfitting.

Le curve di perdita possono tracciare tutti i seguenti tipi di perdita:

Perdita di addestramento
Perdita della convalida
test loss

Vedi anche la curva di generalizzazione.

Per saperne di più, consulta Overfitting: interpretare le curve di perdita in Machine Learning Crash Course.

funzione di perdita

#fundamentals

#Metric

Durante l'addestramento o il test, una funzione matematica che calcola la perdita su un batch di esempi. Una funzione di perdita restituisce una perdita inferiore per i modelli che fanno buone previsioni rispetto a quelli che fanno previsioni errate.

L'obiettivo dell'addestramento è in genere quello di ridurre al minimo la perdita restituita da una funzione di perdita.

Esistono molti tipi diversi di funzioni di perdita. Scegli la funzione di perdita appropriata per il tipo di modello che stai creando. Ad esempio:

La perdita L₂ (o errore quadratico medio) è la funzione di perdita per la regressione lineare.
Perdita logaritmica è la funzione di perdita per la regressione logistica.

M

machine learning

#fundamentals

Un programma o un sistema che addestra un modello a partire dai dati di input. Il modello addestrato può fare previsioni utili a partire da dati nuovi (mai visti prima) estratti dalla stessa distribuzione di quelli utilizzati per addestrare il modello.

Il machine learning si riferisce anche al campo di studio che si occupa di questi programmi o sistemi.

Per saperne di più, consulta il corso Introduzione al machine learning.

classe maggioritaria

#fundamentals

L'etichetta più comune in un insieme di dati con sbilanciamento di classe. Ad esempio, dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette negative sono la classe di maggioranza.

Contrasto con la classe di minoranza.

Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.

mini-batch

#fundamentals

Un piccolo sottoinsieme selezionato casualmente di un batch elaborato in una iterazione. La dimensione del batch di un mini-batch è in genere compresa tra 10 e 1000 esempi.

Ad esempio, supponiamo che l'intero set di addestramento (l'intero batch) sia composto da 1000 esempi. Supponiamo inoltre di impostare la dimensione del batch di ogni mini-batch su 20. Pertanto, ogni iterazione determina la perdita su 20 esempi casuali su 1000 e poi modifica di conseguenza i pesi e i bias.

È molto più efficiente calcolare la perdita su un mini-batch rispetto alla perdita su tutti gli esempi nel batch completo.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

classe minoritaria

#fundamentals

L'etichetta meno comune in un insieme di dati con sbilanciamento di classe. Ad esempio, dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette positive sono la classe di minoranza.

Contrasto con la classe maggioritaria.

Fai clic sull'icona per ulteriori note.

Un set di addestramento con un milione di esempi sembra impressionante. Tuttavia, se la classe minoritaria è scarsamente rappresentata, anche un set di addestramento molto grande potrebbe non essere sufficiente. Concentrati meno sul numero totale di esempi nel set di dati e più sul numero di esempi nella classe di minoranza.

Se il set di dati non contiene esempi sufficienti della classe minoritaria, valuta la possibilità di utilizzare il sottocampionamento (la definizione nel secondo punto elenco) per integrare la classe minoritaria.

Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.

modello

#fundamentals

In generale, qualsiasi costrutto matematico che elabora i dati di input e restituisce l'output. In altre parole, un modello è l'insieme di parametri e della struttura necessari a un sistema per fare previsioni. Nel machine learning supervisionato, un modello prende un esempio come input e deduce una previsione come output. Nell'ambito del machine learning supervisionato, i modelli differiscono leggermente. Ad esempio:

Un modello di regressione lineare è costituito da un insieme di pesi e da un bias.
Un modello di rete neurale è costituito da:
- Un insieme di strati nascosti, ognuno contenente uno o più neuroni.
- I pesi e il bias associati a ogni neurone.
Un modello ad albero decisionale è costituito da:
- La forma dell'albero, ovvero il pattern in cui sono collegate le condizioni e le foglie.
- Le condizioni e i permessi.

Puoi salvare, ripristinare o creare copie di un modello.

L'apprendimento automatico non supervisionato genera anche modelli, in genere una funzione che può mappare un esempio di input al cluster più appropriato.

Fai clic sull'icona per confrontare le funzioni algebriche e di programmazione con i modelli ML.

Una funzione algebrica come la seguente è un modello:

  f(x, y) = 3x -5xy + y² + 17

La funzione precedente mappa i valori di input (x e y) all'output.

Allo stesso modo, anche una funzione di programmazione come la seguente è un modello:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Un chiamante passa argomenti alla funzione Python precedente e la funzione Python genera l'output (tramite l'istruzione return).

Sebbene una rete neurale profonda abbia una struttura matematica molto diversa da una funzione algebrica o di programmazione, una rete neurale profonda accetta comunque un input (un esempio) e restituisce un output (una previsione).

Un programmatore umano codifica manualmente una funzione di programmazione. Al contrario, un modello di machine learning apprende gradualmente i parametri ottimali durante l'addestramento automatizzato.

classificazione multiclasse

#fundamentals

Nell'apprendimento supervisionato, un problema di classificazione in cui il set di dati contiene più di due classi di etichette. Ad esempio, le etichette nel set di dati Iris devono appartenere a una delle seguenti tre classi:

Iris setosa
Iris virginica
Iris versicolor

Un modello addestrato sul set di dati Iris che prevede il tipo di Iris su nuovi esempi esegue la classificazione multi-classe.

Al contrario, i problemi di classificazione che distinguono esattamente due classi sono modelli di classificazione binaria. Ad esempio, un modello di email che prevede spam o non spam è un modello di classificazione binaria.

Nei problemi di clustering, la classificazione multiclasse si riferisce a più di due cluster.

Per saperne di più, consulta la sezione Reti neurali: classificazione multiclasse di Machine Learning Crash Course.

No

classe negativa

#fundamentals

#Metric

Nella classificazione binaria, una classe è definita positiva e l'altra è definita negativa. La classe positiva è l'elemento o l'evento che il modello sta testando, mentre la classe negativa è l'altra possibilità. Ad esempio:

La classe negativa in un test medico potrebbe essere "non tumore".
La classe negativa in un modello di classificazione delle email potrebbe essere "non spam".

Contrasto con la classe positiva.

feed-forward

#fundamentals

Un modello contenente almeno un livello nascosto. Una rete neurale profonda è un tipo di rete neurale che contiene più di uno strato nascosto. Ad esempio, il seguente diagramma mostra una rete neurale profonda contenente due livelli nascosti.

Una rete neurale con uno strato di input, due strati nascosti e uno di output.

Ogni neurone di una rete neurale si connette a tutti i nodi del livello successivo. Ad esempio, nel diagramma precedente, nota che ciascuno dei tre neuroni nel primo strato nascosto si connette separatamente a entrambi i neuroni nel secondo strato nascosto.

Le reti neurali implementate sui computer sono a volte chiamate reti neurali artificiali per distinguerle dalle reti neurali presenti nel cervello e in altri sistemi nervosi.

Alcune reti neurali possono imitare relazioni non lineari estremamente complesse tra le diverse caratteristiche e l'etichetta.

Vedi anche rete neurale convoluzionale e rete neurale ricorrente.

Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.

neurone

#fundamentals

Nel machine learning, un'unità distinta all'interno di un livello nascosto di una rete neurale. Ogni neurone esegue la seguente azione in due passaggi:

Calcola la somma ponderata dei valori di input moltiplicati per i pesi corrispondenti.
Passa la somma ponderata come input a una funzione di attivazione.

Un neurone del primo strato nascosto accetta gli input dai valori delle caratteristiche nel strato di input. Un neurone in qualsiasi strato nascosto oltre il primo accetta input dai neuroni dello strato nascosto precedente. Ad esempio, un neurone del secondo strato nascosto accetta input dai neuroni del primo strato nascosto.

La seguente illustrazione mette in evidenza due neuroni e i relativi input.

Un neurone in una rete neurale imita il comportamento dei neuroni nel cervello e in altre parti del sistema nervoso.

nodo (rete neurale)

#fundamentals

Un neurone in un livello nascosto.

Per ulteriori informazioni, consulta la sezione Reti neurali di Machine Learning Crash Course.

non lineare

#fundamentals

Una relazione tra due o più variabili che non può essere rappresentata solo tramite addizione e moltiplicazione. Una relazione lineare può essere rappresentata come una linea, mentre una relazione non lineare non può essere rappresentata come una linea. Ad esempio, considera due modelli che mettono in relazione una singola caratteristica a una singola etichetta. Il modello a sinistra è lineare e quello a destra è non lineare:

Due trame. Un grafico è una linea, quindi si tratta di una relazione lineare.
L'altro grafico è una curva, quindi si tratta di una relazione non lineare.

Consulta la sezione Reti neurali: nodi e livelli nascosti del corso intensivo di machine learning per sperimentare diversi tipi di funzioni non lineari.

non stazionarietà

#fundamentals

Una funzionalità i cui valori cambiano in una o più dimensioni, in genere il tempo. Ad esempio, considera i seguenti esempi di non stazionarietà:

Il numero di costumi da bagno venduti in un determinato negozio varia a seconda della stagione.
La quantità di un determinato frutto raccolto in una regione specifica è pari a zero per gran parte dell'anno, ma elevata per un breve periodo.
A causa dei cambiamenti climatici, le temperature medie annue stanno cambiando.

Contrasto con la stazionarietà.

normalizzazione

#fundamentals

In termini generali, il processo di conversione dell'intervallo effettivo di valori di una variabile in un intervallo standard di valori, ad esempio:

Da -1 a +1
Da 0 a 1
Punteggi z (approssimativamente da -3 a +3)

Ad esempio, supponiamo che l'intervallo effettivo di valori di una determinata caratteristica sia da 800 a 2400. Nell'ambito dell'ingegneria delle funzionalità, puoi normalizzare i valori effettivi in un intervallo standard, ad esempio da -1 a +1.

La normalizzazione è un'attività comune nell'ingegneria delle funzionalità. I modelli di solito vengono addestrati più velocemente (e producono previsioni migliori) quando ogni caratteristica numerica nel vettore delle caratteristiche ha all'incirca lo stesso intervallo.

Vedi anche Normalizzazione del punteggio Z.

Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.

dati numerici

#fundamentals

Caratteristiche rappresentate come numeri interi o con valori reali. Ad esempio, un modello di valutazione di una casa rappresenterebbe probabilmente le dimensioni di una casa (in piedi quadrati o metri quadrati) come dati numerici. La rappresentazione di una caratteristica come dati numerici indica che i valori della caratteristica hanno una relazione matematica con l'etichetta. ovvero il numero di metri quadrati di una casa probabilmente ha una relazione matematica con il valore della casa.

Non tutti i dati interi devono essere rappresentati come dati numerici. Ad esempio, i codici postali in alcune parti del mondo sono numeri interi; tuttavia, i codici postali interi non devono essere rappresentati come dati numerici nei modelli. Questo perché un codice postale di 20000 non è due volte (o la metà) più efficace di un codice postale di 10000. Inoltre, anche se codici postali diversi corrispondono a valori immobiliari diversi, non possiamo presumere che i valori immobiliari del codice postale 20000 siano il doppio di quelli del codice postale 10000. I codici postali devono essere rappresentati come dati categorici.

Le caratteristiche numeriche sono a volte chiamate caratteristiche continue.

Per saperne di più, consulta la sezione Utilizzo dei dati numerici di Machine Learning Crash Course.

O

offline

#fundamentals

Sinonimo di static.

inferenza offline

#fundamentals

Il processo di generazione di un batch di previsioni da parte di un modello e il successivo salvataggio nella cache. Le app possono quindi accedere alla previsione inferita dalla cache anziché eseguire nuovamente il modello.

Ad esempio, considera un modello che genera previsioni meteo locali (previsioni) una volta ogni quattro ore. Dopo ogni esecuzione del modello, il sistema memorizza nella cache tutte le previsioni meteo locali. Le app meteo recuperano le previsioni dalla cache.

L'inferenza offline è chiamata anche inferenza statica.

Contrasto con l'inferenza online. Per saperne di più, consulta la sezione Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.

codifica one-hot

#fundamentals

Rappresentazione dei dati categorici come un vettore in cui:

Un elemento è impostato su 1.
Tutti gli altri elementi sono impostati su 0.

La codifica one-hot viene comunemente utilizzata per rappresentare stringhe o identificatori che hanno un insieme finito di valori possibili. Ad esempio, supponiamo che una determinata caratteristica categorica denominata Scandinavia abbia cinque valori possibili:

"Danimarca"
"Svezia"
"Norvegia"
"Finlandia"
"Islanda"

La codifica one-hot potrebbe rappresentare ciascuno dei cinque valori nel seguente modo:

Paese	Vettoriale
"Danimarca"	1	0	0	0	0
"Svezia"	0	1	0	0	0
"Norvegia"	0	0	1	0	0
"Finlandia"	0	0	0	1	0
"Islanda"	0	0	0	0	1

Grazie alla codifica one-hot, un modello può apprendere connessioni diverse in base a ciascuno dei cinque paesi.

La rappresentazione di una caratteristica come dati numerici è un'alternativa alla codifica one-hot. Purtroppo, rappresentare i paesi scandinavi numericamente non è una buona scelta. Ad esempio, considera la seguente rappresentazione numerica:

"Danimarca" è 0
"Svezia" è 1
"Norvegia" è 2
"Finlandia" è 3
"Iceland" è 4

Con la codifica numerica, un modello interpreterebbe i numeri grezzi matematicamente e tenterebbe di addestrarsi su questi numeri. Tuttavia, l'Islanda non è il doppio (o la metà) di qualcosa rispetto alla Norvegia, quindi il modello arriverebbe a conclusioni strane.

Per saperne di più, consulta Dati categorici: vocabolario e codifica one-hot in Machine Learning Crash Course.

one-vs.-all

#fundamentals

Dato un problema di classificazione con N classi, una soluzione costituita da N modelli di classificazione binaria separati, un modello di classificazione binaria per ogni possibile risultato. Ad esempio, dato un modello che classifica gli esempi come animale, vegetale o minerale, una soluzione uno contro tutti fornirebbe i seguenti tre modelli di classificazione binaria separati:

animale o non animale
verdura o non verdura
minerale o non minerale

online

#fundamentals

Sinonimo di dinamico.

inferenza online

#fundamentals

Generazione di previsioni on demand. Ad esempio, supponiamo che un'app passi l'input a un modello ed emetta una richiesta di previsione. Un sistema che utilizza l'inferenza online risponde alla richiesta eseguendo il modello (e restituendo la previsione all'app).

Contrasto con l'inferenza offline.

Per saperne di più, consulta la sezione Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.

livello di output

#fundamentals

Il livello "finale" di una rete neurale. Lo strato di output contiene la previsione.

La seguente illustrazione mostra una piccola rete neurale profonda con uno strato di input, due strati nascosti e uno strato di output:

overfitting

#fundamentals

Creazione di un modello che corrisponde ai dati di addestramento in modo così preciso che il modello non riesce a fare previsioni corrette su nuovi dati.

La regolarizzazione può ridurre l'overfitting. L'addestramento su un set di addestramento ampio e diversificato può anche ridurre l'overfitting.

Fai clic sull'icona per ulteriori note.

L'overfitting è come seguire rigorosamente i consigli solo del tuo insegnante preferito. Probabilmente avrai successo nella classe di quell'insegnante, ma potresti "adattarti" troppo alle sue idee e non avere successo in altre classi. Seguire i consigli di diversi insegnanti ti consentirà di adattarti meglio alle nuove situazioni.

Per saperne di più, consulta la sezione Overfitting di Machine Learning Crash Course.

P

panda

#fundamentals

Un'API per l'analisi dei dati orientata alle colonne basata su numpy. Molti framework di machine learning, tra cui TensorFlow, supportano le strutture di dati pandas come input. Per informazioni dettagliate, consulta la documentazione di pandas.

parametro

#fundamentals

Le ponderazioni e i bias che un modello apprende durante l'addestramento. Ad esempio, in un modello di regressione lineare, i parametri sono costituiti dal bias (b) e da tutti i pesi (w₁, w₂ e così via) nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Al contrario, gli iperparametri sono i valori che tu (o un servizio di ottimizzazione degli iperparametri) fornisci al modello. Ad esempio, il tasso di apprendimento è un iperparametro.

classe positiva

#fundamentals

#Metric

Il corso per cui stai eseguendo il test.

Ad esempio, la classe positiva in un modello per il cancro potrebbe essere "tumore". La classe positiva in un modello di classificazione delle email potrebbe essere "spam".

Contrasta con la classe negativa.

Fai clic sull'icona per ulteriori note.

Il termine classe positiva può essere fuorviante perché il risultato "positivo" di molti test è spesso un risultato indesiderabile. Ad esempio, la classe positiva in molti test medici corrisponde a tumori o malattie. In generale, vorresti che un medico ti dicesse: "Congratulazioni! I risultati del test sono stati negativi". In ogni caso, la classe positiva è l'evento che il test cerca di trovare.

A dire il vero, stai testando contemporaneamente le classi positive e negative.

post-elaborazione

#responsible

#fundamentals

Modifica dell'output di un modello dopo l'esecuzione. Il post-processing può essere utilizzato per applicare vincoli di equità senza modificare i modelli stessi.

Ad esempio, è possibile applicare il post-processing a un modello di classificazione binaria impostando una soglia di classificazione in modo che l'uguaglianza delle opportunità venga mantenuta per un determinato attributo verificando che il tasso di veri positivi sia lo stesso per tutti i valori di quell'attributo.

precisione

#fundamentals

#Metric

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando il modello ha previsto la classe positiva, qual è stata la percentuale di previsioni corrette?

Ecco la formula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

dove:

vero positivo significa che il modello ha previsto correttamente la classe positiva.
Un falso positivo significa che il modello ha previsto erroneamente la classe positiva.

Ad esempio, supponiamo che un modello abbia effettuato 200 previsioni positive. Delle 200 previsioni positive:

150 erano veri positivi.
50 erano falsi positivi.

In questo caso:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Contrasta con accuratezza e richiamo.

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.

previsione

#fundamentals

L'output di un modello. Ad esempio:

La previsione di un modello di classificazione binaria è la classe positiva o la classe negativa.
La previsione di un modello di classificazione multi-classe è una classe.
La previsione di un modello di regressione lineare è un numero.

proxy labels

#fundamentals

Dati utilizzati per approssimare le etichette non direttamente disponibili in un set di dati.

Ad esempio, supponiamo di dover addestrare un modello per prevedere il livello di stress dei dipendenti. Il tuo set di dati contiene molte funzionalità predittive, ma non contiene un'etichetta denominata livello di stress. Senza scoraggiarti, scegli "incidenti sul lavoro" come etichetta proxy per il livello di stress. Dopo tutto, i dipendenti sotto forte stress sono coinvolti in più incidenti rispetto a quelli tranquilli. O no? Forse gli incidenti sul lavoro aumentano e diminuiscono per diversi motivi.

Come secondo esempio, supponiamo che tu voglia che is it raining? sia un'etichetta booleana per il tuo set di dati, ma il tuo set di dati non contiene dati sulla pioggia. Se sono disponibili fotografie, potresti stabilire immagini di persone che portano ombrelli come etichetta proxy per sta piovendo? È un'etichetta proxy valida? Probabilmente, ma le persone di alcune culture potrebbero portare con sé l'ombrello più per proteggersi dal sole che dalla pioggia.

Le etichette proxy spesso non sono perfette. Se possibile, scegli etichette reali anziché etichette proxy. Detto questo, quando un'etichetta effettiva è assente, scegli l'etichetta proxy con molta attenzione, selezionando il candidato meno orribile.

Per saperne di più, consulta Set di dati: etichette in Machine Learning Crash Course.

R

RAG

#fundamentals

Abbreviazione di retrieval-augmented generation.

valutatore

#fundamentals

Una persona che fornisce etichette per gli esempi. "Annotatore" è un altro nome per valutatore.

Per saperne di più, consulta Dati categorici: problemi comuni in Machine Learning Crash Course.

richiamo

#fundamentals

#Metric

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando la verità di riferimento era la classe positiva, quale percentuale di previsioni è stata identificata correttamente dal modello come classe positiva?

Ecco la formula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

dove:

vero positivo significa che il modello ha previsto correttamente la classe positiva.
Un falso negativo significa che il modello ha previsto erroneamente la classe negativa.

Ad esempio, supponiamo che il modello abbia effettuato 200 previsioni su esempi per i quali la verità di base era la classe positiva. Di queste 200 previsioni:

180 erano veri positivi.
20 erano falsi negativi.

In questo caso:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Fai clic sull'icona per visualizzare le note sui set di dati con classi sbilanciate.

Il richiamo è particolarmente utile per determinare il potere predittivo dei modelli di classificazione in cui la classe positiva è rara. Ad esempio, considera un set di dati con sbilanciamento di classe in cui la classe positiva per una determinata malattia si verifica solo in 10 pazienti su un milione. Supponiamo che il tuo modello faccia 5 milioni di previsioni che producono i seguenti risultati:

30 veri positivi
20 falsi negativi
4.999.000 veri negativi
950 falsi positivi

Il richiamo di questo modello è quindi:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Al contrario, l'accuratezza di questo modello è:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Questo valore elevato di accuratezza sembra impressionante, ma è essenzialmente privo di significato. Il richiamo è una metrica molto più utile dell'accuratezza per i set di dati con classi sbilanciate.

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate.

Unità lineare rettificata (ReLU)

#fundamentals

Una funzione di attivazione con il seguente comportamento:

Se l'input è negativo o zero, l'output è 0.
Se l'input è positivo, l'output è uguale all'input.

Ad esempio:

Se l'input è -3, l'output è 0.
Se l'input è +3, l'output è 3.0.

Ecco un grafico della ReLU:

ReLU è una funzione di attivazione molto popolare. Nonostante il suo comportamento semplice, ReLU consente comunque a una rete neurale di apprendere relazioni non lineari tra le funzionalità e l'etichetta.

modello di regressione

#fundamentals

Informalmente, un modello che genera una previsione numerica. Al contrario, un modello di classificazione genera una previsione di classe. Ad esempio, i seguenti sono tutti modelli di regressione:

Un modello che prevede il valore di una determinata casa in euro, ad esempio 423.000.
Un modello che prevede l'aspettativa di vita di un determinato albero in anni, ad esempio 23,2.
Un modello che prevede la quantità di pioggia in centimetri che cadrà in una determinata città nelle sei ore successive, ad esempio 0,18.

Due tipi comuni di modelli di regressione sono:

Regressione lineare, che trova la linea che meglio si adatta ai valori delle etichette alle caratteristiche.
Regressione logistica, che genera una probabilità compresa tra 0.0 e 1.0 che un sistema in genere mappa a una previsione di classe.

Non tutti i modelli che restituiscono previsioni numeriche sono modelli di regressione. In alcuni casi, una previsione numerica è in realtà solo un modello di classificazione che ha nomi di classe numerici. Ad esempio, un modello che prevede un codice postale numerico è un modello di classificazione, non di regressione.

regolarizzazione

#fundamentals

Qualsiasi meccanismo che riduce l'overfitting. I tipi più comuni di regolarizzazione includono:

Regolarizzazione L₁
Regolarizzazione _L2
Regolarizzazione dropout
Interruzione anticipata (non è un metodo di regolarizzazione formale, ma può limitare efficacemente l'overfitting)

La regolarizzazione può anche essere definita come la penalità per la complessità di un modello.

Fai clic sull'icona per ulteriori note.

La regolarizzazione è controintuitiva. L'aumento della regolarizzazione di solito aumenta la perdita di addestramento, il che è strano perché, beh, l'obiettivo non è minimizzare la perdita di addestramento?

In realtà no. L'obiettivo non è minimizzare la perdita di addestramento. L'obiettivo è fare previsioni eccellenti su esempi reali. È interessante notare che, anche se l'aumento della regolarizzazione aumenta la perdita di addestramento, di solito aiuta i modelli a fare previsioni migliori sugli esempi del mondo reale.

Per saperne di più, consulta Overfitting: complessità del modello in Machine Learning Crash Course.

tasso di regolarizzazione

#fundamentals

Un numero che specifica l'importanza relativa della regolarizzazione durante l'addestramento. L'aumento del tasso di regolarizzazione riduce l'overfitting, ma potrebbe ridurre il potere predittivo del modello. Al contrario, la riduzione o l'omissione del tasso di regolarizzazione aumenta l'overfitting.

Fai clic sull'icona per visualizzare i calcoli.

Il tasso di regolarizzazione è in genere rappresentato dalla lettera greca lambda. La seguente equazione semplificata della perdita mostra l'influenza di lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

dove regolarizzazione è qualsiasi meccanismo di regolarizzazione, tra cui:

Regolarizzazione L₁
Regolarizzazione _L2

Per saperne di più, consulta Overfitting: regolarizzazione L2 in Machine Learning Crash Course.

ReLU

#fundamentals

Abbreviazione di Rectified Linear Unit.

Retrieval-augmented generation (RAG)

#fundamentals

Una tecnica per migliorare la qualità dell'output di un modello linguistico di grandi dimensioni (LLM) basandolo su fonti di conoscenza recuperate dopo l'addestramento del modello. La RAG migliora l'accuratezza delle risposte dell'LLM fornendo all'LLM addestrato l'accesso alle informazioni recuperate da knowledge base o documenti attendibili.

I motivi più comuni per utilizzare la generazione aumentata dal recupero includono:

Aumentare l'accuratezza oggettiva delle risposte generate da un modello.
Consentire al modello di accedere a conoscenze su cui non è stato addestrato.
Modifica delle conoscenze utilizzate dal modello.
Consentire al modello di citare le fonti.

Ad esempio, supponiamo che un'app di chimica utilizzi l'API PaLM per generare riepiloghi relativi alle query degli utenti. Quando il backend dell'app riceve una query, esegue le seguenti operazioni:

Cerca ("recupera") i dati pertinenti alla query dell'utente.
Aggiunge ("aumenta") i dati chimici pertinenti alla query dell'utente.
Indica al modello LLM di creare un riepilogo in base ai dati aggiunti.

Curva ROC (caratteristica operativa del ricevitore)

#fundamentals

#Metric

Un grafico della percentuale di veri positivi rispetto alla percentuale di falsi positivi per diverse soglie di classificazione nella classificazione binaria.

La forma di una curva ROC suggerisce la capacità di un modello di classificazione binaria di separare le classi positive da quelle negative. Supponiamo, ad esempio, che un modello di classificazione binaria separi perfettamente tutte le classi negative da tutte le classi positive:

Una retta numerica con 8 esempi positivi sul lato destro e
7 esempi negativi sul lato sinistro.

La curva ROC per il modello precedente ha il seguente aspetto:

Una curva ROC. L'asse x è la percentuale di falsi positivi e l'asse y
è la percentuale di veri positivi. La curva ha una forma a L invertita. La curva
inizia da (0.0,0.0) e sale direttamente fino a (0.0,1.0). Poi la curva
va da (0.0,1.0) a (1.0,1.0).

Al contrario, il grafico dell'illustrazione seguente mostra i valori di regressione logistica grezzi per un modello pessimo che non riesce a separare le classi negative da quelle positive:

Una retta numerica con esempi positivi e classi negative
completamente mescolati.

La curva ROC per questo modello ha il seguente aspetto:

Una curva ROC, che in realtà è una linea retta da (0.0,0.0)
a (1.0,1.0).

Nel frattempo, nel mondo reale, la maggior parte dei modelli di classificazione binaria separa le classi positive e negative in una certa misura, ma di solito non in modo perfetto. Pertanto, una tipica curva ROC si trova a metà strada tra i due estremi:

Una curva ROC. L'asse x è la percentuale di falsi positivi e l'asse y
è la percentuale di veri positivi. La curva ROC approssima un arco instabile
che attraversa i punti cardinali da ovest a nord.

Il punto su una curva ROC più vicino a (0.0,1.0) identifica teoricamente la soglia di classificazione ideale. Tuttavia, diversi altri problemi del mondo reale influenzano la selezione della soglia di classificazione ideale. Ad esempio, forse i falsi negativi causano molto più dolore dei falsi positivi.

Una metrica numerica chiamata AUC riassume la curva ROC in un singolo valore in virgola mobile.

Errore quadratico medio (RMSE)

#fundamentals

#Metric

La radice quadrata dell'errore quadratico medio.

S

funzione sigmoidea

#fundamentals

Una funzione matematica che "comprime" un valore di input in un intervallo vincolato, in genere da 0 a 1 o da -1 a +1. ovvero puoi passare qualsiasi numero (2, un milione, un miliardo negativo, quello che vuoi) a una sigmoide e l'output sarà comunque nell'intervallo vincolato. Un grafico della funzione di attivazione sigmoidea è il seguente:

La funzione sigmoide ha diversi utilizzi nel machine learning, tra cui:

Conversione dell'output non elaborato di un modello di regressione logistica o di regressione multinomiale in una probabilità.
che funge da funzione di attivazione in alcune reti neurali.

Fai clic sull'icona per visualizzare i calcoli.

La funzione sigmoidea su un numero di input x ha la seguente formula:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Nel machine learning, x è generalmente una somma ponderata.

softmax

#fundamentals

Una funzione che determina le probabilità per ogni classe possibile in un modello di classificazione multiclasse. La somma delle probabilità è esattamente 1.0. Ad esempio, la tabella seguente mostra come la funzione softmax distribuisce varie probabilità:

L'immagine è un/una…	Probabilità
cane	0,85
gatto	,13
cavallo	.02

Softmax è anche chiamata softmax completa.

Contrasta con il campionamento dei candidati.

Fai clic sull'icona per visualizzare i calcoli.

L'equazione softmax è la seguente:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

dove:

$\sigma_i$ è il vettore di output. Ogni elemento del vettore di output specifica la probabilità di questo elemento. La somma di tutti gli elementi nel vettore di output è 1,0. Il vettore di output contiene lo stesso numero di elementi del vettore di input, $z$.
$z$ è il vettore di input. Ogni elemento del vettore di input contiene un valore in virgola mobile.
$K$ è il numero di elementi nel vettore di input (e nel vettore di output).

Ad esempio, supponiamo che il vettore di input sia:

[1.2, 2.5, 1.8]

Pertanto, softmax calcola il denominatore nel seguente modo:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

La probabilità softmax di ogni elemento è quindi:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Quindi, il vettore di output è:

$$\sigma = [0.154, 0.565, 0.281]$$

La somma dei tre elementi in $\sigma$ è 1.0. Finalmente.

Per saperne di più, consulta la sezione Reti neurali: classificazione multiclasse di Machine Learning Crash Course.

caratteristica sparsa

#fundamentals

Una caratteristica i cui valori sono prevalentemente zero o vuoti. Ad esempio, una caratteristica contenente un singolo valore 1 e un milione di valori 0 è scarsa. Al contrario, una caratteristica densa ha valori che non sono prevalentemente zero o vuoti.

Nel machine learning, un numero sorprendente di caratteristiche sono caratteristiche sparse. Le caratteristiche categoriche sono in genere caratteristiche sparse. Ad esempio, delle 300 specie di alberi possibili in una foresta, un singolo esempio potrebbe identificare solo un acero. Oppure, tra i milioni di video possibili in una raccolta video, un singolo esempio potrebbe identificare solo "Casablanca".

In un modello, in genere le caratteristiche sparse vengono rappresentate con la codifica one-hot. Se la codifica one-hot è grande, potresti inserire un livello di incorporamento sopra la codifica one-hot per una maggiore efficienza.

rappresentazione sparsa

#fundamentals

Memorizzazione solo delle posizioni degli elementi diversi da zero in una funzionalità sparsa.

Ad esempio, supponiamo che una funzionalità categorica denominata species identifichi le 36 specie di alberi in una determinata foresta. Supponiamo inoltre che ogni esempio identifichi una sola specie.

Potresti utilizzare un vettore one-hot per rappresentare le specie di alberi in ogni esempio. Un vettore one-hot conterrebbe un singolo 1 (per rappresentare la particolare specie di albero nell'esempio) e 35 0 (per rappresentare le 35 specie di alberi non presenti nell'esempio). Pertanto, la rappresentazione one-hot di maple potrebbe avere un aspetto simile al seguente:

Un vettore in cui le posizioni da 0 a 23 contengono il valore 0, la posizione
24 contiene il valore 1 e le posizioni da 25 a 35 contengono il valore 0.

In alternativa, la rappresentazione sparsa identificherebbe semplicemente la posizione della specie in questione. Se maple si trova nella posizione 24, la rappresentazione sparsa di maple sarà semplicemente:

Tieni presente che la rappresentazione sparsa è molto più compatta di quella one-hot.

Fai clic sull'icona per un esempio leggermente più complesso.

Supponiamo che ogni esempio nel tuo modello debba rappresentare le parole, ma non l'ordine di queste parole, in una frase in inglese. L'inglese è composto da circa 170.000 parole, quindi è una funzionalità categorica con circa 170.000 elementi. La maggior parte delle frasi in inglese utilizza una frazione estremamente piccola di queste 170.000 parole, quindi l'insieme di parole in un singolo esempio sarà quasi certamente un insieme di dati sparsi.

Considera la seguente frase:

My dog is a great dog

Potresti utilizzare una variante del vettore one-hot per rappresentare le parole in questa frase. In questa variante, più celle del vettore possono contenere un valore diverso da zero. Inoltre, in questa variante, una cella può contenere un numero intero diverso da uno. Sebbene le parole "il mio", "è", "un" e "grande" compaiano solo una volta nella frase, la parola "cane" compare due volte. L'utilizzo di questa variante di vettori one-hot per rappresentare le parole in questa frase produce il seguente vettore di 170.000 elementi:

Una rappresentazione sparsa della stessa frase sarebbe semplicemente:

Fai clic sull'icona se hai dubbi.

Il termine "rappresentazione sparsa" confonde molte persone perché la rappresentazione sparsa non è un vettore sparso. La rappresentazione sparsa è in realtà una rappresentazione densa di un vettore sparso. La rappresentazione dell'indice dei sinonimi è un po' più chiara di "rappresentazione sparsa".

Per saperne di più, consulta la sezione Lavorare con dati categorici in Machine Learning Crash Course.

vettore sparso

#fundamentals

Un vettore i cui valori sono per lo più zeri. Vedi anche funzionalità sparse e sparsità.

perdita quadratica

#fundamentals

#Metric

Sinonimo di perdita _L2.

static

#fundamentals

Qualcosa fatto una volta anziché in modo continuo. I termini statico e offline sono sinonimi. Di seguito sono riportati gli utilizzi comuni di statico e offline nel machine learning:

Un modello statico (o modello offline) è un modello addestrato una sola volta e poi utilizzato per un po' di tempo.
L'addestramento statico (o addestramento offline) è il processo di addestramento di un modello statico.
L'inferenza statica (o inferenza offline) è un processo in cui un modello genera un batch di previsioni alla volta.

Contrasta con dinamico.

inferenza statica

#fundamentals

Sinonimo di inferenza offline.

stazionarietà

#fundamentals

Una funzionalità i cui valori non cambiano in una o più dimensioni, in genere il tempo. Ad esempio, una caratteristica i cui valori appaiono più o meno uguali nel 2021 e nel 2023 mostra stazionarietà.

Nel mondo reale, pochissime caratteristiche mostrano stazionarietà. Anche le caratteristiche sinonimo di stabilità (come il livello del mare) cambiano nel tempo.

Contrasto con la non stazionarietà.

discesa stocastica del gradiente (SGD)

#fundamentals

Un algoritmo di discesa del gradiente in cui la dimensione del batch è pari a uno. In altre parole, SGD esegue l'addestramento su un singolo esempio scelto in modo uniforme e casuale da un set di addestramento.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

machine learning supervisionato

#fundamentals

Addestramento di un modello a partire dalle caratteristiche e dalle relative etichette. L'apprendimento supervisionato nel machine learning è analogo all'apprendimento di una materia studiando una serie di domande e le risposte corrispondenti. Dopo aver acquisito la mappatura tra domande e risposte, uno studente può fornire risposte a nuove domande (mai viste prima) sullo stesso argomento.

Confronta con il machine learning non supervisionato.

Per saperne di più, consulta la sezione Apprendimento supervisionato del corso Introduzione al machine learning.

funzionalità sintetica

#fundamentals

Una caratteristica non presente tra le caratteristiche di input, ma assemblata a partire da una o più di queste. I metodi per creare funzionalità sintetiche includono quanto segue:

Suddivisione in bucket di una caratteristica continua in bin di intervallo.
Creazione di un incrocio di caratteristiche.
Moltiplicando (o dividendo) un valore di una caratteristica per altri valori di caratteristiche o per se stesso. Ad esempio, se a e b sono caratteristiche di input, di seguito sono riportati alcuni esempi di caratteristiche sintetiche:
- ab
- a²
Applicazione di una funzione trascendentale a un valore della funzionalità. Ad esempio, se c è una caratteristica di input, di seguito sono riportati alcuni esempi di caratteristiche sintetiche:
- sin(c)
- ln(c)

Le caratteristiche create solo mediante normalizzazione o scalabilità non sono considerate caratteristiche sintetiche.

T

test loss

#fundamentals

#Metric

Una metrica che rappresenta la perdita di un modello rispetto al set di test. Quando crei un modello, in genere cerchi di ridurre al minimo la perdita del test. Questo perché una perdita dei dati di test bassa è un indicatore di qualità più forte rispetto a una perdita di addestramento bassa o una perdita di convalida bassa.

Un ampio divario tra la perdita di test e la perdita di addestramento o di convalida a volte suggerisce di aumentare il tasso di regolarizzazione.

formazione

#fundamentals

Il processo di determinazione dei parametri (pesi e bias) ideali che compongono un modello. Durante l'addestramento, un sistema legge esempi e regola gradualmente i parametri. L'addestramento utilizza ogni esempio da poche volte a miliardi di volte.

Per saperne di più, consulta la sezione Apprendimento supervisionato del corso Introduzione al machine learning.

perdita di addestramento

#fundamentals

#Metric

Una metrica che rappresenta la perdita di un modello durante una particolare iterazione di addestramento. Ad esempio, supponiamo che la funzione di perdita sia l'errore quadratico medio. Forse la perdita di addestramento (l'errore quadratico medio) per la decima iterazione è 2,2 e la perdita di addestramento per la centesima iterazione è 1,9.

Una curva di perdita traccia la perdita di addestramento rispetto al numero di iterazioni. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:

Una pendenza verso il basso implica che il modello sta migliorando.
Una pendenza verso l'alto implica che il modello sta peggiorando.
Una pendenza piatta implica che il modello ha raggiunto la convergenza.

Ad esempio, la seguente curva di perdita un po' idealizzata mostra:

Una pendenza ripida verso il basso durante le iterazioni iniziali, il che implica un rapido miglioramento del modello.
Una pendenza che si appiattisce gradualmente (ma sempre verso il basso) fino quasi alla fine dell'addestramento, il che implica un miglioramento continuo del modello a un ritmo un po' più lento rispetto alle iterazioni iniziali.
Una pendenza piatta verso la fine dell'addestramento, che suggerisce la convergenza.

Il grafico della perdita di addestramento rispetto alle iterazioni. Questa curva di perdita inizia
con una pendenza ripida verso il basso. La pendenza si appiattisce gradualmente finché non diventa zero.

Sebbene la perdita di addestramento sia importante, consulta anche la generalizzazione.

disallineamento addestramento/produzione

#fundamentals

La differenza tra il rendimento di un modello durante l'addestramento e quello dello stesso modello durante la produzione.

training set

#fundamentals

Il sottoinsieme del set di dati utilizzato per addestrare un modello.

Tradizionalmente, gli esempi nel set di dati sono suddivisi nei seguenti tre sottoinsiemi distinti:

un training set
un set di convalida
un set di test

Idealmente, ogni esempio nel set di dati dovrebbe appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di convalida.

Per saperne di più, consulta la sezione Set di dati: divisione del set di dati originale in Machine Learning Crash Course.

vero negativo (VN)

#fundamentals

#Metric

Un esempio in cui il modello prevede correttamente la classe negativa. Ad esempio, il modello deduce che un determinato messaggio email non è spam e in effetti non lo è.

vero positivo (VP)

#fundamentals

#Metric

Un esempio in cui il modello prevede correttamente la classe positiva. Ad esempio, il modello deduce che un determinato messaggio email è spam e questo messaggio email è effettivamente spam.

tasso di veri positivi (TVP)

#fundamentals

#Metric

Sinonimo di richiamo. Ossia:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

La percentuale di veri positivi è l'asse Y di una curva ROC.

U

underfitting

#fundamentals

Produzione di un modello con scarsa capacità predittiva perché il modello non ha acquisito completamente la complessità dei dati di addestramento. Molti problemi possono causare un adattamento insufficiente, tra cui:

Addestramento sul set errato di funzionalità.
Addestramento per un numero troppo basso di epoche o a un tasso di apprendimento troppo basso.
Addestramento con un tasso di regolarizzazione troppo elevato.
Fornire un numero troppo basso di strati nascosti in una rete neurale profonda.

Per saperne di più, consulta la sezione Overfitting di Machine Learning Crash Course.

esempio senza etichetta

#fundamentals

Un esempio che contiene funzionalità, ma nessuna etichetta. Ad esempio, la tabella seguente mostra tre esempi senza etichetta di un modello di valutazione di una casa, ognuno con tre caratteristiche ma senza valore della casa:

Numero di camere	Numero di bagni	Età della casa
3	2	15
2	1	72
4	2	34

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni su esempi non etichettati.

Nell'apprendimento semi-supervisionato e non supervisionato, vengono utilizzati esempi non etichettati durante l'addestramento.

Confronta l'esempio senza etichetta con l'esempio con etichetta.

machine learning non supervisionato

#clustering

#fundamentals

Addestramento di un modello per trovare pattern in un set di dati, in genere un set di dati senza etichette.

L'utilizzo più comune del machine learning non supervisionato è quello di raggruppare i dati in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato può raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare un input per altri algoritmi di machine learning (ad esempio, per un servizio di consigli musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini come la prevenzione di abusi e frodi, i cluster possono aiutare le persone a comprendere meglio i dati.

Contrasto con il machine learning supervisionato.

Fai clic sull'icona per ulteriori note.

Un altro esempio di machine learning non supervisionato è l'analisi delle componenti principali (PCA). Ad esempio, l'applicazione dell'analisi delle componenti principali a un set di dati contenente i contenuti di milioni di carrelli degli acquisti potrebbe rivelare che i carrelli degli acquisti contenenti limoni spesso contengono anche antiacidi.

Per saperne di più, consulta Che cos'è il machine learning? nel corso Introduction to ML.

V

convalida

#fundamentals

La valutazione iniziale della qualità di un modello. La convalida verifica la qualità delle previsioni di un modello rispetto al set di convalida.

Poiché il set di convalida è diverso dal set di addestramento, la convalida aiuta a evitare l'overfitting.

Puoi considerare la valutazione del modello rispetto al set di convalida come il primo round di test e la valutazione del modello rispetto al set di test come il secondo round di test.

perdita di convalida

#fundamentals

#Metric

Una metrica che rappresenta la perdita di un modello sul set di convalida durante una particolare iterazione dell'addestramento.

Vedi anche la curva di generalizzazione.

set di convalida

#fundamentals

Il sottoinsieme del set di dati che esegue la valutazione iniziale rispetto a un modello addestrato. In genere, valuti il modello addestrato rispetto al set di convalida più volte prima di valutare il modello rispetto al set di test.

Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

un set di addestramento
un set di convalida
un set di test

Per saperne di più, consulta la sezione Set di dati: divisione del set di dati originale in Machine Learning Crash Course.

M

peso

#fundamentals

Un valore che un modello moltiplica per un altro valore. L'addestramento è il processo di determinazione dei pesi ideali di un modello; l'inferenza è il processo di utilizzo di questi pesi appresi per fare previsioni.

Fai clic sull'icona per visualizzare un esempio di pesi in un modello lineare.

Immagina un modello lineare con due caratteristiche. Supponiamo che l'addestramento determini i seguenti pesi (e bias):

Il bias, b, ha un valore di 2,2.
Il peso, w₁, associato a una funzionalità è 1,5.
Il peso, w₂, associato all'altra funzionalità è 0,4.

Ora immagina un esempio con i seguenti valori delle funzionalità:

Il valore di una caratteristica, x₁, è 6.
Il valore dell'altra funzionalità, x₂, è 10.

Questo modello lineare utilizza la seguente formula per generare una previsione, y':

$$y' = b + w_1x_1 + w_2x_2$$

Pertanto, la previsione è:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Se un peso è 0, la funzionalità corrispondente non contribuisce al modello. Ad esempio, se w₁ è 0, il valore di x₁ è irrilevante.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

somma ponderata

#fundamentals

La somma di tutti i valori di input pertinenti moltiplicati per i pesi corrispondenti. Ad esempio, supponiamo che gli input pertinenti siano i seguenti:

valore di input	peso dell'input
2	-1,3
-1	0,6
3	0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una somma ponderata è l'argomento di input di una funzione di attivazione.

Z

Normalizzazione del punteggio z

#fundamentals

Una tecnica di scalabilità che sostituisce un valore di caratteristica non elaborato con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di quella caratteristica. Ad esempio, considera una funzionalità con una media di 800 e una deviazione standard di 100. La tabella seguente mostra in che modo la normalizzazione Z-score mapperebbe il valore non elaborato al suo Z-score:

Valore non elaborato	Z-score
800	0
950	+1,5
575	-2,25

Il modello di machine learning viene quindi addestrato sugli Z-score di questa funzionalità anziché sui valori non elaborati.

Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.

Glossario del machine learning: nozioni di base del machine learning Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

A

accuracy

Fai clic sull'icona per visualizzare i dettagli sull'accuratezza e sui set di dati con sbilanciamento di classe.

funzione di attivazione

Fai clic sull'icona per visualizzare un esempio.

intelligenza artificiale

AUC (area sotto la curva ROC)

Fai clic sull'icona per scoprire la relazione tra le curve AUC e ROC.

Fai clic sull'icona per una definizione più formale di AUC.

B

backpropagation

batch

dimensione del batch

bias (etica/equità)

bias (matematica) o termine di bias

classificazione binaria

il bucketing

Fai clic sull'icona per ulteriori note.

C

dati categorici

classe

modello di classificazione

soglia di classificazione

Fai clic sull'icona per ulteriori note.

classificatore

set di dati sbilanciato per classe

clipping

matrice di confusione

funzionalità continua

convergenza

D

DataFrame

set di dati

modello deep

caratteristica densa

profondità

funzionalità discreta

dinamico

modello dinamico

E

interruzione anticipata

Fai clic sull'icona per ulteriori note.

strato di embedding

periodo

esempio

V

falso negativo (FN)

falso positivo (FP)

percentuale di falsi positivi (FPR)

caratteristica

incrocio di caratteristiche

e applicazione del feature engineering.

Fai clic sull'icona per ulteriori note su TensorFlow.

set di funzionalità

vettore di caratteristiche

ciclo di feedback

G

generalizzazione

Fai clic sull'icona per ulteriori note.

curva di generalizzazione

discesa del gradiente

dati di fatto

Fai clic sull'icona per ulteriori note.

H

strato nascosto

iperparametro

I

indipendenti e identicamente distribuiti (i.i.d.)

inferenza

livello di input

interpretabilità

iteration

L

Regolarizzazione L0

Fai clic sull'icona per ulteriori note.

Perdita L1

Fai clic sull'icona per visualizzare la matematica formale.

Regolarizzazione L1

Perdita L2

Glossario del machine learning: nozioni di base del machine learning

Regolarizzazione L₀

Perdita L₁

Regolarizzazione L₁

Perdita L₂

Regolarizzazione L₂