Questa pagina contiene i termini del glossario di Metrics. Per tutti i termini del glossario, fai clic qui.
A
accuracy
Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:
Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 sbagliate avrebbe un'accuratezza pari a:
La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Pertanto, la formula di accuratezza per la classificazione binaria è la seguente:
dove:
- TP è il numero di veri positivi (previsioni corrette).
- TN è il numero di veri negativi (previsioni corrette).
- FP è il numero di falsi positivi (previsioni errate).
- FN è il numero di falsi negativi (previsioni errate).
Confronta e contrapponi l'accuratezza con precisione e richiamo.
Per ulteriori informazioni, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate nel corso introduttivo al machine learning.
area sotto la curva PR
Vedi AUC PR (area sotto la curva PR).
area sotto la curva ROC
Consulta AUC (area sotto la curva ROC).
AUC (area sotto la curva ROC)
Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicino a 1,0, migliore è la capacità del modello di separare le classi.
Ad esempio, la seguente illustrazione mostra un modello di classificazione che separa perfettamente le classi positive (ovali verdi) dalle classi negative (rettangoli viola). Questo modello irreale e perfetto ha un AUC pari a 1,0:
Al contrario, l'illustrazione seguente mostra i risultati di un modello di classificazione che ha generato risultati casuali. Questo modello ha un AUC pari a 0,5:
Sì, il modello precedente ha un'AUC pari a 0,5, non 0,0.
La maggior parte dei modelli si colloca a metà strada tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i valori positivi da quelli negativi e, pertanto, ha un AUC compreso tra 0,5 e 1,0:
Il valore AUC ignora qualsiasi valore impostato per la soglia di classificazione. L'AUC, invece, considera tutte le possibili soglie di classificazione.
Per ulteriori informazioni, consulta Classificazione: ROC e AUC nel corso introduttivo al machine learning.
Precisione media a k
Una metrica per riepilogare il rendimento di un modello su un singolo prompt che genera risultati classificati, ad esempio un elenco numerato di consigli sui libri. La precisione media a k è la media dei valori di precisione a k per ogni risultato pertinente. La formula per la precisione media a k è quindi:
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
dove:
- \(n\) è il numero di elementi pertinenti nell'elenco.
È diverso dal richiamo a k.
B
base di riferimento
Un modello utilizzato come punto di riferimento per confrontare il rendimento di un altro modello (in genere più complesso). Ad esempio, un modello di regressione logistica potrebbe essere un buon punto di riferimento per un modello di deep learning.
Per un problema specifico, la linea di base aiuta gli sviluppatori di modelli a quantificare il rendimento minimo previsto che un nuovo modello deve raggiungere per essere utile.
C
costo
Sinonimo di perdita.
equità controfattuale
Una metrica di equità che controlla se un classificatore produce lo stesso risultato per un individuo e per un altro individuo identico al primo, tranne che per uno o più attributi sensibili. La valutazione di un classificatore per l'equità controfattuale è un metodo per evidenziare potenziali fonti di bias in un modello.
Per ulteriori informazioni, consulta una delle seguenti risorse:
- Equità: equità controfattuale nel Machine Learning Crash Course.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
entropia incrociata
Una generalizzazione della perdita di log per problemi di classificazione multiclasse. L'entropia incrociata quantifica la differenza tra due distribuzioni di probabilità. Vedi anche perplessità.
funzione di distribuzione cumulativa (CDF)
Una funzione che definisce la frequenza dei campioni minori o uguali a un valore di destinazione. Ad esempio, considera una distribuzione normale di valori continui. Una CDF indica che circa il 50% dei campioni deve essere inferiore o uguale alla media e che circa l'84% dei campioni deve essere inferiore o uguale a una deviazione standard sopra la media.
D
parità demografica
Una metrica di equità che è soddisfatta se i risultati della classificazione di un modello non dipendono da un determinato attributo sensibile.
Ad esempio, se sia i lillipuziani che i brobdingnagiani si iscrivono all'Università Glubbdubdrib, la parità demografica viene raggiunta se la percentuale di lillipuziani ammessi è uguale alla percentuale di brobdingnagiani ammessi, indipendentemente dal fatto che un gruppo sia in media più qualificato dell'altro.
È diverso da pari opportunità e uguaglianza di opportunità, che consentono ai risultati di classificazione aggregati di dipendere da attributi sensibili, ma non consentono ai risultati di classificazione per determinate etichette ground truth specificate di dipendere da attributi sensibili. Consulta "Attacking discrimination with smarter machine learning" per una visualizzazione che illustra i compromessi durante l'ottimizzazione per la parità demografica.
Per ulteriori informazioni, consulta Equità: parità demografica nel corso introduttivo al machine learning.
E
distanza del movimento della terra (EMD)
Una misura della somiglianza relativa di due distribuzioni. Più bassa è la distanza del movimento della terra, più simili sono le distribuzioni.
distanza di modifica
Una misura della somiglianza tra due stringhe di testo. Nel machine learning, la distanza di modifica è utile per i seguenti motivi:
- La distanza di modifica è facile da calcolare.
- La distanza di modifica può confrontare due stringhe note per essere simili tra loro.
- La distanza di modifica può determinare il grado di somiglianza tra stringhe diverse e una determinata stringa.
Esistono diverse definizioni della distanza di modifica, ciascuna delle quali utilizza operazioni su stringhe diverse. Consulta Distanza di Levenshtein per un esempio.
Funzione di distribuzione cumulativa empirica (eCDF o EDF)
Una funzione di distribuzione cumulativa basata su misure empiriche di un set di dati reale. Il valore della funzione in qualsiasi punto dell'asse x è la frazione di osservazioni nel set di dati minori o uguali al valore specificato.
entropia
In teoria dell'informazione, una descrizione dell'imprevedibilità di una distribuzione di probabilità. In alternativa, l'entropia è definita anche come la quantità di informazione contenuta in ogni esempio. Una distribuzione ha la massima entropia possibile quando tutti i valori di una variabile aleatoria sono simili.
L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
dove:
- H è l'entropia.
- p è la frazione di esempi "1".
- q è la frazione di esempi "0". Tieni presente che q = (1 - p)
- log è generalmente log2. In questo caso, l'unità di misura dell'entropia è un bit.
Ad esempio, supponiamo quanto segue:
- 100 esempi contengono il valore "1"
- 300 esempi contengono il valore "0"
Pertanto, il valore di entropia è:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per esempio
Un insieme perfettamente bilanciato (ad esempio 200 "0" e 200 "1") avrebbe un'entropia di 1, 0 bit per esempio. Man mano che un insieme diventa più sbilanciato, la sua entropia si sposta verso 0,0.
Negli alberi decisionali, l'entropia aiuta a formulare il guadagno di informazione per aiutare lo strumento di suddivisione a selezionare le condizioni durante la crescita di un albero decisionale di classificazione.
Confronta l'entropia con:
- impurità gini
- Funzione di perdita di entropia incrociata
L'entropia viene spesso chiamata entropia di Shannon.
Per ulteriori informazioni, consulta Spartito esatto per la classificazione binaria con caratteristiche numeriche nel corso sulle foreste di decisione.
uguaglianza di opportunità
Una metrica di equità per valutare se un modello predittivo è ugualmente efficace per tutti i valori di un attributo sensibile. In altre parole, se il risultato auspicato per un modello è la classe positiva, lo scopo è che il tasso di veri positivi sia uguale per tutti i gruppi.
L'uguaglianza di opportunità è correlata alle probabilità uguali, che richiedono che entrambi i tassi di veri positivi e falsi positivi siano uguali per tutti i gruppi.
Supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie dei Lillipuziani offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è idonea per il programma universitario. Le scuole secondarie dei Brobdingnagiani non offrono affatto corsi di matematica e, di conseguenza, un numero molto minore di loro è qualificato. L'uguaglianza di opportunità è soddisfatta per l'etichetta preferita di "ammissione" in base alla nazionalità (Lilliputiana o Brobdingnagiana) se gli studenti qualificati hanno la stessa probabilità di essere ammessi indipendentemente dal fatto che siano Lilliputiani o Brobdingnagiani.
Ad esempio, supponiamo che 100 Lillipuziani e 100 Brobdingnagiani presentino domanda di ammissione all'Università Glubbdubdrib e che le decisioni di ammissione vengano prese nel seguente modo:
Tabella 1. Lilliputian (90% idonei)
Qualificato | Non qualificato | |
---|---|---|
Ammessi | 45 | 3 |
Rifiutato | 45 | 7 |
Totale | 90 | 10 |
Percentuale di studenti idonei ammessi: 45/90 = 50% Percentuale di studenti non idonei rifiutati: 7/10 = 70% Percentuale totale di studenti di Lilliput ammessi: (45+3)/100 = 48% |
Tabella 2. Richiedenti Brobdingnagian (il 10% è idoneo):
Qualificato | Non qualificato | |
---|---|---|
Ammessi | 5 | 9 |
Rifiutato | 5 | 81 |
Totale | 10 | 90 |
Percentuale di studenti idonei ammessi: 5/10 = 50% Percentuale di studenti non idonei rifiutati: 81/90 = 90% Percentuale totale di studenti di Brobdingnag ammessi: (5+9)/100 = 14% |
Gli esempi precedenti soddisfano l'uguaglianza di opportunità per l'accettazione degli studenti qualificati perché sia i Lillipuziani che i Brobdingnagiani qualificati hanno entrambi il 50% di probabilità di essere ammessi.
Sebbene l'uguaglianza di opportunità sia soddisfatta, le seguenti due metriche di equità non lo sono:
- Parità demografica: i Lillipuziani e i Brobdingnagiani vengono ammessi all'università a tassi diversi; il 48% degli studenti Lillipuziani viene ammesso, ma solo il 14% degli studenti Brobdingnagiani.
- Probabilità uguali: sebbene gli studenti di Lilliput e Brobdingnag idonei abbiano entrambi la stessa probabilità di essere ammessi, il vincolo aggiuntivo che gli studenti di Lilliput e Brobdingnag non idonei abbiano entrambi la stessa probabilità di essere rifiutati non è soddisfatto. I Lillipuziani non idonei hanno un tasso di rifiuto del 70%, mentre i Brobdingnagiani non idonei hanno un tasso di rifiuto del 90%.
Per ulteriori informazioni, consulta Equità: parità di opportunità nel corso introduttivo al machine learning.
probabilità ugualizzate
Una metrica di equità per valutare se un modello prevede gli esiti allo stesso modo per tutti i valori di un attributo sensibile sia rispetto alla classe positiva sia rispetto alla classe negativa, non solo per una classe o per l'altra in modo esclusivo. In altre parole, sia la percentuale di veri positivi sia la percentuale di falsi negativi devono essere uguali per tutti i gruppi.
Le probabilità ugualizzate sono correlate all'uguaglianza di opportunità, che si concentra solo sui tassi di errore per una singola classe (positiva o negativa).
Ad esempio, supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i Brobdingnagiani a un rigoroso programma di matematica. I licei dei Lillipuziani offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è idonea al programma universitario. I Brobdingnagiani non offrono affatto corsi di matematica nelle scuole secondarie e, di conseguenza, un numero molto inferiore di studenti è qualificato. Le probabilità uguali sono soddisfatte a condizione che, indipendentemente dal fatto che un richiedente sia un lillipuziano o un brobdignag, se è qualificato, abbia le stesse probabilità di essere ammesso al programma e, se non è qualificato, abbia le stesse probabilità di essere rifiutato.
Supponiamo che 100 lillipuziani e 100 brobdingnagiani presentino domanda di ammissione all'Università di Glubbdubdrib e che le decisioni di ammissione vengano prese nel seguente modo:
Tabella 3. Lilliputian (90% idonei)
Qualificato | Non qualificato | |
---|---|---|
Ammessi | 45 | 2 |
Rifiutato | 45 | 8 |
Totale | 90 | 10 |
Percentuale di studenti idonei ammessi: 45/90 = 50% Percentuale di studenti non idonei rifiutati: 8/10 = 80% Percentuale totale di studenti lillipuziani ammessi: (45+2)/100 = 47% |
Tabella 4. Richiedenti Brobdingnagian (il 10% è idoneo):
Qualificato | Non qualificato | |
---|---|---|
Ammessi | 5 | 18 |
Rifiutato | 5 | 72 |
Totale | 10 | 90 |
Percentuale di studenti idonei ammessi: 5/10 = 50% Percentuale di studenti non idonei rifiutati: 72/90 = 80% Percentuale totale di studenti di Brobdingnag ammessi: (5+18)/100 = 23% |
Le probabilità uguali sono soddisfatte perché gli studenti di Lilliput e Brobdingnag idonei hanno entrambi una probabilità del 50% di essere ammessi e gli studenti di Lilliput e Brobdingnag non idonei hanno una probabilità dell'80% di essere rifiutati.
Le probabilità ugualizzate sono definite formalmente in "Equality of Opportunity in Supervised Learning" come segue: "il predittore Ŷ soddisfa le probabilità ugualizzate rispetto all'attributo protetto A e al risultato Y se Ŷ e A sono indipendenti, in base a Y".
evals
Utilizzato principalmente come abbreviazione di valutazioni LLM. Più in generale, evals è un'abbreviazione per qualsiasi forma di valutazione.
valutazione
Il processo di misurazione della qualità di un modello o di confronto tra modelli diversi.
Per valutare un modello di machine learning supervisionato, in genere lo si confronta con un set di convalida e un set di test. La valutazione di un LLM tipicamente prevede valutazioni più ampie di qualità e sicurezza.
F
F1
Una metrica di classificazione binaria "aggregata" che si basa sia sulla precisione sia sul richiamo. Ecco la formula:
metrica di equità
Una definizione matematica di "equità" misurabile. Alcune metriche di equità di uso comune includono:
Molte metriche di equità sono mutuamente esclusive; consulta la sezione sull'incompatibilità delle metriche di equità.
falso negativo (FN)
Un esempio in cui il modello prevede erroneamente la classe negativa. Ad esempio, il modello predice che un determinato messaggio email non è spam (la classe negativa), ma il messaggio email in realtà è spam.
tasso di falsi negativi
La proporzione di esempi positivi effettivi per i quali il modello ha previsto erroneamente la classe negativa. La seguente formula calcola il tasso di falsi positivi:
Per ulteriori informazioni, consulta Soglie e matrice di confusione nel corso introduttivo al machine learning.
falso positivo (FP)
Un esempio in cui il modello prevede erroneamente la classe positiva. Ad esempio, il modello prevede che un determinato messaggio email sia spam (la classe positiva), ma in realtà il messaggio email non è spam.
Per ulteriori informazioni, consulta Soglie e matrice di confusione nel corso introduttivo al machine learning.
tasso di falsi positivi (FPR)
La proporzione di esempi negativi effettivi per i quali il modello ha previsto erroneamente la classe positiva. La seguente formula calcola il tasso di falsi positivi:
La percentuale di falsi positivi è l'asse x di una curva ROC.
Per ulteriori informazioni, consulta Classificazione: ROC e AUC nel corso introduttivo al machine learning.
importanza delle caratteristiche
Sinonimo di importanza delle variabili.
frazione di successi
Una metrica per valutare il testo generato di un modello ML. La frazione di successi è il numero di output di testo generati "correttamente" diviso per il numero totale di output di testo generati. Ad esempio, se un modello linguistico di grandi dimensioni ha generato 10 blocchi di codice, di cui cinque sono andati a buon fine, la frazione di successi sarà del 50%.
Sebbene la frazione di successi sia ampiamente utile in tutte le statistiche, nel machine learning questa metrica è utile principalmente per misurare attività verificabili come la generazione di codice o i problemi di matematica.
G
Impurità di Gini
Una metrica simile all'entropia. Gli strumenti di suddivisione utilizzano i valori derivati dall'impurità di Gini o dall'entropia per comporre condizioni per la classificazione degli alberi decisionali. Il guadagno di informazione deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità di Gini. Tuttavia, questa metrica senza nome è importante quanto il guadagno di informazione.
L'impurità di Gini è chiamata anche indice di Gini o semplicemente Gini.
H
perdita della cerniera
Una famiglia di funzioni di perdita per la classificazione progettata per trovare il confine di decisione il più lontano possibile da ogni esempio di addestramento, quindi massimizzando il margine tra gli esempi e il confine. I KSVM utilizzano la perdita a cerniera (o una funzione correlata, come la perdita a cerniera al quadrato). Per la classificazione binaria, la funzione di perdita di hinge è definita come segue:
dove y è l'etichetta vera, -1 o +1, e y' è l'output non elaborato del modello di classificazione:
Di conseguenza, un grafico della perdita a cerniera rispetto a (y * y') è il seguente:
I
Incompatibilità delle metriche di equità
L'idea che alcune nozioni di equità siano reciprocamente incompatibili e non possano essere soddisfatte contemporaneamente. Di conseguenza, non esiste un'unica metrica universale per quantificare l'equità che possa essere applicata a tutti i problemi di ML.
Anche se può sembrare scoraggiante, l'incompatibilità delle metriche di equità non implica che gli sforzi per l'equità siano infruttuosi. Suggerisce invece che l'equità debba essere definita in modo contestuale per un determinato problema di ML, con lo scopo di prevenire danni specifici ai relativi casi d'uso.
Per una discussione più dettagliata sull'incompatibilità delle metriche di equità, consulta "Sulla (im)possibilità di equità".
equità individuale
Una metrica di equità che controlla se persone simili vengono classificate in modo simile. Ad esempio, la Brobdingnagian Academy potrebbe voler soddisfare la equità individuale garantendo che due studenti con voti e punteggi dei test standardizzati identici abbiano la stessa probabilità di ottenere l'ammissione.
Tieni presente che l'equità individuale si basa interamente su come definisci la"somiglianza" (in questo caso, voti e risultati dei test) e puoi rischiare di introdurre nuovi problemi di equità se la metrica di somiglianza non contiene informazioni importanti (come la rigore del curriculum di uno studente).
Per una discussione più dettagliata sull'equità individuale, consulta "Equità tramite consapevolezza".
guadagno di informazioni
Nelle foreste di alberi decisionali, la differenza tra l'entropia di un nodo e la somma ponderata (in base al numero di esempi) dell'entropia dei suoi nodi secondari. L'entropia di un nodo è l'entropia degli esempi in quel nodo.
Ad esempio, considera i seguenti valori di entropia:
- entropia del nodo principale = 0,6
- entropia di un nodo secondario con 16 esempi pertinenti = 0,2
- entropia di un altro nodo secondario con 24 esempi pertinenti = 0,1
Pertanto, il 40% degli esempi si trova in un nodo figlio e il 60% nell'altro nodo figlio. Pertanto:
- somma dell'entropia ponderata dei nodi secondari = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Pertanto, l'incremento di informazioni è:
- guadagno informativo = entropia del nodo principale - somma ponderata dell'entropia dei nodi secondari
- guadagno informativo = 0,6 - 0,14 = 0,46
La maggior parte degli strumenti di suddivisione cerca di creare condizioni che massimizzano l'aumento delle informazioni.
accordo tra valutatori
Una misura della frequenza con cui i valutatori umani sono d'accordo quando svolgono un'attività. Se i valutatori non sono d'accordo, potrebbe essere necessario migliorare le istruzioni dell'attività. A volte viene chiamata anche concordanza tra annotatori o attendibilità tra valutatori. Consulta anche kappa di Cohen, che è uno dei metodi di misurazione dell'accordo tra valutatori più utilizzati.
Per ulteriori informazioni, consulta Dati categorici: problemi comuni nel corso introduttivo al machine learning.
L
Perdita L1
Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi delle etichette e i valori previsti da un modello. Ad esempio, di seguito è riportato il calcolo della perdita L1 per un batch di cinque esempi:
Valore effettivo dell'esempio | Valore previsto del modello | Valore assoluto di delta |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = perdita L1 |
La perdita L1 è meno sensibile ai valori anomali rispetto alla perdita L2.
L'errore assoluto medio è la perdita media L1 per esempio.
Per ulteriori informazioni, consulta la sezione Regressione lineare: perdita nel corso introduttivo al machine learning.
Perdita L2
Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi delle etichette e i valori previsti da un modello. Ad esempio, di seguito è riportato il calcolo della perdita L2 per un batch di cinque esempi:
Valore effettivo dell'esempio | Valore previsto del modello | Quadrato del delta |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = perdita L2 |
A causa della quadratura, la perdita L2 amplifica l'influenza degli outlier. In altre parole, la perdita L2 reagisce in modo più marcato alle previsioni sbagliate rispetto alla perdita L1. Ad esempio, la perdita L1 per il batch precedente sarà 8 anziché 16. Tieni presente che un singolo valore outlier rappresenta 9 dei 16.
I modelli di regressione in genere utilizzano la perdita L2 come funzione di perdita.
Lo scarto quadratico medio è la perdita L2 media per esempio. La perdita quadratica è un altro nome per la perdita L2.
Per ulteriori informazioni, consulta la sezione Regressione logistica: perdita e regolarizzazione nel corso introduttivo al machine learning.
Valutazioni LLM (evals)
Un insieme di metriche e benchmark per valutare il rendimento dei modelli linguistici di grandi dimensioni (LLM). A livello generale, le valutazioni LLM:
- Aiuta i ricercatori a identificare le aree in cui gli LLM devono essere migliorati.
- Sono utili per confrontare diversi LLM e identificare il migliore per una determinata attività.
- Contribuisci a garantire che gli LLM siano sicuri ed etici.
Per saperne di più, consulta la sezione Modelli linguistici di grandi dimensioni (LLM) nel corso introduttivo al machine learning.
perdita
Durante l'addestramento di un modello supervisionato, una misura della distanza tra la previsione di un modello e la sua etichetta.
Una funzione di perdita calcola la perdita.
Per ulteriori informazioni, consulta Regressione lineare: perdita nel corso introduttivo al machine learning.
funzione di perdita
Durante l'addestramento o il test, una funzione matematica che calcola la perdita su un batch di esempi. Una funzione di perdita restituisce una perdita inferiore per i modelli che fanno buone previsioni rispetto a quelli che fanno cattive previsioni.
Lo scopo dell'addestramento è in genere minimizzare la perdita restituita da una funzione di perdita.
Esistono molti tipi diversi di funzioni di perdita. Scegli la funzione di perdita appropriata per il tipo di modello che stai creando. Ad esempio:
- La perdita L2 (o errore quadratico medio) è la funzione di perdita per la regressione lineare.
- La perdita logaritmica è la funzione di perdita per la regressione logistica.
M
Errore assoluto medio (MAE)
La perdita media per esempio quando viene utilizzata la perdita L1. Calcola l'errore assoluto medio come segue:
- Calcola la perdita L1 per un batch.
- Dividi la perdita L1 per il numero di esempi nel batch.
Ad esempio, considera il calcolo della perdita L1 sul seguente batch di cinque esempi:
Valore effettivo dell'esempio | Valore previsto del modello | Perdita (differenza tra valore effettivo e previsto) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = perdita L1 |
Pertanto, la perdita L1 è 8 e il numero di esempi è 5. Pertanto, l'errore assoluto medio è:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
Confronta l'errore assoluto medio con l'errore quadratico medio e con l'errore quadratico medio della radice.
Precisione media a k (mAP@k)
La media statistica di tutti i punteggi di precisione media a k in un set di dati di convalida. Un utilizzo della precisione media a k è valutare la qualità dei consigli generati da un sistema di consigli.
Sebbene la frase "media media" possa sembrare ridondante, il nome della metrica è appropriato. Dopotutto, questa metrica trova la media di più valori di precisione media a k.
Errore quadratico medio (MSE)
La perdita media per esempio quando viene utilizzata la perdita L2. Calcola lo scarto quadratico medio come segue:
- Calcola la perdita L2 per un batch.
- Dividi la perdita L2 per il numero di esempi nel batch.
Ad esempio, considera la perdita nel seguente batch di cinque esempi:
Valore effettivo | Previsione del modello | Perdita | Perdita quadratica |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = perdita L2 |
Pertanto, l'errore quadratico medio è:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
Lo scarto quadratico medio è un popolare ottimizzatore dell'addestramento, in particolare per la regressione lineare.
Confronta l'errore quadratico medio con l'errore assoluto medio e con l'errore quadratico medio della radice.
TensorFlow Playground utilizza lo scarto quadratico medio per calcolare i valori di perdita.
metrica
Una statistica che ti interessa.
Un obiettivo è una metrica che un sistema di machine learning tenta di ottimizzare.
API Metrics (tf.metrics)
Un'API TensorFlow per la valutazione dei modelli. Ad esempio, tf.metrics.accuracy
determina la frequenza con cui le previsioni di un modello corrispondono alle etichette.
perdita minimax
Una funzione di perdita per le reti antagoniste generative, basata sulla entropia di crociera tra la distribuzione dei dati generati e quella dei dati reali.
La perdita minimax viene utilizzata nel primo articolo per descrivere le reti di generazione avversarie.
Per saperne di più, consulta la sezione Funzioni di perdita nel corso Generative Adversarial Networks.
capacità del modello
La complessità dei problemi che un modello può apprendere. Più complessi sono i problemi che un modello può apprendere, maggiore è la sua capacità. La capacità di un modello in genere aumenta con il numero di parametri del modello. Per una definizione formale della capacità dello strumento di classificazione, consulta Dimensione VC.
No
classe negativa
Nella classificazione binaria, una classe è definita positiva e l'altra negativa. La classe positiva è la cosa o l'evento per cui il modello esegue il test, mentre la classe negativa è l'altra possibilità. Ad esempio:
- La classe negativa in un test medico potrebbe essere "nessun tumore".
- La classe negativa in un classificatore di email potrebbe essere "non spam".
È il contrario della classe positiva.
O
scopo
Una metrica che l'algoritmo sta cercando di ottimizzare.
funzione obiettivo
La formula matematica o la metrica che un modello mira a ottimizzare. Ad esempio, la funzione obiettivo per la regressione lineare è solitamente la perdita quadratica media. Pertanto, quando si addestra un modello di regressione lineare, l'addestramento mira a minimizzare la perdita quadratica media.
In alcuni casi, l'obiettivo è massimizzare la funzione obiettivo. Ad esempio, se la funzione obiettivo è l'accuratezza, l'obiettivo è massimizzare l'accuratezza.
Vedi anche perdita.
P
pass at k (pass@k)
Una metrica per determinare la qualità del codice (ad esempio Python) generato da un modello linguistico di grandi dimensioni. Nello specifico, il passaggio a k indica la probabilità che almeno un blocco di codice generato su k blocchi di codice generati superi tutti i relativi test delle unità.
I modelli linguistici di grandi dimensioni spesso hanno difficoltà a generare codice di buona qualità per problemi di programmazione complessi. I software engineer si adattano a questo problema chiedendo al modello linguistico di grandi dimensioni di generare più (k) soluzioni per lo stesso problema. Successivamente, gli ingegneri del software testano ciascuna delle soluzioni in base ai test delle unità. Il calcolo del passaggio a k dipende dal risultato degli unit test:
- Se una o più di queste soluzioni superano il test di unità, l'LLM supera la sfida di generazione di codice.
- Se nessuna delle soluzioni supera il test di unità, il modello LLM non supera la sfida di generazione di codice.
La formula per il passaggio a k è la seguente:
\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]
In generale, valori più elevati di k producono un numero maggiore di passaggi con punteggi k; tuttavia, valori più elevati di k richiedono più risorse per i test di unità e i modelli linguistici di grandi dimensioni.
prestazioni
Termine sovraccaricato con i seguenti significati:
- Il significato standard nell'ambito dell'ingegneria del software. Nello specifico: quanto è rapida (o efficiente) l'esecuzione di questo software?
- Il significato nel machine learning. In questo caso, il rendimento risponde alla seguente domanda: quanto è corretto questo modello? In altre parole, quanto sono buone le previsioni del modello?
importanza delle variabili di permutazione
Un tipo di importanza della variabile che valuta l'aumento dell'errore di previsione di un modello dopo la permutazione dei valori della caratteristica. L'importanza della variabile di permutazione è una metrica indipendente dal modello.
perplessità
Una misura del livello di efficacia con cui un modello completa la sua attività. Ad esempio, supponiamo che la tua attività sia leggere le prime lettere di una parola che un utente sta digitando sulla tastiera di uno smartphone e offrire un elenco di possibili parole di completamento. La complessità, P, per questa attività è approssimativamente il numero di ipotesi che devi offrire affinché l'elenco contenga la parola effettiva che l'utente sta cercando di digitare.
La perplessità è correlata all'entropia incrociata come segue:
classe positiva
Il corso per cui stai eseguendo il test.
Ad esempio, la classe positiva in un modello di cancro potrebbe essere "tumore". La classe positiva in un classificatore di email potrebbe essere "spam".
È il contrario della classe negativa.
AUC PR (area sotto la curva PR)
Area sotto la curva di precisione-richiamo interpolata, ottenuta tracciando i punti (richiamo, precisione) per diversi valori della soglia di classificazione.
precisione
Una metrica per i modelli di classificazione che risponde alla seguente domanda:
Quando il modello ha previsto la classe positiva, qual è stata la percentuale di previsioni corrette?
Ecco la formula:
dove:
- vero positivo significa che il modello ha predetto correttamente la classe positiva.
- falso positivo significa che il modello ha erroneamente previsto la classe positiva.
Ad esempio, supponiamo che un modello abbia effettuato 200 previsioni positive. Di queste 200 previsioni positive:
- 150 erano veri positivi.
- 50 erano falsi positivi.
In questo caso:
È il contrario di accuratezza e richiamo.
Per ulteriori informazioni, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate nel corso introduttivo al machine learning.
Precisione a k (precisione@k)
Una metrica per valutare un elenco classificato (ordinato) di elementi. La precisione a k identifica la frazione dei primi k elementi nell'elenco che sono "pertinenti". Ossia:
\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]
Il valore di k deve essere minore o uguale alla lunghezza dell'elenco restituito. Tieni presente che la lunghezza dell'elenco restituito non fa parte del calcolo.
La pertinenza è spesso soggettiva; anche gli esperti valutatori umani spesso non sono d'accordo su quali elementi sono pertinenti.
Confronta con:
curva di precisione-richiamo
Una curva di precisione rispetto al richiamo a diverse soglie di classificazione.
bias di previsione
Un valore che indica la distanza tra la media delle previsioni e la media delle etichette nel set di dati.
Da non confondere con il termine bias nei modelli di machine learning o con i bias in termini di etica ed equità.
parità predittiva
Una metrica di equità che controlla se, per un determinato classificatore, i tassi di precisione sono equivalenti per i sottogruppi presi in considerazione.
Ad esempio, un modello che prevede l'accettazione in un college soddisferebbe la parità predittiva per la nazionalità se il suo tasso di precisione fosse lo stesso per i lillipuziani e i brobdingnagiani.
La parità predittiva è talvolta chiamata anche parità di tariffa predittiva.
Per una discussione più dettagliata sulla parità predittiva, consulta la sezione "Definizioni di equità spiegate" (sezione 3.2.1).
parità di tariffa predittiva
Un altro nome per la parità predittiva.
funzione di densità di probabilità
Una funzione che identifica la frequenza degli esempi di dati con esattamente un determinato valore. Quando i valori di un set di dati sono numeri con virgola mobile continui, le corrispondenze esatte si verificano raramente. Tuttavia, l'integrazione di una funzione di densità di probabilità dal valore x
al valore y
genera la frequenza prevista dei campioni di dati tra x
e y
.
Ad esempio, prendiamo in considerazione una distribuzione normale con una media di 200 e una deviazione standard di 30. Per determinare la frequenza prevista dei campioni di dati che rientrano nell'intervallo 211,4-218,7, puoi integrare la funzione di probabilità di densità per una distribuzione normale da 211,4 a 218,7.
R
richiamo
Una metrica per i modelli di classificazione che risponde alla seguente domanda:
Quando i dati empirici reali erano la classe positiva, quale percentuale di previsioni è stato identificato correttamente dal modello come classe positiva?
Ecco la formula:
\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]
dove:
- vero positivo significa che il modello ha predetto correttamente la classe positiva.
- Un falso negativo indica che il modello ha erroneamente previsto la classe negativa.
Ad esempio, supponiamo che il modello abbia effettuato 200 previsioni su esempi per i quali il valore di verità è la classe positiva. Di queste 200 previsioni:
- 180 erano veri positivi.
- 20 erano falsi negativi.
In questo caso:
\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]
Per ulteriori informazioni, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate.
Richiamo a k (recall@k)
Una metrica per la valutazione dei sistemi che generano un elenco classificato (ordinato) di elementi. Il recupero a k identifica la frazione di elementi pertinenti nei primi k elementi in quell'elenco rispetto al numero totale di elementi pertinenti restituiti.
\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]
Confronta con la precisione a k.
Curva ROC (caratteristica operativa del ricevitore)
Un grafico della percentuale di veri positivi rispetto alla percentuale di falsi positivi per diverse soglie di classificazione nella classificazione binaria.
La forma di una curva ROC suggerisce la capacità di un modello di classificazione binario di separare le classi positive dalle classi negative. Supponiamo, ad esempio, che un modello di classificazione binaria separi perfettamente tutte le classi negative da tutte le classi positive:
La curva ROC per il modello precedente è la seguente:
Al contrario, la seguente illustrazione mostra i valori non elaborati della regressione logistica per un modello pessimo che non riesce a separare le classi negative dalle classi positive:
La curva ROC per questo modello è la seguente:
Nel frattempo, nel mondo reale, la maggior parte dei modelli di classificazione binaria separa in qualche misura le classi positive e negative, ma in genere non in modo perfetto. Pertanto, una curva ROC tipica si trova a metà tra i due estremi:
Il punto di una curva ROC più vicino a (0,0,1) identifica teoricamente la soglia di classificazione ideale. Tuttavia, diversi altri problemi reali influiscono sulla selezione della soglia di classificazione ideale. Ad esempio, forse i falsi negativi causano molti più problemi dei falsi positivi.
Una metrica numerica chiamata AUC riassume la curva ROC in un singolo valore con virgola mobile.
Errore quadratico medio (RMSE)
La radice quadrata dell'errore quadratico medio.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
Una famiglia di metriche che valutano i modelli di sintesi automatica e di traduzione automatica. Le metriche ROUGE determinano il grado in cui un testo di riferimento si sovrappone a un testo generato di un modello di ML. Ogni membro della famiglia di misurazioni ROUGE si sovrappone in modo diverso. Punteggi ROUGE più elevati indicano una maggiore somiglianza tra il testo di riferimento e il testo generato rispetto ai punteggi ROUGE più bassi.
In genere, ogni membro della famiglia ROUGE genera le seguenti metriche:
- Precisione
- Richiamo
- F1
Per dettagli ed esempi, consulta:
ROUGE-L
Un membro della famiglia ROUGE incentrato sulla lunghezza della sottosequenza comune più lunga nel testo di riferimento e nel testo generato. Le seguenti formule calcolano il richiamo e la precisione per ROUGE-L:
Puoi quindi utilizzare F1 per aggregare il recupero ROUGE-L e la precisione ROUGE-L in un'unica metrica:
ROUGE-L ignora i ritorni a capo nel testo di riferimento e nel testo generato, pertanto la sottosequenza comune più lunga potrebbe attraversare più frasi. Quando il testo di riferimento e il testo generato includono più frasi, in genere una variante di ROUGE-L chiamata ROUGE-Lsum è una metrica migliore. ROUGE-Lsum determina la sottosequenza comune più lunga per ogni frase in un passaggio e poi calcola la media di queste sottosequenze comuni più lunghe.
ROUGE-N
Un insieme di metriche all'interno della famiglia ROUGE che confronta gli N-gram condivisi di una determinata dimensione nel testo di riferimento e nel testo generato. Ad esempio:
- ROUGE-1 misura il numero di token condivisi nel testo di riferimento e nel testo generato.
- ROUGE-2 misura il numero di bigrammi (2-gram) condivisi nel testo di riferimento e nel testo generato.
- ROUGE-3 misura il numero di trigrammi (3-grammi) condivisi nel testo di riferimento e nel testo generato.
Puoi utilizzare le seguenti formule per calcolare il recupero e la precisione di ROUGE-N per qualsiasi membro della famiglia ROUGE-N:
Puoi quindi utilizzare F1 per aggregare il recupero di ROUGE-N e la precisione di ROUGE-N in un'unica metrica:
ROUGE-S
Una forma tollerante di ROUGE-N che consente la corrispondenza di skip-gram. In altre parole, ROUGE-N conteggia solo n-grammi che corrispondono esattamente, mentre ROUGE-S conteggia anche gli n-grammi separati da una o più parole. Ad esempio, prendi in considerazione quanto indicato di seguito.
- reference text: Nuvole bianche
- Testo generato: Nuvole bianche gonfie
Durante il calcolo di ROUGE-N, il bigramma Nuvole bianche non corrisponde Nuvole bianche gonfie. Tuttavia, quando si calcola ROUGE-S, Nuvole bianche corrisponde a Nuvole bianche gonfie.
R al quadrato
Una metrica di regressione che indica la variazione in un etichetta dovuta a una singola caratteristica o a un insieme di caratteristiche. R-squared è un valore compreso tra 0 e 1, che puoi interpretare come segue:
- Un valore R-quadrato pari a 0 indica che nessuna variazione di un'etichetta è dovuta all'insieme di funzionalità.
- Un R-quadrato pari a 1 indica che tutta la variazione di un'etichetta è dovuta all'insieme di funzionalità.
- Un R-quadrato compreso tra 0 e 1 indica la misura in cui la variazione dell'etichetta può essere prevista da una determinata caratteristica o dall'insieme di caratteristiche. Ad esempio, un R-quadrato di 0,10 indica che il 10% della varianza nella label è dovuto all'insieme di funzionalità, un R-quadrato di 0,20 indica che il 20% è dovuto all'insieme di funzionalità e così via.
R al quadrato è il quadrato del coefficiente di correlazione Pearson tra i valori previsti da un modello e i dati empirici reali.
S
calcolo punteggio
La parte di un sistema di consigli che fornisce un valore o un ranking per ogni elemento prodotto dalla fase di generazione di candidati.
misura di somiglianza
Negli algoritmi di clustering, la metrica utilizzata per determinare quanto sono simili due esempi.
sparsità
Il numero di elementi impostati su zero (o null) in un vettore o una matrice diviso per il numero totale di voci nel vettore o nella matrice. Ad esempio, considera una matrice di 100 elementi in cui 98 celle contengono zero. Il calcolo della sparsità è il seguente:
La sparsità delle caratteristiche si riferisce alla sparsità di un vettore di caratteristiche; la sparsità del modello si riferisce alla sparsità dei pesi del modello.
perdita della cerniera al quadrato
Il quadrato della perdita di cerniera. La perdita con cerniera al quadrato penalizza gli outlier più severamente rispetto alla perdita con cerniera standard.
perdita al quadrato
Sinonimo di perdita L2.
T
perdita di test
Una metrica che rappresenta la perdita di un modello rispetto al set di test. Quando crei un modello, solitamente provi a ridurre al minimo la perdita del test. Questo perché una perdita di test bassa è un indicatore di qualità più forte di una perdita di addestramento o di perdita di convalida bassa.
A volte un ampio divario tra la perdita di test e la perdita di addestramento o di convalida suggerisce che è necessario aumentare il tasso di regolarizzazione.
accuratezza top-k
La percentuale di volte in cui un'etichetta target viene visualizzata nelle prime k poz. degli elenchi generati. Gli elenchi possono essere consigli personalizzati o un elenco di articoli ordinati in base alla funzione softmax.
La precisione Top-k è nota anche come accuratezza a k.
tossicità
Il grado in cui i contenuti sono offensivi, minacciosi o illeciti. Molti modelli di machine learning possono identificare e misurare la tossicità. La maggior parte di questi modelli identifica la tossicità in base a più parametri, ad esempio il livello di linguaggio illecito e il livello di linguaggio minaccioso.
perdita di addestramento
Una metrica che rappresenta la perdita di un modello durante una determinata evoluzione dell'addestramento. Ad esempio, supponiamo che la funzione di perdita sia Errore quadratico medio. Ad esempio, la perdita di addestramento (l'errore quadratico medio) per la decima iterazione è 2,2 e la perdita di addestramento per la centesima iterazione è 1,9.
Una curva di perdita traccia la perdita di addestramento rispetto al numero di esercizi. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:
- Una curva discendente implica che il modello sta migliorando.
- Una curva ascendente implica che il modello sta peggiorando.
- Una pendenza piatta implica che il modello ha raggiunto la convergenza.
Ad esempio, la seguente curva di perdita un po' idealizzata mostra:
- Una forte discesa durante le iterazioni iniziali, che implica un rapido miglioramento del modello.
- Una curva gradualmente in piano (ma comunque in calo) fino alla fine dell'addestramento, il che implica un miglioramento continuo del modello a un ritmo leggermente più lento rispetto alle iterazioni iniziali.
- Una pendenza piatta verso la fine dell'addestramento, che suggerisce la convergenza.
Sebbene la perdita di addestramento sia importante, consulta anche la sezione sulla generalizzazione.
vero negativo (VN)
Un esempio in cui il modello prevede correttamente la classe negativa. Ad esempio, il modello deducono che un determinato messaggio email non è spam e che il messaggio email è effettivamente non spam.
vero positivo (VP)
Un esempio in cui il modello prevede correttamente la classe positiva. Ad esempio, il modello deduce che un determinato messaggio email è spam e che il messaggio email è effettivamente spam.
tasso di veri positivi (TPR)
Sinonimo di richiamo. Ossia:
La percentuale di veri positivi è l'asse y di una curva ROC.
V
perdita di convalida
Una metrica che rappresenta la perdita di un modello sul set di convalida durante una determinata iterazione dell'addestramento.
Vedi anche curva di generalizzazione.
importanza delle variabili
Un insieme di punteggi che indica l'importanza relativa di ogni caratteristica per il modello.
Ad esempio, considera un albero decisionale che stima i prezzi delle case. Supponiamo che questo albero decisionale utilizzi tre caratteristiche: taglia, età e stile. Se un insieme di importanza delle variabili per le tre caratteristiche viene calcolato come {size=5.8, age=2.5, style=4.7}, la dimensione è più importante per l'albero decisionale rispetto all'età o allo stile.
Esistono diverse metriche di importanza delle variabili, che possono fornire informazioni agli esperti di ML su diversi aspetti dei modelli.
M
Perdita di Wasserstein
Una delle funzioni di perdita comunemente utilizzate nelle reti di generazione di conflitti, baseada sulla distanza di Earth Mover tra la distribuzione dei dati generati e i dati reali.