Glossario del machine learning: metriche

Questa pagina contiene i termini del glossario di Metrics. Per tutti i termini del glossario, fai clic qui.

#fundamentals
#Metrica

Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:

Accuracy=correct predictionscorrect predictions + incorrect predictions 

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 sbagliate avrebbe un'accuratezza pari a:

Accuracy=4040 + 10=80%

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Pertanto, la formula di accuratezza per la classificazione binaria è la seguente:

Accuracy=TP+TNTP+TN+FP+FN

dove:

Confronta e contrapponi l'accuratezza con precisione e richiamo.

Sebbene sia una metrica utile per alcune situazioni, l'accuratezza è molto fuorviante per altre. In particolare, l'accuratezza è in genere una metrica scadente per valutare i modelli di classificazione che elaborano set di dati sbilanciati per classe.

Ad esempio, supponiamo che in una determinata città subtropicale nevichi solo 25 giorni al secolo. Poiché i giorni senza neve (la classe negativa) superano di gran lunga i giorni con neve (la classe positiva), il set di dati sulla neve per questa città è sbilanciato in termini di classi. Immagina un modello di classificazione binaria che dovrebbe prevedere se nevica o meno ogni giorno, ma prevede semplicemente "neve assente" ogni giorno. Questo modello è molto preciso, ma non ha potere predittivo. La tabella seguente riassume i risultati di un secolo di previsioni:

Categoria Numero
VP 0
VN 36499
FP 0
FN 25

L'accuratezza di questo modello è quindi:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Sebbene un'accuratezza del 99,93% sembri una percentuale molto impressionante, il modello in realtà non ha alcuna capacità predittiva.

Precisione e richiamo sono in genere metriche più utili della accuratezza per la valutazione dei modelli addestrati su set di dati con classi sbilanciate.


Per ulteriori informazioni, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate nel corso introduttivo al machine learning.

area sotto la curva PR

#Metrica

Vedi AUC PR (area sotto la curva PR).

area sotto la curva ROC

#Metrica

Consulta AUC (area sotto la curva ROC).

AUC (area sotto la curva ROC)

#fundamentals
#Metrica

Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicino a 1,0, migliore è la capacità del modello di separare le classi.

Ad esempio, la seguente illustrazione mostra un modello di classificazione che separa perfettamente le classi positive (ovali verdi) dalle classi negative (rettangoli viola). Questo modello irreale e perfetto ha un AUC pari a 1,0:

Una linea numerica con 8 esempi positivi da un lato e
          9 esempi negativi dall'altro.

Al contrario, l'illustrazione seguente mostra i risultati di un modello di classificazione che ha generato risultati casuali. Questo modello ha un AUC pari a 0,5:

Una linea numerica con 6 esempi positivi e 6 negativi.
          La sequenza di esempi è positiva, negativa,
          positiva, negativa, positiva, negativa, positiva, negativa, positiva
          negativa, positiva, negativa.

Sì, il modello precedente ha un'AUC pari a 0,5, non 0,0.

La maggior parte dei modelli si colloca a metà strada tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i valori positivi da quelli negativi e, pertanto, ha un AUC compreso tra 0,5 e 1,0:

Una linea numerica con 6 esempi positivi e 6 negativi.
          La sequenza di esempi è negativa, negativa, negativa, negativa, positiva, negativa, positiva, positiva, negativa, positiva, positiva, positiva.

Il valore AUC ignora qualsiasi valore impostato per la soglia di classificazione. L'AUC, invece, considera tutte le possibili soglie di classificazione.

L'AUC rappresenta l'area sotto una curva ROC. Ad esempio, la curva ROC per un modello che separa perfettamente i valori positivi da quelli negativi è la seguente:

Grafico cartesiano. L'asse x è il tasso di falsi positivi; l'asse y è il tasso di veri positivi. Il grafico inizia a 0,0 e sale fino a 0,1, poi va dritto a destra e termina a 1,1.

L'AUC è l'area della regione grigia nell'illustrazione precedente. In questo caso insolito, l'area è semplicemente la lunghezza della regione grigia (1,0) moltiplicata per la larghezza della regione grigia (1,0). Pertanto, il prodotto di 1,0 e 1,0 genera un AUC pari esattamente a 1,0, che è il punteggio AUC più alto possibile.

Al contrario, la curva ROC per un classificatore che non riesce a separare affatto le classi è la seguente. L'area di questa regione grigia è 0,5.

Grafico cartesiano. L'asse x è il tasso di falsi positivi, l'asse y è il tasso di veri positivi. Il grafico inizia a 0,0 e prosegue in diagonale fino a 1,1.

Una curva ROC più tipica ha il seguente aspetto:

Grafico cartesiano. L'asse x è il tasso di falsi positivi, l'asse y è il tasso di veri positivi. Il grafico inizia a 0,0 e segue un arco irregolare
          fino a 1,0.

Sarebbe laborioso calcolare manualmente l'area sotto questa curva, per questo motivo un programma in genere calcola la maggior parte dei valori AUC.


L'AUC è la probabilità che un classificatore abbia più fiducia nel fatto che un esempio positivo scelto a caso sia effettivamente positivo rispetto al fatto che un esempio negativo scelto a caso sia positivo.


Per ulteriori informazioni, consulta Classificazione: ROC e AUC nel corso introduttivo al machine learning.

Precisione media a k

#language
#Metrica

Una metrica per riepilogare il rendimento di un modello su un singolo prompt che genera risultati classificati, ad esempio un elenco numerato di consigli sui libri. La precisione media a k è la media dei valori di precisione a k per ogni risultato pertinente. La formula per la precisione media a k è quindi:

average precision at k=1nni=1precision at k for each relevant item

dove:

  • n è il numero di elementi pertinenti nell'elenco.

È diverso dal richiamo a k.

Supponiamo che a un modello linguistico di grandi dimensioni sia stata data la seguente query:

List the 6 funniest movies of all time in order.

Il modello linguistico di grandi dimensioni restituisce il seguente elenco:

  1. Il generale
  2. Mean Girls
  3. Platoon
  4. Le amiche della sposa
  5. Citizen Kane
  6. Questo è Spinal Tap
Quattro dei film nell'elenco restituito sono molto divertenti (ovvero pertinenti), ma due sono film drammatici (non pertinenti). La seguente tabella descrive i risultati:
Posizione Film Pertinente? Precisione a k
1 Il generale 1.0
2 Mean Girls 1.0
3 Platoon No non pertinente
4 Le amiche della sposa 0,75
5 Citizen Kane No non pertinente
6 Questo è Spinal Tap 0,67

Il numero di risultati pertinenti è 4. Pertanto, puoi calcolare la precisione media a 6 come segue:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67) average precision at 6=~0.85

B

base di riferimento

#Metrica

Un modello utilizzato come punto di riferimento per confrontare il rendimento di un altro modello (in genere più complesso). Ad esempio, un modello di regressione logistica potrebbe essere un buon punto di riferimento per un modello di deep learning.

Per un problema specifico, la linea di base aiuta gli sviluppatori di modelli a quantificare il rendimento minimo previsto che un nuovo modello deve raggiungere per essere utile.

C

costo

#Metrica

Sinonimo di perdita.

equità controfattuale

#fairness
#Metrica

Una metrica di equità che controlla se un classificatore produce lo stesso risultato per un individuo e per un altro individuo identico al primo, tranne che per uno o più attributi sensibili. La valutazione di un classificatore per l'equità controfattuale è un metodo per evidenziare potenziali fonti di bias in un modello.

Per ulteriori informazioni, consulta una delle seguenti risorse:

entropia incrociata

#Metrica

Una generalizzazione della perdita di log per problemi di classificazione multiclasse. L'entropia incrociata quantifica la differenza tra due distribuzioni di probabilità. Vedi anche perplessità.

funzione di distribuzione cumulativa (CDF)

#Metrica

Una funzione che definisce la frequenza dei campioni minori o uguali a un valore di destinazione. Ad esempio, considera una distribuzione normale di valori continui. Una CDF indica che circa il 50% dei campioni deve essere inferiore o uguale alla media e che circa l'84% dei campioni deve essere inferiore o uguale a una deviazione standard sopra la media.

D

parità demografica

#fairness
#Metrica

Una metrica di equità che è soddisfatta se i risultati della classificazione di un modello non dipendono da un determinato attributo sensibile.

Ad esempio, se sia i lillipuziani che i brobdingnagiani si iscrivono all'Università Glubbdubdrib, la parità demografica viene raggiunta se la percentuale di lillipuziani ammessi è uguale alla percentuale di brobdingnagiani ammessi, indipendentemente dal fatto che un gruppo sia in media più qualificato dell'altro.

È diverso da pari opportunità e uguaglianza di opportunità, che consentono ai risultati di classificazione aggregati di dipendere da attributi sensibili, ma non consentono ai risultati di classificazione per determinate etichette ground truth specificate di dipendere da attributi sensibili. Consulta "Attacking discrimination with smarter machine learning" per una visualizzazione che illustra i compromessi durante l'ottimizzazione per la parità demografica.

Per ulteriori informazioni, consulta Equità: parità demografica nel corso introduttivo al machine learning.

E

distanza del movimento della terra (EMD)

#Metrica

Una misura della somiglianza relativa di due distribuzioni. Più bassa è la distanza del movimento della terra, più simili sono le distribuzioni.

distanza di modifica

#language
#Metrica

Una misura della somiglianza tra due stringhe di testo. Nel machine learning, la distanza di modifica è utile per i seguenti motivi:

  • La distanza di modifica è facile da calcolare.
  • La distanza di modifica può confrontare due stringhe note per essere simili tra loro.
  • La distanza di modifica può determinare il grado di somiglianza tra stringhe diverse e una determinata stringa.

Esistono diverse definizioni della distanza di modifica, ciascuna delle quali utilizza operazioni su stringhe diverse. Consulta Distanza di Levenshtein per un esempio.

Funzione di distribuzione cumulativa empirica (eCDF o EDF)

#Metrica

Una funzione di distribuzione cumulativa basata su misure empiriche di un set di dati reale. Il valore della funzione in qualsiasi punto dell'asse x è la frazione di osservazioni nel set di dati minori o uguali al valore specificato.

entropia

#df
#Metrica

In teoria dell'informazione, una descrizione dell'imprevedibilità di una distribuzione di probabilità. In alternativa, l'entropia è definita anche come la quantità di informazione contenuta in ogni esempio. Una distribuzione ha la massima entropia possibile quando tutti i valori di una variabile aleatoria sono simili.

L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dove:

  • H è l'entropia.
  • p è la frazione di esempi "1".
  • q è la frazione di esempi "0". Tieni presente che q = (1 - p)
  • log è generalmente log2. In questo caso, l'unità di misura dell'entropia è un bit.

Ad esempio, supponiamo quanto segue:

  • 100 esempi contengono il valore "1"
  • 300 esempi contengono il valore "0"

Pertanto, il valore di entropia è:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per esempio

Un insieme perfettamente bilanciato (ad esempio 200 "0" e 200 "1") avrebbe un'entropia di 1, 0 bit per esempio. Man mano che un insieme diventa più sbilanciato, la sua entropia si sposta verso 0,0.

Negli alberi decisionali, l'entropia aiuta a formulare il guadagno di informazione per aiutare lo strumento di suddivisione a selezionare le condizioni durante la crescita di un albero decisionale di classificazione.

Confronta l'entropia con:

L'entropia viene spesso chiamata entropia di Shannon.

Per ulteriori informazioni, consulta Spartito esatto per la classificazione binaria con caratteristiche numeriche nel corso sulle foreste di decisione.

uguaglianza di opportunità

#fairness
#Metrica

Una metrica di equità per valutare se un modello predittivo è ugualmente efficace per tutti i valori di un attributo sensibile. In altre parole, se il risultato auspicato per un modello è la classe positiva, lo scopo è che il tasso di veri positivi sia uguale per tutti i gruppi.

L'uguaglianza di opportunità è correlata alle probabilità uguali, che richiedono che entrambi i tassi di veri positivi e falsi positivi siano uguali per tutti i gruppi.

Supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie dei Lillipuziani offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è idonea per il programma universitario. Le scuole secondarie dei Brobdingnagiani non offrono affatto corsi di matematica e, di conseguenza, un numero molto minore di loro è qualificato. L'uguaglianza di opportunità è soddisfatta per l'etichetta preferita di "ammissione" in base alla nazionalità (Lilliputiana o Brobdingnagiana) se gli studenti qualificati hanno la stessa probabilità di essere ammessi indipendentemente dal fatto che siano Lilliputiani o Brobdingnagiani.

Ad esempio, supponiamo che 100 Lillipuziani e 100 Brobdingnagiani presentino domanda di ammissione all'Università Glubbdubdrib e che le decisioni di ammissione vengano prese nel seguente modo:

Tabella 1. Lilliputian (90% idonei)

  Qualificato Non qualificato
Ammessi 45 3
Rifiutato 45 7
Totale 90 10
Percentuale di studenti idonei ammessi: 45/90 = 50%
Percentuale di studenti non idonei rifiutati: 7/10 = 70%
Percentuale totale di studenti di Lilliput ammessi: (45+3)/100 = 48%

 

Tabella 2. Richiedenti Brobdingnagian (il 10% è idoneo):

  Qualificato Non qualificato
Ammessi 5 9
Rifiutato 5 81
Totale 10 90
Percentuale di studenti idonei ammessi: 5/10 = 50%
Percentuale di studenti non idonei rifiutati: 81/90 = 90%
Percentuale totale di studenti di Brobdingnag ammessi: (5+9)/100 = 14%

Gli esempi precedenti soddisfano l'uguaglianza di opportunità per l'accettazione degli studenti qualificati perché sia i Lillipuziani che i Brobdingnagiani qualificati hanno entrambi il 50% di probabilità di essere ammessi.

Sebbene l'uguaglianza di opportunità sia soddisfatta, le seguenti due metriche di equità non lo sono:

  • Parità demografica: i Lillipuziani e i Brobdingnagiani vengono ammessi all'università a tassi diversi; il 48% degli studenti Lillipuziani viene ammesso, ma solo il 14% degli studenti Brobdingnagiani.
  • Probabilità uguali: sebbene gli studenti di Lilliput e Brobdingnag idonei abbiano entrambi la stessa probabilità di essere ammessi, il vincolo aggiuntivo che gli studenti di Lilliput e Brobdingnag non idonei abbiano entrambi la stessa probabilità di essere rifiutati non è soddisfatto. I Lillipuziani non idonei hanno un tasso di rifiuto del 70%, mentre i Brobdingnagiani non idonei hanno un tasso di rifiuto del 90%.

Per ulteriori informazioni, consulta Equità: parità di opportunità nel corso introduttivo al machine learning.

probabilità ugualizzate

#fairness
#Metrica

Una metrica di equità per valutare se un modello prevede gli esiti allo stesso modo per tutti i valori di un attributo sensibile sia rispetto alla classe positiva sia rispetto alla classe negativa, non solo per una classe o per l'altra in modo esclusivo. In altre parole, sia la percentuale di veri positivi sia la percentuale di falsi negativi devono essere uguali per tutti i gruppi.

Le probabilità ugualizzate sono correlate all'uguaglianza di opportunità, che si concentra solo sui tassi di errore per una singola classe (positiva o negativa).

Ad esempio, supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i Brobdingnagiani a un rigoroso programma di matematica. I licei dei Lillipuziani offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è idonea al programma universitario. I Brobdingnagiani non offrono affatto corsi di matematica nelle scuole secondarie e, di conseguenza, un numero molto inferiore di studenti è qualificato. Le probabilità uguali sono soddisfatte a condizione che, indipendentemente dal fatto che un richiedente sia un lillipuziano o un brobdignag, se è qualificato, abbia le stesse probabilità di essere ammesso al programma e, se non è qualificato, abbia le stesse probabilità di essere rifiutato.

Supponiamo che 100 lillipuziani e 100 brobdingnagiani presentino domanda di ammissione all'Università di Glubbdubdrib e che le decisioni di ammissione vengano prese nel seguente modo:

Tabella 3. Lilliputian (90% idonei)

  Qualificato Non qualificato
Ammessi 45 2
Rifiutato 45 8
Totale 90 10
Percentuale di studenti idonei ammessi: 45/90 = 50%
Percentuale di studenti non idonei rifiutati: 8/10 = 80%
Percentuale totale di studenti lillipuziani ammessi: (45+2)/100 = 47%

 

Tabella 4. Richiedenti Brobdingnagian (il 10% è idoneo):

  Qualificato Non qualificato
Ammessi 5 18
Rifiutato 5 72
Totale 10 90
Percentuale di studenti idonei ammessi: 5/10 = 50%
Percentuale di studenti non idonei rifiutati: 72/90 = 80%
Percentuale totale di studenti di Brobdingnag ammessi: (5+18)/100 = 23%

Le probabilità uguali sono soddisfatte perché gli studenti di Lilliput e Brobdingnag idonei hanno entrambi una probabilità del 50% di essere ammessi e gli studenti di Lilliput e Brobdingnag non idonei hanno una probabilità dell'80% di essere rifiutati.

Le probabilità ugualizzate sono definite formalmente in "Equality of Opportunity in Supervised Learning" come segue: "il predittore Ŷ soddisfa le probabilità ugualizzate rispetto all'attributo protetto A e al risultato Y se Ŷ e A sono indipendenti, in base a Y".

evals

#language
#generativeAI
#Metrica

Utilizzato principalmente come abbreviazione di valutazioni LLM. Più in generale, evals è un'abbreviazione per qualsiasi forma di valutazione.

valutazione

#language
#generativeAI
#Metrica

Il processo di misurazione della qualità di un modello o di confronto tra modelli diversi.

Per valutare un modello di machine learning supervisionato, in genere lo si confronta con un set di convalida e un set di test. La valutazione di un LLM tipicamente prevede valutazioni più ampie di qualità e sicurezza.

F

F1

#Metrica

Una metrica di classificazione binaria "aggregata" che si basa sia sulla precisione sia sul richiamo. Ecco la formula:

F1=2 * precision * recallprecision + recall

Supponiamo che la precisione e il richiamo abbiano i seguenti valori:

  • precision = 0.6
  • recall = 0,4

Calcoli F1 come segue:

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

Quando la precisione e il richiamo sono abbastanza simili (come nell'esempio precedente), F1 è vicino alla loro media. Quando la precisione e il richiamo differiscono in modo significativo, F1 è più vicino al valore inferiore. Ad esempio:

  • precision = 0,9
  • recall = 0.1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

metrica di equità

#fairness
#Metrica

Una definizione matematica di "equità" misurabile. Alcune metriche di equità di uso comune includono:

Molte metriche di equità sono mutuamente esclusive; consulta la sezione sull'incompatibilità delle metriche di equità.

falso negativo (FN)

#fundamentals
#Metrica

Un esempio in cui il modello prevede erroneamente la classe negativa. Ad esempio, il modello predice che un determinato messaggio email non è spam (la classe negativa), ma il messaggio email in realtà è spam.

tasso di falsi negativi

#Metrica

La proporzione di esempi positivi effettivi per i quali il modello ha previsto erroneamente la classe negativa. La seguente formula calcola il tasso di falsi positivi:

false negative rate=false negativesfalse negatives+true positives

Per ulteriori informazioni, consulta Soglie e matrice di confusione nel corso introduttivo al machine learning.

falso positivo (FP)

#fundamentals
#Metrica

Un esempio in cui il modello prevede erroneamente la classe positiva. Ad esempio, il modello prevede che un determinato messaggio email sia spam (la classe positiva), ma in realtà il messaggio email non è spam.

Per ulteriori informazioni, consulta Soglie e matrice di confusione nel corso introduttivo al machine learning.

tasso di falsi positivi (FPR)

#fundamentals
#Metrica

La proporzione di esempi negativi effettivi per i quali il modello ha previsto erroneamente la classe positiva. La seguente formula calcola il tasso di falsi positivi:

false positive rate=false positivesfalse positives+true negatives

La percentuale di falsi positivi è l'asse x di una curva ROC.

Per ulteriori informazioni, consulta Classificazione: ROC e AUC nel corso introduttivo al machine learning.

importanza delle caratteristiche

#df
#Metrica

Sinonimo di importanza delle variabili.

frazione di successi

#generativeAI
#Metrica

Una metrica per valutare il testo generato di un modello ML. La frazione di successi è il numero di output di testo generati "correttamente" diviso per il numero totale di output di testo generati. Ad esempio, se un modello linguistico di grandi dimensioni ha generato 10 blocchi di codice, di cui cinque sono andati a buon fine, la frazione di successi sarà del 50%.

Sebbene la frazione di successi sia ampiamente utile in tutte le statistiche, nel machine learning questa metrica è utile principalmente per misurare attività verificabili come la generazione di codice o i problemi di matematica.

G

Impurità di Gini

#df
#Metrica

Una metrica simile all'entropia. Gli strumenti di suddivisione utilizzano i valori derivati dall'impurità di Gini o dall'entropia per comporre condizioni per la classificazione degli alberi decisionali. Il guadagno di informazione deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità di Gini. Tuttavia, questa metrica senza nome è importante quanto il guadagno di informazione.

L'impurità di Gini è chiamata anche indice di Gini o semplicemente Gini.

L'impurità di Gini è la probabilità di classificare erroneamente un nuovo dato proveniente dalla stessa distribuzione. L'impurità di Gini di un insieme con due possibili valori "0" e "1" (ad esempio le etichette in un problema di classificazione binaria) viene calcolata in base alla seguente formula:

   I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)

dove:

  • I è l'impurità di Gini.
  • p è la frazione di esempi "1".
  • q è la frazione di esempi "0". Tieni presente che q = 1-p

Ad esempio, considera il seguente set di dati:

  • 100 etichette (0,25 del set di dati) contengono il valore "1"
  • 300 etichette (0,75 del set di dati) contengono il valore "0"

Pertanto, l'impurità di Gini è:

  • p = 0,25
  • q = 0,75
  • I = 1 - (0,252 + 0,752) = 0,375

Di conseguenza, un'etichetta casuale dello stesso set di dati avrebbe una probabilità del 37,5% di essere classificata erroneamente e una probabilità del 62,5% di essere classificata correttamente.

Un'etichetta perfettamente bilanciata (ad esempio 200 "0" e 200 "1") avrebbe un'impurità di 0, 5. Un'etichetta molto sbilanciata avrebbe un'impurità gini vicina a 0,0.


H

perdita della cerniera

#Metrica

Una famiglia di funzioni di perdita per la classificazione progettata per trovare il confine di decisione il più lontano possibile da ogni esempio di addestramento, quindi massimizzando il margine tra gli esempi e il confine. I KSVM utilizzano la perdita a cerniera (o una funzione correlata, come la perdita a cerniera al quadrato). Per la classificazione binaria, la funzione di perdita di hinge è definita come segue:

loss=max(0,1(yy))

dove y è l'etichetta vera, -1 o +1, e y' è l'output non elaborato del modello di classificazione:

y=b+w1x1+w2x2+wnxn

Di conseguenza, un grafico della perdita a cerniera rispetto a (y * y') è il seguente:

Un grafico cartesiano costituito da due segmenti di linea uniti. Il primo
          segmento di linea inizia in (-3, 4) e termina in (1, 0). Il secondo segmento
          di linea inizia in (1, 0) e continua a tempo indeterminato con una pendenza
          di 0.

I

Incompatibilità delle metriche di equità

#fairness
#Metrica

L'idea che alcune nozioni di equità siano reciprocamente incompatibili e non possano essere soddisfatte contemporaneamente. Di conseguenza, non esiste un'unica metrica universale per quantificare l'equità che possa essere applicata a tutti i problemi di ML.

Anche se può sembrare scoraggiante, l'incompatibilità delle metriche di equità non implica che gli sforzi per l'equità siano infruttuosi. Suggerisce invece che l'equità debba essere definita in modo contestuale per un determinato problema di ML, con lo scopo di prevenire danni specifici ai relativi casi d'uso.

Per una discussione più dettagliata sull'incompatibilità delle metriche di equità, consulta "Sulla (im)possibilità di equità".

equità individuale

#fairness
#Metrica

Una metrica di equità che controlla se persone simili vengono classificate in modo simile. Ad esempio, la Brobdingnagian Academy potrebbe voler soddisfare la equità individuale garantendo che due studenti con voti e punteggi dei test standardizzati identici abbiano la stessa probabilità di ottenere l'ammissione.

Tieni presente che l'equità individuale si basa interamente su come definisci la"somiglianza" (in questo caso, voti e risultati dei test) e puoi rischiare di introdurre nuovi problemi di equità se la metrica di somiglianza non contiene informazioni importanti (come la rigore del curriculum di uno studente).

Per una discussione più dettagliata sull'equità individuale, consulta "Equità tramite consapevolezza".

guadagno di informazioni

#df
#Metrica

Nelle foreste di alberi decisionali, la differenza tra l'entropia di un nodo e la somma ponderata (in base al numero di esempi) dell'entropia dei suoi nodi secondari. L'entropia di un nodo è l'entropia degli esempi in quel nodo.

Ad esempio, considera i seguenti valori di entropia:

  • entropia del nodo principale = 0,6
  • entropia di un nodo secondario con 16 esempi pertinenti = 0,2
  • entropia di un altro nodo secondario con 24 esempi pertinenti = 0,1

Pertanto, il 40% degli esempi si trova in un nodo figlio e il 60% nell'altro nodo figlio. Pertanto:

  • somma dell'entropia ponderata dei nodi secondari = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Pertanto, l'incremento di informazioni è:

  • guadagno informativo = entropia del nodo principale - somma ponderata dell'entropia dei nodi secondari
  • guadagno informativo = 0,6 - 0,14 = 0,46

La maggior parte degli strumenti di suddivisione cerca di creare condizioni che massimizzano l'aumento delle informazioni.

accordo tra valutatori

#Metrica

Una misura della frequenza con cui i valutatori umani sono d'accordo quando svolgono un'attività. Se i valutatori non sono d'accordo, potrebbe essere necessario migliorare le istruzioni dell'attività. A volte viene chiamata anche concordanza tra annotatori o attendibilità tra valutatori. Consulta anche kappa di Cohen, che è uno dei metodi di misurazione dell'accordo tra valutatori più utilizzati.

Per ulteriori informazioni, consulta Dati categorici: problemi comuni nel corso introduttivo al machine learning.

L

Perdita L1

#fundamentals
#Metrica

Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi delle etichette e i valori previsti da un modello. Ad esempio, di seguito è riportato il calcolo della perdita L1 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Valore assoluto di delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perdita L1

La perdita L1 è meno sensibile ai valori anomali rispetto alla perdita L2.

L'errore assoluto medio è la perdita media L1 per esempio.

L1loss=ni=0|yiˆyi|

where:
  • n è il numero di esempi.
  • y è il valore effettivo dell'etichetta.
  • ˆy è il valore previsto dal modello per y.

Per ulteriori informazioni, consulta la sezione Regressione lineare: perdita nel corso introduttivo al machine learning.

Perdita L2

#fundamentals
#Metrica

Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi delle etichette e i valori previsti da un modello. Ad esempio, di seguito è riportato il calcolo della perdita L2 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Quadrato del delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perdita L2

A causa della quadratura, la perdita L2 amplifica l'influenza degli outlier. In altre parole, la perdita L2 reagisce in modo più marcato alle previsioni sbagliate rispetto alla perdita L1. Ad esempio, la perdita L1 per il batch precedente sarà 8 anziché 16. Tieni presente che un singolo valore outlier rappresenta 9 dei 16.

I modelli di regressione in genere utilizzano la perdita L2 come funzione di perdita.

Lo scarto quadratico medio è la perdita L2 media per esempio. La perdita quadratica è un altro nome per la perdita L2.

L2loss=ni=0(yiˆyi)2

where:
  • n è il numero di esempi.
  • y è il valore effettivo dell'etichetta.
  • ˆy è il valore previsto dal modello per y.

Per ulteriori informazioni, consulta la sezione Regressione logistica: perdita e regolarizzazione nel corso introduttivo al machine learning.

Valutazioni LLM (evals)

#language
#generativeAI
#Metrica

Un insieme di metriche e benchmark per valutare il rendimento dei modelli linguistici di grandi dimensioni (LLM). A livello generale, le valutazioni LLM:

  • Aiuta i ricercatori a identificare le aree in cui gli LLM devono essere migliorati.
  • Sono utili per confrontare diversi LLM e identificare il migliore per una determinata attività.
  • Contribuisci a garantire che gli LLM siano sicuri ed etici.

Per saperne di più, consulta la sezione Modelli linguistici di grandi dimensioni (LLM) nel corso introduttivo al machine learning.

perdita

#fundamentals
#Metrica

Durante l'addestramento di un modello supervisionato, una misura della distanza tra la previsione di un modello e la sua etichetta.

Una funzione di perdita calcola la perdita.

Per ulteriori informazioni, consulta Regressione lineare: perdita nel corso introduttivo al machine learning.

funzione di perdita

#fundamentals
#Metrica

Durante l'addestramento o il test, una funzione matematica che calcola la perdita su un batch di esempi. Una funzione di perdita restituisce una perdita inferiore per i modelli che fanno buone previsioni rispetto a quelli che fanno cattive previsioni.

Lo scopo dell'addestramento è in genere minimizzare la perdita restituita da una funzione di perdita.

Esistono molti tipi diversi di funzioni di perdita. Scegli la funzione di perdita appropriata per il tipo di modello che stai creando. Ad esempio:

M

Errore assoluto medio (MAE)

#Metrica

La perdita media per esempio quando viene utilizzata la perdita L1. Calcola l'errore assoluto medio come segue:

  1. Calcola la perdita L1 per un batch.
  2. Dividi la perdita L1 per il numero di esempi nel batch.

Mean Absolute Error=1nni=0|yiˆyi|

dove:

  • n è il numero di esempi.
  • y è il valore effettivo dell'etichetta.
  • ˆy è il valore previsto dal modello per y.

Ad esempio, considera il calcolo della perdita L1 sul seguente batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Perdita (differenza tra valore effettivo e previsto)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perdita L1

Pertanto, la perdita L1 è 8 e il numero di esempi è 5. Pertanto, l'errore assoluto medio è:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Confronta l'errore assoluto medio con l'errore quadratico medio e con l'errore quadratico medio della radice.

Precisione media a k (mAP@k)

#language
#generativeAI
#Metrica

La media statistica di tutti i punteggi di precisione media a k in un set di dati di convalida. Un utilizzo della precisione media a k è valutare la qualità dei consigli generati da un sistema di consigli.

Sebbene la frase "media media" possa sembrare ridondante, il nome della metrica è appropriato. Dopotutto, questa metrica trova la media di più valori di precisione media a k.

Supponiamo che tu stia creando un sistema di consigli che generi un elenco personalizzato di romanzi consigliati per ogni utente. In base al feedback di alcuni utenti, calcola i seguenti cinque punteggi di precisione media a k (un punteggio per utente):

  • 0,73
  • 0,77
  • 0,67
  • 0,82
  • 0,76

La precisione media media a K è quindi:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

Errore quadratico medio (MSE)

#Metrica

La perdita media per esempio quando viene utilizzata la perdita L2. Calcola lo scarto quadratico medio come segue:

  1. Calcola la perdita L2 per un batch.
  2. Dividi la perdita L2 per il numero di esempi nel batch.
Mean Squared Error=1nni=0(yiˆyi)2 where:
  • n è il numero di esempi.
  • y è il valore effettivo dell'etichetta.
  • ˆy è la previsione del modello per y.

Ad esempio, considera la perdita nel seguente batch di cinque esempi:

Valore effettivo Previsione del modello Perdita Perdita quadratica
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = perdita L2

Pertanto, l'errore quadratico medio è:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Lo scarto quadratico medio è un popolare ottimizzatore dell'addestramento, in particolare per la regressione lineare.

Confronta l'errore quadratico medio con l'errore assoluto medio e con l'errore quadratico medio della radice.

TensorFlow Playground utilizza lo scarto quadratico medio per calcolare i valori di perdita.

Gli outlier influiscono fortemente sullo scarto quadratico medio. Ad esempio, una perdita di 1 corrisponde a un errore quadratico di 1, mentre una perdita di 3 corrisponde a un errore quadratico di 9. Nella tabella precedente, l'esempio con una perdita di 3 rappresenta circa il 56% dell'errore quadratico medio, mentre ciascuno degli esempi con una perdita di 1 rappresenta solo il 6% dell'errore quadratico medio.

Gli outlier non influiscono sull'errore assoluto medio così fortemente come sull'errore quadratico medio. Ad esempio, la perdita di 3 account rappresenta solo il 38% circa dell'errore assoluto medio.

Il taglio è un modo per impedire ai valori outlier estremi di danneggiare la capacità predittiva del modello.


metrica

#TensorFlow
#Metrica

Una statistica che ti interessa.

Un obiettivo è una metrica che un sistema di machine learning tenta di ottimizzare.

API Metrics (tf.metrics)

#Metrica

Un'API TensorFlow per la valutazione dei modelli. Ad esempio, tf.metrics.accuracy determina la frequenza con cui le previsioni di un modello corrispondono alle etichette.

perdita minimax

#Metrica

Una funzione di perdita per le reti antagoniste generative, basata sulla entropia di crociera tra la distribuzione dei dati generati e quella dei dati reali.

La perdita minimax viene utilizzata nel primo articolo per descrivere le reti di generazione avversarie.

Per saperne di più, consulta la sezione Funzioni di perdita nel corso Generative Adversarial Networks.

capacità del modello

#Metrica

La complessità dei problemi che un modello può apprendere. Più complessi sono i problemi che un modello può apprendere, maggiore è la sua capacità. La capacità di un modello in genere aumenta con il numero di parametri del modello. Per una definizione formale della capacità dello strumento di classificazione, consulta Dimensione VC.

No

classe negativa

#fundamentals
#Metrica

Nella classificazione binaria, una classe è definita positiva e l'altra negativa. La classe positiva è la cosa o l'evento per cui il modello esegue il test, mentre la classe negativa è l'altra possibilità. Ad esempio:

  • La classe negativa in un test medico potrebbe essere "nessun tumore".
  • La classe negativa in un classificatore di email potrebbe essere "non spam".

È il contrario della classe positiva.

O

scopo

#Metrica

Una metrica che l'algoritmo sta cercando di ottimizzare.

funzione obiettivo

#Metrica

La formula matematica o la metrica che un modello mira a ottimizzare. Ad esempio, la funzione obiettivo per la regressione lineare è solitamente la perdita quadratica media. Pertanto, quando si addestra un modello di regressione lineare, l'addestramento mira a minimizzare la perdita quadratica media.

In alcuni casi, l'obiettivo è massimizzare la funzione obiettivo. Ad esempio, se la funzione obiettivo è l'accuratezza, l'obiettivo è massimizzare l'accuratezza.

Vedi anche perdita.

P

pass at k (pass@k)

#Metrica

Una metrica per determinare la qualità del codice (ad esempio Python) generato da un modello linguistico di grandi dimensioni. Nello specifico, il passaggio a k indica la probabilità che almeno un blocco di codice generato su k blocchi di codice generati superi tutti i relativi test delle unità.

I modelli linguistici di grandi dimensioni spesso hanno difficoltà a generare codice di buona qualità per problemi di programmazione complessi. I software engineer si adattano a questo problema chiedendo al modello linguistico di grandi dimensioni di generare più (k) soluzioni per lo stesso problema. Successivamente, gli ingegneri del software testano ciascuna delle soluzioni in base ai test delle unità. Il calcolo del passaggio a k dipende dal risultato degli unit test:

  • Se una o più di queste soluzioni superano il test di unità, l'LLM supera la sfida di generazione di codice.
  • Se nessuna delle soluzioni supera il test di unità, il modello LLM non supera la sfida di generazione di codice.

La formula per il passaggio a k è la seguente:

pass at k=total number of passestotal number of challenges

In generale, valori più elevati di k producono un numero maggiore di passaggi con punteggi k; tuttavia, valori più elevati di k richiedono più risorse per i test di unità e i modelli linguistici di grandi dimensioni.

Supponiamo che un ingegnere del software chieda a un modello linguistico di grandi dimensioni di generare k=10 soluzioni per n=50 problemi di programmazione complessi. Ecco i risultati:

  • 30 tessere
  • 20 errori

Il punteggio di superamento a 10 è quindi:

pass at 10=3050=0.6

prestazioni

#Metrica

Termine sovraccaricato con i seguenti significati:

  • Il significato standard nell'ambito dell'ingegneria del software. Nello specifico: quanto è rapida (o efficiente) l'esecuzione di questo software?
  • Il significato nel machine learning. In questo caso, il rendimento risponde alla seguente domanda: quanto è corretto questo modello? In altre parole, quanto sono buone le previsioni del modello?

importanza delle variabili di permutazione

#df
#Metrica

Un tipo di importanza della variabile che valuta l'aumento dell'errore di previsione di un modello dopo la permutazione dei valori della caratteristica. L'importanza della variabile di permutazione è una metrica indipendente dal modello.

perplessità

#Metrica

Una misura del livello di efficacia con cui un modello completa la sua attività. Ad esempio, supponiamo che la tua attività sia leggere le prime lettere di una parola che un utente sta digitando sulla tastiera di uno smartphone e offrire un elenco di possibili parole di completamento. La complessità, P, per questa attività è approssimativamente il numero di ipotesi che devi offrire affinché l'elenco contenga la parola effettiva che l'utente sta cercando di digitare.

La perplessità è correlata all'entropia incrociata come segue:

P=2cross entropy

classe positiva

#fundamentals
#Metrica

Il corso per cui stai eseguendo il test.

Ad esempio, la classe positiva in un modello di cancro potrebbe essere "tumore". La classe positiva in un classificatore di email potrebbe essere "spam".

È il contrario della classe negativa.

Il termine classe positiva può creare confusione perché il risultato "positivo" di molti test è spesso un risultato indesiderato. Ad esempio, la classe positiva in molti esami medici corrisponde a tumori o malattie. In genere, vorresti che un dottore ti dicesse: "Congratulazioni. I risultati del test sono stati negativi." In ogni caso, la classe positiva è l'evento che il test sta cercando di trovare.

È vero, stai testando contemporaneamente sia i gruppi positivi che quelli negativi.


AUC PR (area sotto la curva PR)

#Metrica

Area sotto la curva di precisione-richiamo interpolata, ottenuta tracciando i punti (richiamo, precisione) per diversi valori della soglia di classificazione.

precisione

#Metrica

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando il modello ha previsto la classe positiva, qual è stata la percentuale di previsioni corrette?

Ecco la formula:

Precision=true positivestrue positives+false positives

dove:

  • vero positivo significa che il modello ha predetto correttamente la classe positiva.
  • falso positivo significa che il modello ha erroneamente previsto la classe positiva.

Ad esempio, supponiamo che un modello abbia effettuato 200 previsioni positive. Di queste 200 previsioni positive:

  • 150 erano veri positivi.
  • 50 erano falsi positivi.

In questo caso:

Precision=150150+50=0.75

È il contrario di accuratezza e richiamo.

Per ulteriori informazioni, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate nel corso introduttivo al machine learning.

Precisione a k (precisione@k)

#language
#Metrica

Una metrica per valutare un elenco classificato (ordinato) di elementi. La precisione a k identifica la frazione dei primi k elementi nell'elenco che sono "pertinenti". Ossia:

precision at k=relevant items in first k items of the listk

Il valore di k deve essere minore o uguale alla lunghezza dell'elenco restituito. Tieni presente che la lunghezza dell'elenco restituito non fa parte del calcolo.

La pertinenza è spesso soggettiva; anche gli esperti valutatori umani spesso non sono d'accordo su quali elementi sono pertinenti.

Confronta con:

Supponiamo che a un modello linguistico di grandi dimensioni sia stata data la seguente query:

List the 6 funniest movies of all time in order.

Il modello linguistico di grandi dimensioni restituisce l'elenco mostrato nelle due prime colonne della tabella seguente:

Posizione Film Pertinente?
1 Il generale
2 Mean Girls
3 Platoon No
4 Le amiche della sposa
5 Citizen Kane No
6 Questo è Spinal Tap

Due dei primi tre film sono pertinenti, quindi la precisione a 3 è:

precision at 3=23=0.67

Quattro dei primi cinque film sono molto divertenti, quindi la precisione a 5 è:

precision at 5=45=0.8

curva di precisione-richiamo

#Metrica

Una curva di precisione rispetto al richiamo a diverse soglie di classificazione.

bias di previsione

#Metrica

Un valore che indica la distanza tra la media delle previsioni e la media delle etichette nel set di dati.

Da non confondere con il termine bias nei modelli di machine learning o con i bias in termini di etica ed equità.

parità predittiva

#fairness
#Metrica

Una metrica di equità che controlla se, per un determinato classificatore, i tassi di precisione sono equivalenti per i sottogruppi presi in considerazione.

Ad esempio, un modello che prevede l'accettazione in un college soddisferebbe la parità predittiva per la nazionalità se il suo tasso di precisione fosse lo stesso per i lillipuziani e i brobdingnagiani.

La parità predittiva è talvolta chiamata anche parità di tariffa predittiva.

Per una discussione più dettagliata sulla parità predittiva, consulta la sezione "Definizioni di equità spiegate" (sezione 3.2.1).

parità di tariffa predittiva

#fairness
#Metrica

Un altro nome per la parità predittiva.

funzione di densità di probabilità

#Metrica

Una funzione che identifica la frequenza degli esempi di dati con esattamente un determinato valore. Quando i valori di un set di dati sono numeri con virgola mobile continui, le corrispondenze esatte si verificano raramente. Tuttavia, l'integrazione di una funzione di densità di probabilità dal valore x al valore y genera la frequenza prevista dei campioni di dati tra x e y.

Ad esempio, prendiamo in considerazione una distribuzione normale con una media di 200 e una deviazione standard di 30. Per determinare la frequenza prevista dei campioni di dati che rientrano nell'intervallo 211,4-218,7, puoi integrare la funzione di probabilità di densità per una distribuzione normale da 211,4 a 218,7.

R

richiamo

#Metrica

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando i dati empirici reali erano la classe positiva, quale percentuale di previsioni è stato identificato correttamente dal modello come classe positiva?

Ecco la formula:

Recall=true positivestrue positives+false negatives

dove:

  • vero positivo significa che il modello ha predetto correttamente la classe positiva.
  • Un falso negativo indica che il modello ha erroneamente previsto la classe negativa.

Ad esempio, supponiamo che il modello abbia effettuato 200 previsioni su esempi per i quali il valore di verità è la classe positiva. Di queste 200 previsioni:

  • 180 erano veri positivi.
  • 20 erano falsi negativi.

In questo caso:

Recall=180180+20=0.9

Il richiamo è particolarmente utile per determinare il potere predittivo dei modelli di classificazione in cui la classe positiva è rara. Ad esempio, considera un set di dati con sbilanciamento delle classi in cui la classe positiva per una determinata malattia si verifica solo in 10 pazienti su un milione. Supponiamo che il tuo modello effettui cinque milioni di previsioni che generano i seguenti risultati:

  • 30 veri positivi
  • 20 falsi negativi
  • 4.999.000 veri negativi
  • 950 falsi positivi

Il richiamo di questo modello è quindi:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
Al contrario, l'accuratezza di questo modello è:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Questo elevato valore di accuratezza sembra impressionante, ma è sostanzialmente privo di significato. Il richiamo è una metrica molto più utile per i set di dati con classi sbilanciate rispetto alla precisione.


Per ulteriori informazioni, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate.

Richiamo a k (recall@k)

#language
#Metrica

Una metrica per la valutazione dei sistemi che generano un elenco classificato (ordinato) di elementi. Il recupero a k identifica la frazione di elementi pertinenti nei primi k elementi in quell'elenco rispetto al numero totale di elementi pertinenti restituiti.

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

Confronta con la precisione a k.

Supponiamo che a un modello linguistico di grandi dimensioni sia stata data la seguente query:

List the 10 funniest movies of all time in order.

Il modello linguistico di grandi dimensioni restituisce l'elenco mostrato nelle prime due colonne:

Posizione Film Pertinente?
1 Il generale
2 Mean Girls
3 Platoon No
4 Le amiche della sposa
5 Questo è Spinal Tap
6 Aereo!
7 Marmotta del giorno della Marmotta
8 Monty Python e il Sacro Graal
9 Oppenheimer No
10 Ragazze a Beverly Hills

Otto dei film nell'elenco precedente sono molto divertenti, quindi sono "elementi pertinenti nell'elenco". Pertanto, 8 sarà il denominatore in tutti i calcoli del richiamo a k. E il numeratore? Bene, 3 dei primi 4 elementi sono pertinenti, quindi il richiamo a 4 è:

recall at 4=38=0.375

7 dei primi 8 film sono molto divertenti, quindi il richiamo all'ottavo è:

recall at 8=78=0.875

Curva ROC (caratteristica operativa del ricevitore)

#fundamentals
#Metrica

Un grafico della percentuale di veri positivi rispetto alla percentuale di falsi positivi per diverse soglie di classificazione nella classificazione binaria.

La forma di una curva ROC suggerisce la capacità di un modello di classificazione binario di separare le classi positive dalle classi negative. Supponiamo, ad esempio, che un modello di classificazione binaria separi perfettamente tutte le classi negative da tutte le classi positive:

Una linea numerica con 8 esempi positivi sul lato destro e
          7 esempi negativi a sinistra.

La curva ROC per il modello precedente è la seguente:

Una curva ROC. L'asse x è la percentuale di falsi positivi e l'asse y è la percentuale di veri positivi. La curva ha la forma di una L rovesciata. La curva inizia in (0,0) e arriva fino a (0,1). Poi la curva
          passa da (0,0,1) a (1,0,1).

Al contrario, la seguente illustrazione mostra i valori non elaborati della regressione logistica per un modello pessimo che non riesce a separare le classi negative dalle classi positive:

Una linea numerica con esempi positivi e classi negative completamente mescolate.

La curva ROC per questo modello è la seguente:

Una curva ROC, che in realtà è una linea retta da (0,0)
          a (1,1).

Nel frattempo, nel mondo reale, la maggior parte dei modelli di classificazione binaria separa in qualche misura le classi positive e negative, ma in genere non in modo perfetto. Pertanto, una curva ROC tipica si trova a metà tra i due estremi:

Una curva ROC. L'asse x è la percentuale di falsi positivi e l'asse y è la percentuale di veri positivi. La curva ROC approssima un arco tremante
          che attraversa i punti cardinali da ovest a nord.

Il punto di una curva ROC più vicino a (0,0,1) identifica teoricamente la soglia di classificazione ideale. Tuttavia, diversi altri problemi reali influiscono sulla selezione della soglia di classificazione ideale. Ad esempio, forse i falsi negativi causano molti più problemi dei falsi positivi.

Una metrica numerica chiamata AUC riassume la curva ROC in un singolo valore con virgola mobile.

Errore quadratico medio (RMSE)

#fundamentals
#Metrica

La radice quadrata dell'errore quadratico medio.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#Metrica

Una famiglia di metriche che valutano i modelli di sintesi automatica e di traduzione automatica. Le metriche ROUGE determinano il grado in cui un testo di riferimento si sovrappone a un testo generato di un modello di ML. Ogni membro della famiglia di misurazioni ROUGE si sovrappone in modo diverso. Punteggi ROUGE più elevati indicano una maggiore somiglianza tra il testo di riferimento e il testo generato rispetto ai punteggi ROUGE più bassi.

In genere, ogni membro della famiglia ROUGE genera le seguenti metriche:

  • Precisione
  • Richiamo
  • F1

Per dettagli ed esempi, consulta:

ROUGE-L

#language
#Metrica

Un membro della famiglia ROUGE incentrato sulla lunghezza della sottosequenza comune più lunga nel testo di riferimento e nel testo generato. Le seguenti formule calcolano il richiamo e la precisione per ROUGE-L:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

Puoi quindi utilizzare F1 per aggregare il recupero ROUGE-L e la precisione ROUGE-L in un'unica metrica:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
Prendi in considerazione il seguente testo di riferimento e il testo generato.
Categoria Chi ha prodotto? Testo
Testo di riferimento Traduttore umano Voglio comprendere una vasta gamma di argomenti.
Testo generato Modello ML Voglio imparare un sacco di cose.
Pertanto:
  • La sottosequenza comune più lunga è 5 (Voglio di cose)
  • Il numero di parole nel testo di riferimento è 9.
  • Il numero di parole nel testo generato è 7.
Di conseguenza:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

ROUGE-L ignora i ritorni a capo nel testo di riferimento e nel testo generato, pertanto la sottosequenza comune più lunga potrebbe attraversare più frasi. Quando il testo di riferimento e il testo generato includono più frasi, in genere una variante di ROUGE-L chiamata ROUGE-Lsum è una metrica migliore. ROUGE-Lsum determina la sottosequenza comune più lunga per ogni frase in un passaggio e poi calcola la media di queste sottosequenze comuni più lunghe.

Prendi in considerazione il seguente testo di riferimento e il testo generato.
Categoria Chi ha prodotto? Testo
Testo di riferimento Traduttore umano La superficie di Marte è asciutta. Quasi tutta l'acqua si trova molto sottoterra.
Testo generato Modello ML Marte ha una superficie asciutta. Tuttavia, la maggior parte dell'acqua è sotterranea.
Pertanto:
Prima frase Seconda frase
Sequenza comune più lunga2 (asciutto su Marte) 3 (l'acqua è sotterranea)
Lunghezza della frase del testo di riferimento 6 7
Lunghezza della frase del testo generato 5 8
Di conseguenza:
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Metrica

Un insieme di metriche all'interno della famiglia ROUGE che confronta gli N-gram condivisi di una determinata dimensione nel testo di riferimento e nel testo generato. Ad esempio:

  • ROUGE-1 misura il numero di token condivisi nel testo di riferimento e nel testo generato.
  • ROUGE-2 misura il numero di bigrammi (2-gram) condivisi nel testo di riferimento e nel testo generato.
  • ROUGE-3 misura il numero di trigrammi (3-grammi) condivisi nel testo di riferimento e nel testo generato.

Puoi utilizzare le seguenti formule per calcolare il recupero e la precisione di ROUGE-N per qualsiasi membro della famiglia ROUGE-N:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

Puoi quindi utilizzare F1 per aggregare il recupero di ROUGE-N e la precisione di ROUGE-N in un'unica metrica:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
Supponiamo che tu decida di utilizzare ROUGE-2 per misurare l'efficacia della traduzione di un modello ML rispetto a quella di un traduttore umano.
Categoria Chi ha prodotto? Testo Bigrammi
Testo di riferimento Traduttore umano Voglio comprendere una vasta gamma di argomenti. Voglio, voglio, capire, capire una, una vasta, vasta gamma, varietà di, di cose
Testo generato Modello ML Voglio imparare un sacco di cose. Voglio, voglio, imparare, imparare molto, molto, di cose
Pertanto:
  • Il numero di bigrammi corrispondenti è 3 (Voglio, Voglio e di cose).
  • Il numero di bigrammi nel testo di riferimento è 8.
  • Il numero di bigrammi nel testo generato è 6.
Di conseguenza:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#language
#Metrica

Una forma tollerante di ROUGE-N che consente la corrispondenza di skip-gram. In altre parole, ROUGE-N conteggia solo n-grammi che corrispondono esattamente, mentre ROUGE-S conteggia anche gli n-grammi separati da una o più parole. Ad esempio, prendi in considerazione quanto indicato di seguito.

Durante il calcolo di ROUGE-N, il bigramma Nuvole bianche non corrisponde Nuvole bianche gonfie. Tuttavia, quando si calcola ROUGE-S, Nuvole bianche corrisponde a Nuvole bianche gonfie.

R al quadrato

#Metrica

Una metrica di regressione che indica la variazione in un etichetta dovuta a una singola caratteristica o a un insieme di caratteristiche. R-squared è un valore compreso tra 0 e 1, che puoi interpretare come segue:

  • Un valore R-quadrato pari a 0 indica che nessuna variazione di un'etichetta è dovuta all'insieme di funzionalità.
  • Un R-quadrato pari a 1 indica che tutta la variazione di un'etichetta è dovuta all'insieme di funzionalità.
  • Un R-quadrato compreso tra 0 e 1 indica la misura in cui la variazione dell'etichetta può essere prevista da una determinata caratteristica o dall'insieme di caratteristiche. Ad esempio, un R-quadrato di 0,10 indica che il 10% della varianza nella label è dovuto all'insieme di funzionalità, un R-quadrato di 0,20 indica che il 20% è dovuto all'insieme di funzionalità e così via.

R al quadrato è il quadrato del coefficiente di correlazione Pearson tra i valori previsti da un modello e i dati empirici reali.

S

calcolo punteggio

#recsystems
#Metrica

La parte di un sistema di consigli che fornisce un valore o un ranking per ogni elemento prodotto dalla fase di generazione di candidati.

misura di somiglianza

#clustering
#Metrica

Negli algoritmi di clustering, la metrica utilizzata per determinare quanto sono simili due esempi.

sparsità

#Metrica

Il numero di elementi impostati su zero (o null) in un vettore o una matrice diviso per il numero totale di voci nel vettore o nella matrice. Ad esempio, considera una matrice di 100 elementi in cui 98 celle contengono zero. Il calcolo della sparsità è il seguente:

sparsity=98100=0.98

La sparsità delle caratteristiche si riferisce alla sparsità di un vettore di caratteristiche; la sparsità del modello si riferisce alla sparsità dei pesi del modello.

perdita della cerniera al quadrato

#Metrica

Il quadrato della perdita di cerniera. La perdita con cerniera al quadrato penalizza gli outlier più severamente rispetto alla perdita con cerniera standard.

perdita al quadrato

#fundamentals
#Metrica

Sinonimo di perdita L2.

T

perdita di test

#fundamentals
#Metrica

Una metrica che rappresenta la perdita di un modello rispetto al set di test. Quando crei un modello, solitamente provi a ridurre al minimo la perdita del test. Questo perché una perdita di test bassa è un indicatore di qualità più forte di una perdita di addestramento o di perdita di convalida bassa.

A volte un ampio divario tra la perdita di test e la perdita di addestramento o di convalida suggerisce che è necessario aumentare il tasso di regolarizzazione.

accuratezza top-k

#language
#Metrica

La percentuale di volte in cui un'etichetta target viene visualizzata nelle prime k poz. degli elenchi generati. Gli elenchi possono essere consigli personalizzati o un elenco di articoli ordinati in base alla funzione softmax.

La precisione Top-k è nota anche come accuratezza a k.

Prendiamo in considerazione un sistema di machine learning che utilizza la funzione softmax per identificare le probabilità di alberi in base a un'immagine delle foglie di un albero. La tabella seguente mostra gli elenchi di output generati da cinque immagini di alberi di input. Ogni riga contiene un'etichetta di destinazione e i cinque alberi più probabili. Ad esempio, quando l'etichetta di destinazione era acero, il modello di machine learning identificava olmo come l'albero più probabile, quercia come il secondo albero più probabile e così via.

Etichetta target 1 2 3 4 5
aceri Olmo quercia acero faggi pioppi
cornioli quercia corniolo pioppi Hickory aceri
quercia quercia tiglio locusta ontano Linden
Linden aceri paw-paw quercia tiglio pioppi
quercia locusta Linden quercia aceri paw-paw

L'etichetta target viene visualizzata nella prima posizione una sola volta, pertanto la precisione top-1 è:

top-1 accuracy=15=0.2

L'etichetta target viene visualizzata quattro volte in una delle tre posizioni principali, quindi l'accuratezza dei primi tre è:

top-1 accuracy=45=0.8

tossicità

#language
#Metrica

Il grado in cui i contenuti sono offensivi, minacciosi o illeciti. Molti modelli di machine learning possono identificare e misurare la tossicità. La maggior parte di questi modelli identifica la tossicità in base a più parametri, ad esempio il livello di linguaggio illecito e il livello di linguaggio minaccioso.

perdita di addestramento

#fundamentals
#Metrica

Una metrica che rappresenta la perdita di un modello durante una determinata evoluzione dell'addestramento. Ad esempio, supponiamo che la funzione di perdita sia Errore quadratico medio. Ad esempio, la perdita di addestramento (l'errore quadratico medio) per la decima iterazione è 2,2 e la perdita di addestramento per la centesima iterazione è 1,9.

Una curva di perdita traccia la perdita di addestramento rispetto al numero di esercizi. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:

  • Una curva discendente implica che il modello sta migliorando.
  • Una curva ascendente implica che il modello sta peggiorando.
  • Una pendenza piatta implica che il modello ha raggiunto la convergenza.

Ad esempio, la seguente curva di perdita un po' idealizzata mostra:

  • Una forte discesa durante le iterazioni iniziali, che implica un rapido miglioramento del modello.
  • Una curva gradualmente in piano (ma comunque in calo) fino alla fine dell'addestramento, il che implica un miglioramento continuo del modello a un ritmo leggermente più lento rispetto alle iterazioni iniziali.
  • Una pendenza piatta verso la fine dell'addestramento, che suggerisce la convergenza.

Il grafico della perdita di addestramento rispetto alle iterazioni. Questa curva di perdita inizia con una forte pendenza verso il basso. La pendenza si appiattisce gradualmente fino a diventare zero.

Sebbene la perdita di addestramento sia importante, consulta anche la sezione sulla generalizzazione.

vero negativo (VN)

#fundamentals
#Metrica

Un esempio in cui il modello prevede correttamente la classe negativa. Ad esempio, il modello deducono che un determinato messaggio email non è spam e che il messaggio email è effettivamente non spam.

vero positivo (VP)

#fundamentals
#Metrica

Un esempio in cui il modello prevede correttamente la classe positiva. Ad esempio, il modello deduce che un determinato messaggio email è spam e che il messaggio email è effettivamente spam.

tasso di veri positivi (TPR)

#fundamentals
#Metrica

Sinonimo di richiamo. Ossia:

true positive rate=true positivestrue positives+false negatives

La percentuale di veri positivi è l'asse y di una curva ROC.

V

perdita di convalida

#fundamentals
#Metrica

Una metrica che rappresenta la perdita di un modello sul set di convalida durante una determinata iterazione dell'addestramento.

Vedi anche curva di generalizzazione.

importanza delle variabili

#df
#Metrica

Un insieme di punteggi che indica l'importanza relativa di ogni caratteristica per il modello.

Ad esempio, considera un albero decisionale che stima i prezzi delle case. Supponiamo che questo albero decisionale utilizzi tre caratteristiche: taglia, età e stile. Se un insieme di importanza delle variabili per le tre caratteristiche viene calcolato come {size=5.8, age=2.5, style=4.7}, la dimensione è più importante per l'albero decisionale rispetto all'età o allo stile.

Esistono diverse metriche di importanza delle variabili, che possono fornire informazioni agli esperti di ML su diversi aspetti dei modelli.

M

Perdita di Wasserstein

#Metrica

Una delle funzioni di perdita comunemente utilizzate nelle reti di generazione di conflitti, baseada sulla distanza di Earth Mover tra la distribuzione dei dati generati e i dati reali.