Questa pagina è stata tradotta dall'API Cloud Translation.

Glossario del machine learning

Questo glossario definisce i termini generali del machine learning e i termini specifici di TensorFlow.

A

ablazione

Una tecnica per valutare l'importanza di una funzionalità o di un componente rimuovendo temporaneamente il componente da un modello. Successivamente, riaddestri il modello senza quella funzionalità o componente e, se il rendimento del modello riaddestrato è notevolmente inferiore, è probabile che la funzionalità o il componente rimosso sia stato probabilmente importante.

Ad esempio, supponi di addestrare un modello di classificazione su 10 caratteristiche e di ottenere l'88% di precisione sul set di test. Per verificare l'importanza della prima caratteristica, puoi riaddestrare il modello utilizzando solo le altre nove caratteristiche. Se il modello riaddestrato offre prestazioni notevolmente peggiori (ad esempio, precisione del 55%), la caratteristica rimossa era probabilmente importante. Al contrario, se il modello riaddestrato ha lo stesso rendimento, probabilmente quella caratteristica non era così importante.

L'ablazione può anche aiutare a determinare l'importanza di:

Componenti più grandi, ad esempio un intero sottosistema di un sistema ML più grande
Processi o tecniche, ad esempio una fase di pre-elaborazione dei dati

In entrambi i casi, puoi osservare come le prestazioni del sistema cambiano (o non cambiano) dopo aver rimosso il componente.

Test A/B

Un modo statistico per confrontare due (o più) tecniche: A e B. In genere, la A è una tecnica esistente, mentre la B è una nuova tecnica. Il test A/B non solo determina quale tecnica ha il rendimento migliore, ma anche se la differenza è statisticamente significativa.

In genere, i test A/B confrontano una singola metrica su due tecniche. Ad esempio, qual è la differenza di accuratezza del modello per due tecniche? Tuttavia, il test A/B può anche confrontare qualsiasi numero finito di metriche.

chip dell'acceleratore

#GoogleCloud

Categoria di componenti hardware specializzati per i calcoli delle chiavi necessarie per gli algoritmi di deep learning.

I chip di acceleratore (o semplicemente gli acceleratori, in breve) possono aumentare significativamente la velocità e l'efficienza delle attività di addestramento e inferenza rispetto a una CPU per uso generico. Sono ideali per l'addestramento di reti neurali e attività simili con elevata intensità di calcolo.

Esempi di chip di acceleratore includono:

TPU (Tensor Processing Unit) di Google con hardware dedicato per il deep learning.
Le GPU di NVIDIA, sebbene inizialmente progettate per l'elaborazione grafica, sono progettate per consentire l'elaborazione parallela, il che può aumentare notevolmente la velocità di elaborazione.

accuracy

#fundamentals

Il numero di previsioni di classificazione corretta diviso per il numero totale di previsioni. Ossia:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 previsioni errate avrebbe un'accuratezza pari a:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Quindi, la formula di accuratezza per la classificazione binaria è la seguente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dove:

La metrica "TP" indica il numero di veri positivi (previsioni corrette).
TN è il numero di veri negativi (previsioni corrette).
"FP" indica il numero di falsi positivi (previsioni errate).
FN è il numero di falsi negativi (previsioni errate).

Confronta e contrasta l'accuratezza con precisione e richiamo.

Fai clic sull'icona per le note aggiuntive.

Sebbene sia una metrica preziosa in alcune situazioni, la precisione è fuorviante per altre. In particolare, la precisione è solitamente una metrica scadente per valutare i modelli di classificazione che elaborano set di dati non bilanciati in classe.

Supponiamo, ad esempio, che in una determinata città subtropicale la neve cada solo 25 giorni al secolo. Poiché i giorni senza neve (la classe negativa) superano ampiamente i giorni con neve (la classe positiva), il set di dati sulla neve per questa città è sbilanciato. Immagina un modello di classificazione binaria che dovrebbe prevedere neve o neve ogni giorno, ma che prevede semplicemente "senza neve" ogni giorno. Questo modello è molto preciso, ma non ha funzionalità predittive. La seguente tabella riassume i risultati per un secolo di previsioni:

Categoria	Numero
VP	0
VN	36500
FP	25
FN	0

Pertanto, l'accuratezza di questo modello è:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Sebbene un'accuratezza del 99,93% sembri una percentuale impressionante, il modello in realtà non dispone di funzionalità predittive.

Precisione e richiamo sono in genere metriche più utili della precisione per valutare i modelli addestrati su set di dati con classe non bilanciata.

azione

#rl

Nell'apprendimento per rinforzo, il meccanismo mediante il quale l'agente passa tra gli stati dell'ambiente. L'agente sceglie l'azione utilizzando un criterio.

funzione di attivazione

#fundamentals

Una funzione che consente alle reti neurali di apprendere le relazioni non lineari (complesse) tra le caratteristiche e l'etichetta.

Le funzioni di attivazione più comuni includono:

ReLU
Sigmoide

I diagrammi delle funzioni di attivazione non sono mai semplici linee rette. Ad esempio, il grafico della funzione di attivazione della ReLU è costituito da due linee rette:

Un appezzamento cartesiano di due linee. La prima riga ha un valore y costante pari a 0, lungo l'asse x da -infinito,0 a 0,-0.
La seconda riga inizia da 0,0. Questa linea ha una pendenza pari a +1, quindi va da 0,0 a +infinito,+infinito.

Un diagramma della funzione di attivazione sigmoidale ha il seguente aspetto:

Un grafico curvo bidimensionale con valori x che coprono il dominio, dall'infinito a +positivo, mentre i valori y coprono l'intervallo da quasi 0 a quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre positiva, con la pendenza più alta a 0,0,5 e che decresce gradualmente man mano che aumenta il valore assoluto di x.

Fai clic sull'icona per vedere un esempio.

In una rete neurale, le funzioni di attivazione manipolano la somma ponderata di tutti gli input per un neurone. Per calcolare una somma ponderata, il neurone somma i prodotti dei valori e delle ponderazioni pertinenti. Ad esempio, supponiamo che l'input pertinente per un neurone sia costituito da quanto segue:

valore di input	peso inserito
2	-1,3
-1	0.6
3	0.4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supponiamo che il progettista di questa rete neurale scelga la funzione sigmoide come funzione di attivazione. In questo caso, il neurone calcola il sigmoide di -2,0, che corrisponde a circa 0,12. Di conseguenza, il neurone passa 0,12 (invece di -2,0) al livello successivo nella rete neurale. La figura seguente illustra la parte pertinente del processo:

apprendimento attivo

Un approccio di addestramento in cui l'algoritmo sceglie alcuni dei dati da cui apprende. L'apprendimento attivo è particolarmente utile quando gli esempi etichettati sono scarsi o costosi da ottenere. Invece di cercare alla cieca una gamma diversificata di esempi etichettati, un algoritmo di apprendimento attivo ricerca selettivamente la gamma specifica di esempi di cui ha bisogno per l'apprendimento.

AdaGrad

Un sofisticato algoritmo di discesa del gradiente che riscala i gradienti di ogni parametro, assegnando a ogni parametro un tasso di apprendimento indipendente. Per una spiegazione completa, consulta questo articolo di AdaGrad.

agente

#rl

Nel reinforcement learning, l'entità che utilizza una norma per massimizzare il ritorno previsto ottenuto dalla transizione tra gli stati dell'ambiente.

Più in generale, un agente è un software che pianifica ed esegue autonomamente una serie di azioni per perseguire un obiettivo, con la capacità di adattarsi ai cambiamenti nel proprio ambiente. Ad esempio, gli agenti basati su LLM potrebbero utilizzare l'LLM per generare un piano, anziché applicare un criterio di apprendimento per rinforzo.

clustering agglomerativo

#clustering

Consulta il clustering gerarchico.

rilevamento anomalie

Il processo di identificazione dei outlier. Ad esempio, se la media di una determinata funzionalità è 100 con una deviazione standard di 10, il rilevamento di anomalie deve segnalare un valore pari a 200 come sospetto.

AR

Abbreviazione di realtà aumentata.

area sotto la curva PR

Consulta la sezione AUC (Area sotto la curva PR).

area sotto la curva ROC

Consulta la sezione AUC (area sotto la curva ROC).

intelligenza artificiale generale

Meccanismo non umano che dimostra un'ampia gamma di capacità di risoluzione dei problemi, creatività e adattabilità. Ad esempio, un programma che promuove l'intelligenza artificiale generale potrebbe tradurre testi, comporre sinfonie ed eccellere in giochi non ancora inventati.

l'intelligenza artificiale

#fundamentals

Un programma o model generato da strumenti automatici in grado di risolvere attività sofisticate. Ad esempio, un programma o un modello che traduce testi oppure un programma o un modello che identifica le malattie a partire dalle immagini radiologiche mostrano entrambi l'intelligenza artificiale.

Il machine learning è un sottocampo dell'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.

Attention,

#language

Meccanismo utilizzato in una rete neurale che indica l'importanza di una determinata parola o di una sua parte. L'attenzione comprime la quantità di informazioni necessarie a un modello per prevedere il token/la parola successiva. Un tipico meccanismo di attenzione potrebbe essere costituito da una somma ponderata su un insieme di input, in cui la ponderazione di ogni input viene calcolata da un'altra parte della rete neurale.

Consulta anche l'auto-attenzione e l'auto-attenzione a più teste, che sono i componenti di base dei Transformer.

attributo

#fairness

Sinonimo di feature.

Nell'equità del machine learning, gli attributi spesso si riferiscono a caratteristiche specifiche.

campionamento degli attributi

#df

Una tattica per addestrare un bosco decisionale in cui ogni albero decisionale prende in considerazione solo un sottoinsieme casuale di possibili caratteristiche quando apprende la condizione. In genere, viene campionato un sottoinsieme diverso di funzionalità per ogni nodo. Al contrario, durante l'addestramento di un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le funzionalità possibili.

AUC (area sotto la curva ROC)

#fundamentals

Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicina a 1,0, maggiore è la capacità del modello di separare le classi l'una dall'altra.

Ad esempio, la seguente illustrazione mostra un modello di classificatore che separa perfettamente le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello non realisticamente perfetto ha un AUC di 1,0:

Una riga numerica con 8 esempi positivi su un lato e 9 esempi negativi sull'altro lato.

Al contrario, l'illustrazione seguente mostra i risultati di un modello di classificazione che ha generato risultati casuali. Questo modello ha un'AUC pari a 0,5:

Una riga numerica con 6 esempi positivi e 6 esempi negativi.
La sequenza di esempi è positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa".

Sì, il modello precedente ha un'AUC di 0,5, non di 0,0.

La maggior parte dei modelli si trova a metà strada tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi dai negativi e, di conseguenza, ha un'AUC compresa tra 0,5 e 1,0:

Una riga numerica con 6 esempi positivi e 6 esempi negativi.
La sequenza di esempi è negativo, negativo, negativo, negativo, positivo, negativo, positivo, positivo, negativo, positivo, positivo, positivo.

L'AUC ignora qualsiasi valore impostato per la soglia di classificazione. Al contrario, l'AUC prende in considerazione tutte le possibili soglie di classificazione.

Fai clic sull'icona per ottenere informazioni sulla relazione tra le curve AUC e ROC.

L'AUC rappresenta l'area sotto una curva RoC. Ad esempio, la curva ROC per un modello che separa perfettamente i positivi da quelli negativi appare come segue:

L'AUC è l'area della regione grigia nell'illustrazione precedente. In questo caso insolito, l'area corrisponde semplicemente alla lunghezza dell'area grigia (1,0) moltiplicata per la larghezza dell'area grigia (1,0). Quindi, il prodotto di 1,0 e 1,0 restituisce un'AUC esattamente di 1,0, che è il punteggio AUC più alto possibile.

Al contrario, la curva ROC per un classificatore che non può separare le classi è la seguente. L'area di questa regione grigia è 0,5.

Una curva ROC più tipica è simile alla seguente:

Sarebbe difficile calcolare manualmente l'area sotto questa curva, motivo per cui un programma di solito calcola la maggior parte dei valori AUC.

Fai clic sull'icona per una definizione più formale di AUC.

L'AUC indica la probabilità che un classificatore abbia maggiore sicurezza che un esempio positivo scelto in modo casuale sia effettivamente positivo rispetto a un esempio negativo scelto casualmente è positivo.

realtà aumentata

#image

Una tecnologia che sovrappone un'immagine generata da computer a una vista dell'utente del mondo reale, fornendo così una vista composita.

encoder automatico

#language

#image

È un sistema che impara a estrarre le informazioni più importanti dall'input. Gli autoencoder sono una combinazione di encoder e decoder. I codificatori automatici si basano sulla seguente procedura in due fasi:

L'encoder mappa l'input a un formato (di solito) con dimensioni inferiori (intermedie) con perdita di dati.
Il decoder crea una versione con perdita dell'input originale mappando il formato di dimensione inferiore al formato di input originale con dimensione superiore.

I codificatori automatici vengono addestrati end-to-end facendo in modo che il decoder tenti di ricostruire il più fedelmente possibile l'input originale dal formato intermedio dell'encoder. Poiché il formato intermedio è più piccolo (dimensione inferiore) rispetto al formato originale, l'autoencoder deve imparare quali informazioni nell'input sono essenziali e l'output non sarà perfettamente identico all'input.

Ad esempio:

Se i dati di input sono grafici, la copia non esatta sarebbe simile alla grafica originale, ma in qualche modo modificata. Può darsi che una copia non esatta rimuova il rumore dalla grafica originale o riempia alcuni pixel mancanti.
Se i dati di input sono testo, un encoder automatico genererà un nuovo testo che mimiti (ma non è identico) il testo originale.

Vedi anche autoencoder variazionali.

bias di automazione

#fairness

Quando un responsabile delle decisioni umano preferisce i suggerimenti forniti da un sistema decisionale automatizzato rispetto alle informazioni prese senza automazione, anche quando il sistema decisionale automatizzato commette errori.

AutoML

Qualsiasi processo automatizzato per la creazione di modelli di modelli. AutoML può eseguire automaticamente attività come le seguenti:

Cerca il modello più appropriato.
Ottimizza gli iperparametri.
Preparare i dati (inclusa l'esecuzione del feature engineering).
Eseguire il deployment del modello risultante.

AutoML è utile per i data scientist in quanto consente di risparmiare tempo e fatica nello sviluppo di pipeline di machine learning e di migliorare la precisione delle previsioni. È utile anche ai non esperti perché rende più accessibili le attività complesse di machine learning.

modello autoregressivo

#language

#image

#IAgenerativa

Un model che deduce una previsione in base alle proprie previsioni precedenti. Ad esempio, i modelli linguistici autoregressivi prevedono il token successivo in base ai token previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono regressivi.

Al contrario, i modelli di immagine basati su GAN di solito non sono autoregressivi poiché generano un'immagine in un singolo passaggio in avanti e non in modo iterativo. Tuttavia, alcuni modelli di generazione di immagini sono regressivi perché generano un'immagine in passaggi.

perdita ausiliaria

Una funzione di perdita, utilizzata in combinazione con una funzione di perdita principale di rete neurale del modello, che aiuta ad accelerare l'addestramento durante le iterazioni iniziali quando le ponderazioni vengono inizializzate in modo casuale.

Le funzioni di perdita ausiliarie inviano i gradienti effettivi ai livelli precedenti. Questo facilita la convergenza durante l'addestramento combattendo il problema dei gradienti che sparisce.

precisione media

Una metrica per riepilogare le prestazioni di una sequenza classificata di risultati. La precisione media viene calcolata utilizzando la media dei valori di precisione per ogni risultato pertinente (ogni risultato nell'elenco di ranking in cui il richiamo aumenta rispetto al risultato precedente).

Vedi anche Area sotto la curva PR.

condizione allineata all'asse

#df

In un albero decisionale, una condizione che prevede una sola funzionalità. Ad esempio, se l'area è una caratteristica, di seguito è riportata una condizione allineata all'asse:

area > 200

In contrasto con la condizione obbligatoria.

B

retropropagazione dell'errore

#fundamentals

L'algoritmo che implementa la discesa del gradiente nelle reti neurali.

L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:

Durante il passaggio in avanti, il sistema elabora un batch di esempi per generare previsioni. Il sistema confronta ogni previsione con ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite per tutti gli esempi al fine di calcolare la perdita totale per il batch corrente.
Durante il passaggio all'indietro (retropropagazione dell'errore), il sistema riduce la perdita regolando le ponderazioni di tutti i neuroni in tutti gli strati nascosti.

Le reti neurali spesso contengono molti neuroni in molti livelli nascosti. Ognuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione dell'errore determina se aumentare o diminuire le ponderazioni applicate a determinati neuroni.

Il tasso di apprendimento è un moltiplicatore che controlla in che misura ogni passaggio a ritroso aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenta o diminuisce ogni peso di più rispetto a un tasso di apprendimento ridotto.

In termini di calcolo, la retropropagazione dell'errore implementa la regola della catena dal calcolo. In altre parole, la retropropagazione dell'errore calcola la derivata parziale dell'errore in relazione a ciascun parametro.

Anni fa, i professionisti del machine learning dovevano scrivere codice per implementare la retropropagazione dell'errore. Le moderne API ML come TensorFlow ora implementano la retropropagazione dell'errore. Finalmente.

insaccamento

#df

Un metodo per addestrare un insieme in cui ogni costituente modello viene addestrato su un sottoinsieme casuale di esempi di addestramento campionati con sostituzione. Ad esempio, una foresta casuale è una raccolta di alberi decisionali addestrati con l'insufficienza.

Il termine bagging è l'acronimo di bootstrap aggregating.

borsa di parole

#language

Una rappresentazione delle parole in una frase o un passaggio, indipendentemente dall'ordine. Ad esempio, "bag of words" rappresenta le seguenti tre frasi in modo identico:

il cane che salta
salta il cane
cane che salta

Ogni parola è mappata a un indice in un vettore scarse, in cui il vettore ha un indice per ogni parola del vocabolario. Ad esempio, la frase the dog jumps è mappata in un vettore di caratteristiche con valori diversi da zero nei tre indici corrispondenti alle parole the, dog e jumps. Il valore diverso da zero può essere uno dei seguenti:

1 per indicare la presenza di una parola.
Conteggio del numero di volte in cui una parola viene visualizzata nel sacchetto. Ad esempio, se la frase fosse il cane bordeaux è un cane con la pelliccia di colore granata, marrone e cane sarebbero rappresentati come 2, mentre le altre parole risulteranno 1.
Altro valore, come il logaritmo del conteggio del numero di volte in cui una parola compare nella borsa.

base di riferimento

Un model utilizzato come punto di riferimento per confrontare il rendimento di un altro modello (in genere uno più complesso). Ad esempio, un modello di regressione logistica potrebbe fungere da buona base di riferimento per un modello deep.

Per un problema particolare, la base di riferimento aiuta gli sviluppatori di modelli a quantificare le prestazioni previste minime che un nuovo modello deve raggiungere affinché il nuovo modello sia utile.

batch

#fundamentals

L'insieme di esempi utilizzati in un'iterazione di addestramento. La dimensione del batch determina il numero di esempi in un batch.

Consulta epoch per una spiegazione della relazione tra un batch e un'epoca.

inferenza batch

#TensorFlow

#GoogleCloud

Il processo di detrazione delle previsioni su più esempi non etichettati suddiviso in sottoinsiemi più piccoli ("batch").

L'inferenza batch può sfruttare le funzionalità di parallelizzazione dei chip di acceleratore. Ciò significa che più acceleratori possono dedurre contemporaneamente le previsioni su diversi batch di esempi non etichettati, aumentando drasticamente il numero di inferenze al secondo.

normalizzazione batch

Normalizzazione dell'input o dell'output delle funzioni di attivazione in un livello nascosto. La normalizzazione dei batch può offrire i seguenti vantaggi:

Rendi più stabili le reti neurali proteggendo da pesi outlier.
Abilita tassi di apprendimento più elevati, che possono velocizzare l'addestramento.
Riduci l'overfitting.

dimensione del batch

#fundamentals

Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.

Di seguito sono riportate le strategie più comuni per le dimensioni in batch:

Stocastic Gradient Descent (SGD), in cui la dimensione del batch è 1.
Batch completo, in cui la dimensione del batch corrisponde al numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch corrisponde a un milione di esempi. L'implementazione completa della modalità batch è in genere una strategia inefficiente.
mini-batch in cui la dimensione del batch è generalmente compresa tra 10 e 1000. Il mini-batch è in genere la strategia più efficiente.

Rete neurale bayesiana

Una rete neurale probabilistica che tiene conto dell'incertezza nelle ponderazioni e negli output. In genere, un modello di regressione di rete neurale standard prevede un valore scalare; ad esempio,un modello standard prevede un prezzo interno di 853.000. Al contrario, una rete neurale bayesiana prevede una distribuzione di valori; ad esempio, un modello bayesiano prevede un prezzo casa di 853.000 con una deviazione standard di 67.200.

Una rete neurale bayesiana si basa sul teorema di Bayes per calcolare le incertezze nelle ponderazioni e nelle previsioni. Una rete neurale bayesiana può essere utile quando è importante quantificare l'incertezza, ad esempio nei modelli relativi ai prodotti farmaceutici. Le reti neurali bayesiane possono anche aiutare a prevenire l'overfitting.

Ottimizzazione bayesiana

Una tecnica di modello di regressione probabilistica per ottimizzare funzioni oggettive costose dal calcolo, ottimizzando invece un surrogato che quantifica l'incertezza utilizzando una tecnica di apprendimento bayesiana. Poiché l'ottimizzazione bayesiana è di per sé molto costosa, di solito viene utilizzata per ottimizzare attività costose da valutare che hanno un numero ridotto di parametri, come la selezione degli iperparametri.

Equazione di Bellman

#rl

Nell'apprendimento per rinforzo, la seguente identità è soddisfatta dalla funzione Q ottimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Gli algoritmi di apprendimento per rinforzo applicano questa identità per creare Q-learning tramite la seguente regola di aggiornamento:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Oltre all'apprendimento per rinforzo, l'equazione di Bellman ha applicazioni alla programmazione dinamica. Consulta la voce di Wikipedia relativa all'equazione di Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Un'architettura modello per la rappresentazione del testo. Un modello BERT addestrato può fare parte di un modello più grande per la classificazione del testo o altre attività ML.

BERT presenta le seguenti caratteristiche:

Utilizza l'architettura Transformer, quindi si basa sull'auto-attenzione.
Utilizza la parte encoder del trasformatore. Il compito dell'encoder è produrre buone rappresentazioni testuali piuttosto che eseguire un'attività specifica come la classificazione.
È bidirezionale.
Utilizza il mascheramento per l'addestramento non supervisionato.

Le varianti di BERT includono:

ALBERT, che è l'acronimo di A Laltezza BERT.
LaBSE.

Per una panoramica di BERT, consulta il documento Open Sourcing BERT: pre-addestramento all'avanguardia per l'elaborazione del linguaggio naturale.

pregiudizi (etica/equità)

#fairness

#fundamentals

1. Stereotipi, pregiudizi o favoritismo nei confronti di alcune cose, persone o gruppi rispetto ad altri. Questi bias possono influenzare la raccolta e l'interpretazione dei dati, la progettazione di un sistema e il modo in cui gli utenti interagiscono con il sistema. Questo tipo di bias include:

bias di automazione
bia di conferma
pregiudizi dell'esperimento
bias di attribuzione del gruppo
bias implicito
bias del gruppo
bias di omogeneità fuori gruppo

2. Errore sistematico introdotto da una procedura di campionamento o di reporting. Questo tipo di bias include:

bias di copertura
bias mancata risposta
bias di partecipazione
bias nei report
bias di campionamento
bias di selezione

Da non confondere con il termine di bias nei modelli di machine learning o con il bias di previsione.

termine di bias (matematico) o bias

#fundamentals

Un'intercetta o un offset da un'origine. Il bias è un parametro nei modelli di machine learning, simbolizzato da uno dei seguenti elementi:

b
S₀

Ad esempio, il bias è la b nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In una semplice linea bidimensionale, bias significa semplicemente "intercetta y". Ad esempio, la bias della linea nella seguente illustrazione è 2.

Il grafico di una retta con una pendenza di 0,5 e una bias (intercetta y) di 2.

Il bias esiste perché non tutti i modelli iniziano dall'origine (0,0). Ad esempio, supponiamo che l'ingresso a un parco divertimenti sia di 2 euro e di ulteriori 0,5 euro per ogni ora di soggiorno del cliente. Pertanto, un modello che mappa il costo totale ha una bias pari a 2 perché il costo più basso è di 2 euro.

I pregiudizi non devono essere confusi con i pregiudizi etici e con equità o con i pregiudizi di previsione.

bidirezionale

#language

Termine utilizzato per descrivere un sistema che valuta il testo che precede e segue a una sezione target di testo. Al contrario, un sistema unidirezionale valuta solo il testo che precede una sezione di testo di destinazione.

Ad esempio, considera un modello linguistico di mascheratura che deve determinare le probabilità della parola o delle parole che rappresentano la sottolineatura nella seguente domanda:

Che cos'è _____ con te?

Un modello linguistico unidirezionale dovrebbe basare le probabilità solo sul contesto fornito dalle parole "Cosa", "è" e "il". Al contrario, un modello linguistico bidirezionale potrebbe ricavare contesto anche da "con" e "tu", il che potrebbe aiutare il modello a generare previsioni migliori.

modello linguistico bidirezionale

#language

Un modello linguistico che determina la probabilità che un dato token sia presente in una determinata posizione in un estratto di testo in base al testo precedente e seguente.

bigram

#seq

#language

Un N-grammo in cui N=2.

classificazione binaria

#fundamentals

Un tipo di attività di classificazione che prevede una delle due classi che si escludono a vicenda:

la classe positiva
la classe negativa

Ad esempio, i seguenti due modelli di machine learning eseguono ciascuno la classificazione binaria:

Un modello che determina se i messaggi email sono spam (la classe positiva) o non spam (la classe negativa).
Un modello che valuta i sintomi medici per determinare se una persona è affetta da una determinata malattia (la classe positiva) o non soffre di quella malattia (la classe negativa).

La differenza è con la classificazione multi-classe.

Vedi anche regressione logistica e soglia di classificazione.

condizione binaria

#df

In un albero decisionale, una condizione che ha solo due risultati possibili, in genere yes o no. Ad esempio, di seguito è riportata una condizione binaria:

temperature >= 100

È in contrasto con la condizione non binaria.

binning

Sinonimo di bucketing.

BLEU (Bilingual Evaluation Understudy)

#language

Un punteggio compreso tra 0, 0 e 1, 0 inclusi, che indica la qualità di una traduzione tra due lingue umane (ad esempio tra inglese e russo). Un punteggio BLEU pari a 1,0 indica una traduzione perfetta, mentre un punteggio BLEU pari a 0,0 indica una traduzione peggiore.

potenziamento

Una tecnica di machine learning che combina iterativamente un insieme di classificatori semplici e non molto precisi (denominati classificatori "deboli") in un classificatore ad alta precisione (un classificatore "forte") mediante la ponderazione maggiore degli esempi che il modello attualmente sta classificando in modo errato.

riquadro di delimitazione

#image

In un'immagine, le coordinate (x, y) di un rettangolo intorno a un'area di interesse, ad esempio il cane nell'immagine di seguito.

Fotografia di un cane seduto su un divano. Un riquadro di delimitazione verde con le coordinate in alto a sinistra di (275, 1271) e in basso a destra di (2954, 2761) circoscrive il corpo del cane

trasmissione

Espansione della forma di un operando in un'operazione matematica a matrice alle dimensioni compatibili per quell'operazione. Ad esempio, l'algebra lineare richiede che i due operandi in un'operazione di addizione di matrice devono avere le stesse dimensioni. Di conseguenza, non puoi aggiungere una matrice di forma (m, n) a un vettore di lunghezza n. La trasmissione consente questa operazione espandendo virtualmente il vettore di lunghezza n a una matrice di forma (m, n) replicando gli stessi valori in ogni colonna.

Ad esempio, date le seguenti definizioni, l'algebra lineare vieta A+B perché A e B hanno dimensioni diverse:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Tuttavia, la trasmissione consente l'operazione A+B tramite l'espansione virtuale di B in:

 [[2, 2, 2],
  [2, 2, 2]]

Pertanto, A+B è ora un'operazione valida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Per maggiori dettagli, consulta la seguente descrizione della trasmissione in NumPy.

bucket

#fundamentals

La conversione di una singola funzionalità in più caratteristiche binarie chiamate bucket o bin, generalmente basate su un intervallo di valori. La funzionalità tagliata è in genere una funzionalità continua.

Ad esempio, anziché rappresentare la temperatura come un'unica funzionalità a virgola mobile continua, potresti suddividere gli intervalli di temperatura in bucket discreti, ad esempio:

<= 10 gradi Celsius è il bucket "a freddo".
11-24 gradi Celsius rappresentano il bucket "temperato".
>= 25 gradi Celsius è il bucket "caldo".

Il modello tratterà in modo identico tutti i valori nello stesso bucket. Ad esempio, i valori 13 e 22 sono entrambi nel bucket temperato, quindi il modello tratta i due valori in modo identico.

Fai clic sull'icona per le note aggiuntive.

Se rappresenti la temperatura come una caratteristica continua, il modello tratta la temperatura come una singola caratteristica. Se rappresenti la temperatura come tre bucket, il modello tratta ogni bucket come una funzionalità separata. In altre parole, un modello può apprendere relazioni separate di ogni bucket rispetto all'etichetta. Ad esempio, un modello di regressione lineare può apprendere ponderazioni separate per ogni bucket.

L'aumento del numero di bucket rende più complicato il modello aumentando il numero di relazioni che il modello deve apprendere. Ad esempio, i bucket freddi, temperati e caldi sono essenzialmente tre caratteristiche separate per l'addestramento del modello. Se decidi di aggiungere altri due bucket, ad esempio congelamento e caldo, il modello ora deve essere addestrato su cinque caratteristiche distinte.

Come fai a sapere quanti bucket creare o quali dovrebbero essere gli intervalli per ogni bucket? Di solito le risposte richiedono una discreta quantità di sperimentazione.

C

livello di calibrazione

Un aggiustamento post-previsione, in genere per tenere conto di un bias di previsione. Le previsioni e le probabilità adeguate devono corrispondere alla distribuzione di un insieme di etichette osservato.

generazione di candidati

#recsystems

L'insieme iniziale di consigli scelti da un sistema di consigli. Prendiamo come esempio una libreria che offre 100.000 titoli. La fase di generazione dei candidati crea un elenco molto più ridotto di libri adatti a un determinato utente, ad esempio 500. Ma anche 500 libri sono troppi da consigliare a un utente. Le fasi successive e più costose di un sistema di suggerimenti (come il punteggio e il riranking) le riducono da 500 a un insieme di suggerimenti molto più ridotto e più utile.

campionamento dei candidati

Un'ottimizzazione del tempo di addestramento che calcola una probabilità per tutte le etichette positive, utilizzando ad esempio softmax, ma solo per un campione casuale di etichette negative. Ad esempio, sulla base di un esempio denominato beagle e dog, il campionamento dei candidati calcola le probabilità previste e i termini di perdita corrispondenti per:

beagle
cane
un sottoinsieme casuale delle classi negative rimanenti (ad esempio cat, lollipop, fence).

L'idea è che le classi negative possono imparare da rinforzi negativi meno frequenti purché le classi positive abbiano sempre un rinforzo positivo adeguato, cosa che viene effettivamente osservata empiricamente.

Il campionamento dei candidati è più efficiente dal punto di vista del calcolo rispetto agli algoritmi di addestramento che calcolano le previsioni per tutte le classi negative, in particolare quando il numero di classi negative è molto elevato.

dati categorici

#fundamentals

Funzionalità con un insieme specifico di valori possibili. Ad esempio, considera una funzionalità di categoria denominata traffic-light-state, che può avere solo uno dei seguenti tre valori possibili:

red
yellow
green

Rappresentando traffic-light-state come funzionalità categorica, un modello può apprendere i diversi impatti di red, green e yellow sul comportamento dei conducenti.

Le funzionalità categoriche sono talvolta chiamate funzionalità discrete.

Al contrario dei dati numerici.

modello linguistico causale

#language

Sinonimo di modello linguistico unidirezionale.

Consulta il modello linguistico bidirezionale per contrastare diversi approcci direzionali nella modellazione linguistica.

baricentro

#clustering

Il centro di un cluster come determinato da un algoritmo k-means o k-mediana. Ad esempio, se k è 3, l'algoritmo K-means o K-mediana trova 3 centroidi.

clustering basato su baricentro

#clustering

Una categoria di algoritmi di clustering che organizza i dati in cluster non gerarchici. k-means è l'algoritmo di clustering basato su baridi più usato.

Sono invece opposti agli algoritmi di clustering gerarchico.

Chain-of-Thought Prompting

#language

#IAgenerativa

Una tecnica di prompt engineering che incoraggia un modello linguistico di grandi dimensioni (LLM) a spiegarne il ragionamento, passo dopo. Ad esempio, considera il seguente prompt, prestando particolare attenzione alla seconda frase:

Quante forze g può affrontare un conducente su un'auto che va da 0 a 96 km orari in 7 secondi? Nella risposta, mostra tutti i calcoli pertinenti.

Probabilmente la risposta dell'LLM:

Mostra una sequenza di formule fisiche, inserendo i valori 0, 60 e 7 nei punti appropriati.
Spiega il motivo per cui ha scelto queste formule e il significato delle varie variabili.

Prompt Chain-of-Thought obbliga l'LLM a eseguire tutti i calcoli, che potrebbe portare a una risposta più corretta. Inoltre, la richiesta di Chain-of-Thought consente all'utente di esaminare i passaggi dell'LLM per determinare se la risposta ha senso o meno.

chat

#language

#IAgenerativa

I contenuti di un dialogo avanti e indietro con un sistema di ML, in genere un modello linguistico di grandi dimensioni (LLM). L'interazione precedente in una chat (il testo digitato e la risposta del modello LLM) diventa il contesto per le parti successive della chat.

Un chatbot è un'applicazione di un modello linguistico di grandi dimensioni (LLM).

posto di blocco

Dati che acquisiscono lo stato dei parametri di un modello durante una determinata iterazione di addestramento. I checkpoint consentono di esportare le ponderazioni dei modelli o di eseguire l'addestramento in più sessioni. I checkpoint consentono inoltre all'addestramento di continuare a superare gli errori (ad esempio il prerilascio dei job).

Durante l'ottimizzazione, il punto di partenza per l'addestramento del nuovo modello sarà un checkpoint specifico del modello preaddestrato.

classe

#fundamentals

Una categoria a cui può appartenere un'etichetta. Ad esempio:

In un modello di classificazione binaria che rileva lo spam, le due classi potrebbero essere spam e non spam.
In un modello di classificazione multi-classe che identifica le razze di cani, le classi potrebbero essere barboncino, beagle, carlino e così via.

Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero anziché una classe.

modello di classificazione

#fundamentals

Un model la cui previsione è una model. Ad esempio, quelli di seguito sono tutti modelli di classificazione:

Un modello che prevede la lingua di una frase di input (francese? Spagnolo? italiano?).
un modello che prevede le specie di alberi (Acero? Oak? Baobab?).
Modello che prevede la classe positiva o negativa per una determinata condizione medica.

Al contrario, i modelli di regressione prevedono numeri anziché classi.

Due tipi comuni di modelli di classificazione sono:

classificazione binaria
classificazione multiclasse

soglia di classificazione

#fundamentals

In una classificazione binaria, un numero compreso tra 0 e 1 che converte l'output non elaborato di un modello di regressione logistica in una previsione della classe positiva o della classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non un valore scelto dall'addestramento del modello.

Un modello di regressione logistica restituisce un valore non elaborato compreso tra 0 e 1. Quindi:

Se questo valore non elaborato è maggiore della soglia di classificazione, viene prevista la classe positiva.
Se questo valore non elaborato è inferiore alla soglia di classificazione, viene prevista la classe negativa.

Supponiamo, ad esempio, che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.

La scelta della soglia di classificazione influenza fortemente il numero di falsi positivi e falsi negativi.

Fai clic sull'icona per le note aggiuntive.

Con l'evolversi dei modelli o dei set di dati, gli ingegneri a volte modificano anche la soglia di classificazione. Quando la soglia di classificazione cambia, le previsioni di classi positive possono improvvisamente diventare classi negative e viceversa.

Ad esempio, considera un modello di previsione delle malattie di classificazione binaria. Supponiamo che quando il sistema viene eseguito nel primo anno:

Il valore non elaborato per un determinato paziente è 0,95.
La soglia di classificazione è 0,94.

Pertanto, il sistema diagnostica la classe positiva. (Il paziente sussulta "Oh, no! Sto male!")

Un anno dopo, forse i valori ora sono i seguenti:

Il valore non elaborato per lo stesso paziente rimane a 0,95.
La soglia di classificazione diventa 0,97.

Di conseguenza, il sistema ora riclassifica il paziente come classe negativa. ("Buon giorno! Non sono malato.") Stesso paziente. Diagnosi diversa.

set di dati con classe non bilanciata

#fundamentals

Un set di dati per un problema di classificazione in cui il numero totale di etichette di ogni classe varia in modo significativo. Ad esempio, considera un set di dati di classificazione binaria le cui due etichette sono divise come segue:

1.000.000 di etichette negative
10 etichette positive

Il rapporto tra etichette negative e positive è compreso tra 100.000 e 1, quindi questo è un set di dati con classe non bilanciata.

Al contrario, il seguente set di dati non è sbilanciato dalla classe perché il rapporto tra etichette negative e positive è relativamente vicino a 1:

517 etichette escluse
483 etichette positive

I set di dati multiclasse possono anche non avere equilibrio di classe. Ad esempio, anche il seguente set di dati di classificazione multiclasse è sbilanciato in classe perché un'etichetta ha molti più esempi rispetto alle altre due:

1.000.000 di etichette con la classe "verde"
200 etichette con la classe "viola"
350 etichette con classe "arancione"

Vedi anche entropia, classe maggiore e classe di minoranza.

ritaglio

#fundamentals

Una tecnica per gestire i requisiti anomali svolgendo una o entrambe le seguenti operazioni:

Ridurre i valori delle feature superiori a una soglia massima fino a raggiungere la soglia massima.
Aumento dei valori delle funzionalità che sono inferiori a una soglia minima fino alla soglia minima.

Ad esempio, supponiamo che meno dello 0,5% dei valori per una determinata funzionalità non rientri nell'intervallo 40-60. In questo caso, puoi procedere come segue:

Ritaglia tutti i valori superiori a 60 (la soglia massima) in modo che siano esattamente 60.
Ritaglia tutti i valori inferiori a 40 (la soglia minima) in modo che siano esattamente 40.

I valori anomali possono danneggiare i modelli, causando a volte l'overflow delle ponderazioni durante l'addestramento. Alcune anomalie possono anche compromettere drasticamente metriche come l'accuratezza. Il ritaglio è una tecnica comune per limitare i danni.

Il tagliamento di sfumatura forza i valori gradiente all'interno di un intervallo designato durante l'addestramento.

Cloud TPU

#TensorFlow

#GoogleCloud

Un acceleratore hardware specializzato per velocizzare i carichi di lavoro di machine learning su Google Cloud.

clustering

#clustering

Raggruppare esempi correlati, in particolare durante l'apprendimento non supervisionato. Una volta raggruppati tutti gli esempi, un utente può facoltativamente fornire il significato a ogni cluster.

Esistono molti algoritmi di clustering. Ad esempio, gli esempi di cluster di algoritmo k-means basati sulla loro vicinanza a un centroide, come nel seguente diagramma:

Un ricercatore potrebbe quindi esaminare i cluster e, ad esempio, etichettare il cluster 1 come "alberi nani" e il cluster 2 come "alberi a grandezza naturale".

Per un altro esempio, considera un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, illustrato come segue:

Decine di punti dati sono disposti in cerchi concentrici, quasi come dei fori intorno al centro di un bersaglio. L'anello più interno dei punti dati è classificato come cluster 1, l'anello centrale è classificato come cluster 2 e l'anello più esterno come cluster 3.

co-adattamento

Quando i neuroni prevedono pattern nei dati di addestramento facendo affidamento quasi esclusivamente sugli output di altri neuroni specifici, invece di affidarsi al comportamento della rete nel suo insieme. Quando i pattern che causano il co-adattamento non sono presenti nei dati di convalida, il co-adattamento causa un overfitting. La regolarizzazione dell'abbandono riduce il co-adattamento, perché l'abbandono assicura che i neuroni non possano affidarsi esclusivamente ad altri neuroni specifici.

filtro collaborativo

#recsystems

Fare previsioni sugli interessi di un utente in base a quelli di molti altri utenti. I filtri collaborativi vengono spesso utilizzati nei sistemi di suggerimenti.

deviazione del concetto

Uno spostamento nella relazione tra le caratteristiche e l'etichetta. Nel tempo, la deviazione concettuale riduce la qualità di un modello.

Durante l'addestramento, il modello apprende la relazione tra le caratteristiche e le relative etichette nel set di addestramento. Se le etichette nel set di addestramento sono buoni proxy per il mondo reale, il modello dovrebbe eseguire buone previsioni nel mondo reale. Tuttavia, a causa della deviazione concettuale, le previsioni del modello tendono a ridursi nel tempo.

Ad esempio, prendi in considerazione un modello di classificazione binaria che prevede se un determinato modello d'auto è "a basso consumo di carburante". In altre parole, le funzionalità potrebbero essere:

peso dell'auto
compressione
tipo di trasmissione

mentre l'etichetta è:

risparmio di carburante
non a basso consumo di carburante

Tuttavia, il concetto di "auto a basso consumo di carburante" continua a cambiare. Un modello di auto etichettato come a basso consumo di carburante nel 1994 verrebbe etichettato quasi certamente come meno a basso consumo di carburante nel 2024. Un modello che soffre di deviazioni concettuale tende a fare previsioni sempre meno utili nel corso del tempo.

Confronta e contrapponi la nonstationarità.

Fai clic sull'icona per le note aggiuntive.

Per compensare la deviazione concettuale, riaddestra i modelli più velocemente della frequenza di deriva. Ad esempio, se la deviazione concettuale riduce la precisione del modello di un margine significativo ogni due mesi, ripeti l'addestramento del modello più spesso di ogni due mesi.

Condizione

#df

In un albero decisionale, qualsiasi nodo che valuti un'espressione. Ad esempio, la seguente porzione di un albero decisionale contiene due condizioni:

Una struttura decisionale composta da due condizioni: (x > 0) e
(y > 0).

Una condizione è anche chiamata suddivisione o test.

Condizione di contrasto con leaf.

Vedi anche:

condizione binaria
condizione non binaria.
condizione-allineata-asse
condizione-obliqua

confabulazione

#language

Sinonimo di allucinazione.

Confabulazione è probabilmente un termine tecnicamente più preciso che allucinazione. Tuttavia, l'allucinazione è diventata popolare all'inizio.

configurazione

Il processo di assegnazione dei valori iniziali delle proprietà utilizzati per addestrare un modello, tra cui:

la composizione dei livelli del modello
la posizione dei dati
iperparametri come:

Nei progetti di machine learning, la configurazione può essere eseguita tramite uno speciale file di configurazione o utilizzando librerie di configurazione come segue:

bias di conferma

#fairness

Tendenza a cercare, interpretare, favorire e ricordare le informazioni in un modo che confermi le proprie convinzioni o ipotesi preesistenti. Gli sviluppatori di machine learning potrebbero inavvertitamente raccogliere o etichettare dati in modi che influenzano un risultato a supporto delle loro convinzioni esistenti. Il bias di conferma è una forma di pregiudizi impliciti.

Il bias dello sperimentatore è una forma di bias di conferma in cui uno sperimentatore continua ad addestrare i modelli fino a quando non viene confermata un'ipotesi preesistente.

matrice di confusione

#fundamentals

Una tabella NxN che riassume il numero di previsioni corrette ed errate eseguite da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione binaria:

	Tumore (previsto)	Non tumore (previsto)
Tumore (dati empirici reali)	18 (VP)	1 (FN)
Non tumore (dati empirici reali)	6 (FP)	452 (TN)

La precedente matrice di confusione mostra quanto segue:

Delle 19 previsioni in cui i dati empirici reali erano Tumor, il modello ne ha classificato correttamente 18 e ha erroneamente classificato 1.
Su 458 previsioni in cui i dati empirici reali erano Non Tumori, il modello ha classificato correttamente 452 e ha erroneamente classificato 6.

La matrice di confusione per un problema di classificazione multi-classe può aiutarti a identificare i modelli di errore. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione multiclasse a 3 classi che classifica tre diversi tipi di iris (Virginica, Versicolor e Setosa). Quando i dati empirici reali erano Virginica, la matrice di confusione mostra che il modello aveva molte più probabilità di prevedere erroneamente Versicolor rispetto a Setosa:

	Setosa (previsto)	Versicolor (previsto)	Virginica (previsto)
Setosa (dati empirici reali)	88	12	0
Versicolor (dati empirici reali)	6	141	7
Virginica (dati empirici reali)	2	27	109

Come ulteriore esempio, una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere le cifre scritte a mano tende a prevedere erroneamente 9 anziché 4 o a predire erroneamente 1 anziché 7.

Le matrici di confusione contengono informazioni sufficienti per calcolare una serie di metriche delle prestazioni, tra cui precisione e richiamo.

analisi dei collegi elettorali

#language

Dividere una frase in strutture grammaticali più piccole ("costituenti"). Una parte successiva del sistema di ML, ad esempio un modello di comprensione del linguaggio naturale, è in grado di analizzare i cittadini più facilmente rispetto alla frase originale. Ad esempio, considera la seguente frase:

Il mio amico ha adottato due gatti.

Un parser del collegio elettorale può dividere questa frase nei seguenti due componenti:

Il mio amico è una frase sostantiva.
adopted two cats è una frase verbale.

Questi componenti possono essere ulteriormente suddivisi in componenti più piccoli. Ad esempio, la frase verbale

adottati due gatti

può essere suddiviso ulteriormente in:

adopted è un verbo.
due gatti è un'altra frase.

incorporamento nel linguaggio contestualizzato

#language

#IAgenerativa

Un incorporamento che si avvicina al "comprendere" parole e frasi nei modi in cui ciò può fare i madrelingua. L'incorporamento del linguaggio contestuale è in grado di comprendere sintassi, semantica e contesto complessi.

Ad esempio, considera gli incorporamenti della parola inglese cow. Incorporamenti meno recenti come word2vec possono rappresentare parole inglesi, in modo che la distanza nello spazio di incorporamento tra mucca e toro sia simile alla distanza tra ewe (pecora femmina) e montone (pecora maschio) o tra femmina e maschile. L'incorporamento di lingue contestuali può fare un ulteriore passo in avanti, poiché gli utenti anglofoni a volte usano la parola mucca per significare: mucca o toro.

finestra di contesto

#language

#IAgenerativa

Il numero di token che un modello può elaborare in un determinato messaggio. Più ampia è la finestra di contesto, maggiori sono le informazioni che il modello può utilizzare per fornire risposte coerenti e coerenti al prompt.

funzionalità continua

#fundamentals

Una funzionalità a virgola mobile con una gamma infinito di possibili valori, come la temperatura o il peso.

È in contrasto con la funzionalità discreta.

campionamento di convenienza

Utilizzo di un set di dati non raccolto scientificamente per eseguire esperimenti rapidi. In seguito, è essenziale passare a un set di dati raccolto scientificamente.

convergenza

#fundamentals

Uno stato raggiunto quando i valori della perdita cambiano molto poco o per niente a ogni iterazione. Ad esempio, la seguente curva di perdita suggerisce la convergenza a circa 700 iterazioni:

grafico cartesiano. L'asse X corrisponde a una perdita. L'asse Y indica il numero di iterazioni
di addestramento. La perdita è molto elevata durante le prime iterazioni, ma
diminuisce drasticamente. Dopo circa 100 iterazioni, la perdita è ancora decrescente, ma molto più gradualmente. Dopo circa 700 iterazioni,
la perdita rimane fissa.

Un modello converge quando un addestramento aggiuntivo non lo migliora.

Nel deep learning, i valori di perdita a volte rimangono costanti o quasi per molte iterazioni prima di scendere definitivamente. Durante un lungo periodo di valori di perdita costanti, potresti temporaneamente avere un falso senso di convergenza.

Consulta anche la sezione Interruzione anticipata.

funzione convessa

Una funzione in cui la regione sopra il grafico della funzione è un insieme convesso. La prototipazione della funzione convessa ha una forma simile alla lettera U. Ad esempio, le seguenti sono tutte funzioni convessive:

Curve a forma di U, ciascuna con un singolo punto minimo.

Al contrario, la funzione seguente non è convessa. Nota che l'area geografica sopra il grafico non è un insieme convesso:

Una curva a W con due diversi punti minimi locali.

Una funzione rigorosamente convessa ha esattamente un punto minimo locale, che è anche il punto minimo globale. Le classiche funzioni a U sono strettamente convesse. Tuttavia, alcune funzioni convessi (ad esempio le linee rette) non hanno la forma a U.

Fai clic sull'icona per visualizzare i dati matematici.

Molte delle funzioni di perdita comuni, tra cui quelle riportate di seguito, sono funzioni convesse:

L₂ perdita
Perdita log
Regolarizzazione ₁
Regolarizzazione L₂

Per molte varianti di discesa del gradiente è garantito che trovino un punto vicino al minimo di una funzione strettamente convessa. Allo stesso modo, molte varianti di discesa del gradiente stocastico hanno un'alta probabilità (anche se non una garanzia) di trovare un punto vicino al minimo di una funzione strettamente convessa.

La somma di due funzioni convessi (ad esempio perdita L₂ + regolarizzazione L₁) è una funzione convessa.

I modelli profondi non sono mai funzioni convessi. Sorprendentemente, gli algoritmi progettati per l'ottimizzazione convessa tendono comunque a trovare soluzioni ragionevolmente valide nelle reti profonde, anche se non è garantito che siano un minimo globale.

ottimizzazione convessa

Il processo di utilizzo di tecniche matematiche come la discesa del gradiente per trovare il minimo di una funzione convessa. Un'ampia ricerca nel campo del machine learning si è concentrata sulla formulazione di vari problemi come problemi di ottimizzazione convessi e sulla loro risoluzione in modo più efficiente.

Per informazioni dettagliate, consulta Boyd and Vandenberghe, Convex Optimization.

insieme convesso

Un sottoinsieme di spazio euclideo in modo tale che una linea tracciata tra due punti qualsiasi del sottoinsieme rimanga completamente all'interno del sottoinsieme. Ad esempio, le seguenti due forme sono insiemi convessi:

Un'illustrazione di un rettangolo. Un'altra illustrazione di un ovale.

Al contrario, le due forme seguenti non sono insiemi convessi:

Illustrazione di un grafico a torta con una sezione mancante.
Un'altra illustrazione di un poligono molto irregolare.

convoluzione

#image

In matematica, casualmente, è una combinazione di due funzioni. Nel machine learning, una convoluzione mescola il filtro convoluzionale e la matrice di input per addestrare le ponderazioni.

Il termine "convoluzione" nel machine learning rappresenta spesso un modo abbreviato per fare riferimento all'operazione convoluzionale o al livello convoluzionale.

Senza le convoluzioni, un algoritmo di machine learning dovrebbe apprendere un peso separato per ogni cella in un tensore di grandi dimensioni. Ad esempio, un addestramento di un algoritmo di machine learning su immagini 2000 x 2000 sarebbe costretto a trovare 4 milioni di pesi separati. Grazie alle convoluzioni, un algoritmo di machine learning deve trovare solo le ponderazioni per ogni cella del filtro convoluzionale, riducendo drasticamente la memoria necessaria per l'addestramento del modello. Quando viene applicato il filtro convoluzionale, viene semplicemente replicato tra le celle in modo che ciascuna venga moltiplicata per il filtro.

filtro convoluzionale

#image

Uno dei due attori in un' operazione convoluzionale. (L'altro attore è una sezione di una matrice di input.) Un filtro convoluzionale è una matrice con lo stesso ranking della matrice di input, ma una forma più piccola. Ad esempio, data una matrice di input 28 x 28, il filtro potrebbe essere qualsiasi matrice 2D più piccola di 28 x 28.

Nella manipolazione fotografica, tutte le celle di un filtro convoluzionale sono generalmente impostate su un modello costante di uno e zeri. Nel machine learning, i filtri convoluzionali vengono generalmente sottoposti a seeding con numeri casuali e quindi la rete addestra i valori ideali.

livello convoluzionale

#image

Livello di una rete neurale profonda in cui un filtro convoluzionale passa lungo una matrice di input. Ad esempio, considera il seguente filtro convoluzionale 3x3:

Una matrice 3x3 con i seguenti valori: [[0,1,0], [1,0,1], [0,1,0]]

L'animazione seguente mostra un livello convoluzionale composto da 9 operazioni convoluzionali che coinvolgono la matrice di input 5x5. Nota che ogni operazione convoluzionale funziona su una sezione 3x3 diversa della matrice di input. La matrice 3 x 3 risultante (a destra) è composta dai risultati delle 9 operazioni convoluzionali:

rete neurale convoluzionale

#image

Una rete neurale in cui almeno un livello è un livello convoluzionale. Una tipica rete neurale convoluzionale è composta da una combinazione dei seguenti livelli:

livelli convoluzionali
pooling livelli
strati densi

Le reti neurali convoluzionali si sono rivelate molto efficaci in alcuni tipi di problemi, come il riconoscimento delle immagini.

operazione convoluzionale

#image

La seguente operazione matematica in due fasi:

Moltiplicazione per elemento del filtro convoluzionale e di una sezione di una matrice di input. (La sezione della matrice di input ha lo stesso ranking e la stessa dimensione del filtro convoluzionale.)
Somma di tutti i valori nella matrice dei prodotti risultante.

Ad esempio, considera la seguente matrice di input 5 x 5:

La matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,2,100,1]

Ora immagina il seguente filtro convoluzionale 2 x 2:

La matrice 2x2: [[1, 0], [0, 1]]

Ogni operazione convoluzionale prevede una singola sezione 2 x 2 della matrice di input. Ad esempio, supponiamo di utilizzare la sezione 2 x 2 in alto a sinistra della matrice di input. Quindi, l'operazione di convoluzione su questa sezione è la seguente:

Applicando il filtro convoluzionale [[1, 0], [0, 1]] alla sezione 2x2 in alto a sinistra della matrice di input, che è [[128,97], [35,22]].
Il filtro convoluzionale lascia intatti i numeri 128 e 22, azzerando i numeri 97 e 35. Di conseguenza, l'operazione di convoluzione restituisce il valore 150 (128+22).

Un livello convoluzionale è costituito da una serie di operazioni convoluzionali, ognuna delle quali agisce su una sezione diversa della matrice di input.

costo

Sinonimo di perdita.

co-addestramento

Un approccio di apprendimento semi-supervisionato è particolarmente utile quando si verificano tutte le seguenti condizioni:

Il rapporto tra esempi non etichettati e esempi etichettati nel set di dati è elevato.
Questo è un problema di classificazione (binario o multi-classe).
Il set di dati contiene due diversi insiemi di funzionalità predittive, indipendenti tra loro e complementari.

Il co-addestramento amplifica gli indicatori indipendenti in un segnale più forte. Ad esempio, prendi in considerazione un modello di classificazione che classifica le singole auto usate come Buono o Non valido. Un insieme di funzionalità predittive potrebbe essere incentrato su caratteristiche aggregate come anno, marca e modello dell'auto; un altro insieme di funzionalità predittive potrebbe concentrarsi sui precedenti di guida e sulla cronologia di manutenzione dell'auto.

L'articolo fondamentale sul co-addestramento è Combining Labeled and Unlabeled Data with Co-Training di Blum e Mitchell.

equità controfattuale

#fairness

Una metrica di equità che verifica se un classificatore produce per un individuo lo stesso risultato che per un altro individuo identico al primo, tranne che per uno o più attributi sensibili. La valutazione dell'equità controfattuale di un classificatore è un metodo per individuare le potenziali fonti di bias in un modello.

Consulta "When Worlds Collide: Integrating Different Counterffluent Assumptions in Fairness" per una discussione più dettagliata sull'equità controfattuale.

bias di copertura

#fairness

Consulta la sezione Bias di selezione.

arresto anomalo in fiore

#language

Una frase con un significato ambiguo. I fiori degli arresti anomali rappresentano un problema significativo nella comprensione del linguaggio naturale. Ad esempio, il titolo Red Tape Holds Up Skyscraper è un successo improvviso perché un modello NLU potrebbe interpretare il titolo in senso letterale o figurativo.

Fai clic sull'icona per le note aggiuntive.

Giusto per chiarire quel titolo misterioso:

Il termine nastro rosso potrebbe essere uno dei seguenti:
- Un adesivo
- Burocrazia eccessiva
Il termine "fermi in piedi" può riferirsi a uno dei seguenti riferimenti:
- Supporto strutturale
- Ritardi

critico

#rl

Sinonimo di Deep Q-Network.

entropia incrociata

Una generalizzazione di Log Loss a problemi di classificazione multiclasse. Entropia incrociata quantifica la differenza tra due distribuzioni di probabilità. Vedi anche perplessità.

convalida incrociata

Un meccanismo per stimare l'efficacia di un model in generale nei nuovi dati testando il modello su uno o più sottoinsiemi di dati non sovrapposti trattenuti dal model.

funzione di distribuzione cumulativa (CDF)

Una funzione che definisce la frequenza dei campioni inferiore o uguale a un valore target. Ad esempio, considera una normale distribuzione di valori continui. La metrica CDF indica che circa il 50% dei campioni dovrebbe essere inferiore o uguale alla media e che circa l'84% dei campioni dovrebbe essere inferiore o uguale a una deviazione standard sopra la media.

D

analisi dei dati

Comprensione dei dati mediante l'analisi di campioni, misurazione e visualizzazione. L'analisi dei dati può essere particolarmente utile quando un set di dati viene ricevuto per la prima volta, prima che venga creato il primo model. È fondamentale anche per comprendere gli esperimenti e il debug dei problemi del sistema.

aumento dei dati

#image

È possibile aumentare in modo artificiale l'intervallo e il numero di esempi di addestramento trasformando gli esempi esistenti in modo da crearne altri. Ad esempio, supponiamo che le immagini siano una delle tue caratteristiche, ma il tuo set di dati non contiene abbastanza esempi di immagini per consentire al modello di apprendere associazioni utili. Idealmente, dovresti aggiungere al set di dati un numero sufficiente di immagini etichettate per consentire al modello di eseguire correttamente l'addestramento. Se ciò non è possibile, l'aumento dei dati può ruotare, allungare e riflettere ogni immagine per produrre molte varianti dell'immagine originale, producendo possibilmente dati etichettati sufficienti per consentire un addestramento eccellente.

DataFrame

#fundamentals

Un tipo di dati panda popolare per la rappresentazione di set di dati in memoria.

Un DataFrame è simile a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.

Ogni colonna in un DataFrame è strutturata come un array 2D, ad eccezione del fatto che a ogni colonna può essere assegnato il proprio tipo di dati.

Consulta anche la pagina di riferimento ufficiale di pandas.DataFrame.

parallelismo dei dati

Un modo per scalare l'addestramento o l'inferenza che replica un intero modello su più dispositivi e poi passa un sottoinsieme dei dati di input a ciascun dispositivo. Il parallelismo dei dati può consentire l'addestramento e l'inferenza su dimensioni dei batch molto grandi. Tuttavia, il parallelismo dei dati richiede che il modello sia sufficientemente piccolo da poter essere installato su tutti i dispositivi.

Il parallelismo dei dati in genere accelera l'addestramento e l'inferenza.

Vedi anche model parallelismo.

set di dati o set di dati

#fundamentals

Una raccolta di dati non elaborati, comunemente (ma non esclusivamente) organizzati in uno dei seguenti formati:

un foglio di lavoro
Un file in formato CSV (valori separati da virgole)

API Dataset (tf.data)

#TensorFlow

Un'API TensorFlow di alto livello per la lettura dei dati e la loro trasformazione in un formato richiesto da un algoritmo di machine learning. Un oggetto tf.data.Dataset rappresenta una sequenza di elementi in cui ogni elemento contiene uno o più Tensor. Un oggetto tf.data.Iterator fornisce l'accesso agli elementi di un Dataset.

Per maggiori dettagli sull'API Dataset, consulta tf.data: Build TensorFlow input pipelines nella Guida per i programmatori TensorFlow.

limite decisionale

Il separatore tra le classi apprese da un modello in una classe binaria o in problemi di classificazione multi-classe. Ad esempio, nell'immagine seguente che rappresenta un problema di classificazione binaria, il confine della decisione rappresenta la frontiera tra la classe arancione e la classe blu:

Un confine ben definito tra una classe e l'altra.

Decision Forest

#df

Un modello creato a partire da più alberi decisionali. Una foresta decisionale esegue una previsione aggregando le previsioni dei suoi alberi decisionali. Tra i tipi più diffusi di foreste decisionali ci sono foreste casuali e alberi potenziati da gradiente.

soglia di decisione

Sinonimo di soglia di classificazione.

albero decisionale

#df

Un modello di apprendimento supervisionato composto da un insieme di conditions e conditions organizzate in modo gerarchico. Ad esempio, di seguito è riportato un albero decisionale:

Una struttura decisionale composta da quattro condizioni organizzate gerarchicamente che portano a cinque foglie.

decoder

#language

In generale, qualsiasi sistema di ML che converte da una rappresentazione elaborata, densa o interna a una rappresentazione più non elaborata, sparsa o esterna.

I decoder sono spesso un componente di un modello più grande, in cui sono spesso accoppiati a un encoder.

Nelle attività da sequenza a sequenza, un decoder inizia con lo stato interno generato dall'encoder per prevedere la sequenza successiva.

Fai riferimento a Transformer per la definizione di un decoder nell'architettura Transformer.

modello profondo

#fundamentals

Una rete neurale contenente più di un livello nascosto.

Un modello deep è anche chiamato rete neurale profonda.

Contrasta con il modello largo.

per le reti neurali profonde

Sinonimo di modello deep.

Deep Q-Network (DQN)

#rl

In Q-learning, una rete neurale approfondita che prevede le funzioni Q.

Critico è un sinonimo di Deep Q-Network.

parità demografica

#fairness

Una metrica di equità che viene soddisfatta se i risultati della classificazione di un modello non dipendono da un determinato attributo sensibile.

Ad esempio, se sia Lilliputians che Brobdingnagiani si applicano alla Glubbdubdrib University, la parità demografica viene raggiunta se la percentuale di lillilupi ammessi è uguale alla percentuale di Brobdingnagia ammessi, indipendentemente dal fatto che un gruppo sia in media più qualificato dell'altro.

Sono in contrasto con le probabilità uguali e l'uguaglianza di opportunità, che consentono la classificazione dei risultati in forma aggregata in modo che dipendano da attributi sensibili, ma non consentono che i risultati della classificazione di determinate etichette di dati empirici reali dipendano da attributi sensibili. Consulta "Lotta alla discriminazione con un machine learning più intelligente" per una visualizzazione che illustra i compromessi durante l'ottimizzazione per la parità demografica.

riduzione del rumore

#language

Un approccio comune all'apprendimento autonomo in cui:

Il rumore viene aggiunto artificialmente al set di dati.
Il model cerca di rimuovere il rumore.

La riduzione del rumore consente di apprendere da esempi non etichettati. Il set di dati originale funge da target o etichetta e da dati sul rumore come input.

Alcuni modelli linguistici di annunci mascherati utilizzano la riduzione del rumore come segue:

Il rumore viene aggiunto artificialmente a una frase non etichettata mascherando alcuni token.
Il modello cerca di prevedere i token originali.

funzionalità densa

#fundamentals

Una feature in cui la maggior parte o tutti i valori sono diversi da zero, solitamente un Tensor di valori in virgola mobile. Ad esempio, il seguente tensore di 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:

Sono invece in contrasto con la funzionalità scarsa.

strato denso

Sinonimo di livello completamente connesso.

profondità

#fundamentals

La somma di quanto segue in una rete neurale:

Il numero di livelli nascosti.
il numero di livelli di output, che in genere è 1
Il numero di livelli di incorporamento

Ad esempio, una rete neurale con cinque livelli nascosti e uno di output ha una profondità pari a 6.

Nota che il livello di input non influisce sulla profondità.

Rete neurale convoluzionale separabile in profondità (sepCNN)

#image

Un'architettura di rete neurale convoluzionale basata su Inception, ma in cui i moduli Inception vengono sostituiti da convoluzioni separabili in profondità. È anche noto come Xception.

Una convoluzione separabile in profondità (abbreviata anche come convoluzione separabile) fattoria una convoluzione 3D standard in due operazioni di convoluzione separate più efficienti dal punto di vista computazionale: prima una convoluzione di profondità, con una profondità di 1 (n x n x 1), e poi una convoluzione a punto, con lunghezza x n larghezza di 1 (1 x n).

Per scoprire di più, consulta Xception: deep learning con convoluzioni separate in profondità.

etichetta derivata

Sinonimo di etichetta proxy.

dispositivo

#TensorFlow

#GoogleCloud

Un termine sovraccarico con le seguenti due possibili definizioni:

Una categoria di hardware in grado di eseguire una sessione TensorFlow, che include CPU, GPU e TPU.
Durante l'addestramento di un modello ML su chip di acceleratori (GPU o TPU), la parte del sistema che manipola effettivamente i tensori e gli incorporamenti. Il dispositivo viene eseguito su chip di accelerazione. Al contrario, l'host di solito viene eseguito su una CPU.

privacy differenziale

Nel machine learning, un approccio di anonimizzazione per proteggere dall'esposizione tutti i dati sensibili, ad esempio le informazioni personali di un individuo, inclusi nel set di addestramento di un modello. Questo approccio garantisce che il model non apprenda o ricordi molto su un individuo specifico. Questo si ottiene campionando e aggiungendo rumore durante l'addestramento del modello per oscurare i singoli punti dati, riducendo il rischio di esposizione di dati di addestramento sensibili.

La privacy differenziale viene utilizzata anche al di fuori del machine learning. Ad esempio, i data scientist a volte usano la privacy differenziale per proteggere la privacy individuale durante il calcolo delle statistiche sull'utilizzo del prodotto per gruppi demografici diversi.

riduzione dimensione

Ridurre il numero di dimensioni utilizzate per rappresentare una determinata caratteristica in un vettore di caratteristiche, in genere tramite la conversione in un vettore di incorporamento.

dimensioni

Termine sovraccarico con una delle seguenti definizioni:

Il numero di livelli di coordinate in un Tensor. Ad esempio:
- Uno scalare ha dimensioni pari a zero; ad esempio, ["Hello"].
- Un vettore ha una dimensione, ad esempio [3, 5, 7, 11].
- Una matrice ha due dimensioni; ad esempio, [[2, 4, 18], [5, 7, 14]].
Puoi specificare in modo univoco una determinata cella in un vettore unidimensionale con una coordinata; sono necessarie due coordinate per indicare in modo univoco una determinata cella in una matrice bidimensionale.
Il numero di voci in un vettore di caratteristiche.
Il numero di elementi in un livello di incorporamento.

prompt diretti

#language

#IAgenerativa

Sinonimo di prompt zero-shot.

funzionalità discreta

#fundamentals

Una feature con un insieme limitato di valori possibili. Ad esempio, una caratteristica i cui valori possono essere solo animale, vegetale o minerale è una caratteristica discreta (o categorica).

Al contrario, la funzionalità continua è diversa.

modello discriminativo

Un model che prevede le model da un insieme di una o più model. Più formalmente, i modelli discriminativi definiscono la probabilità condizionale di un output date le caratteristiche e le ponderazioni, ovvero:

p(output | features, weights)

Ad esempio, un modello che prevede se un'email è spam da funzionalità e ponderazioni è un modello discriminativo.

La maggior parte dei modelli di apprendimento supervisionato, inclusi i modelli di classificazione e regressione, è discriminante.

Sono invece in contrasto con il modello generativo.

discriminatore

Un sistema che determina se gli esempi sono reali o falsi.

In alternativa, il sottosistema all'interno di una rete generativa antagonistica che determina se gli esempi creati dal generatore sono reali o falsi.

impatto

#fairness

Prendere decisioni sulle persone con un impatto sproporzionato su diversi sottogruppi. In genere si riferiscono a situazioni in cui un processo decisionale algoritmico danneggia o va a vantaggio di alcuni sottogruppi rispetto ad altri.

Ad esempio, supponi che un algoritmo che determina l'idoneità di un lillutino a un prestito per la casa in miniatura abbia più probabilità di classificarlo come "non idoneo" se il suo indirizzo postale contiene un determinato codice postale. Se è più probabile che i Little-Endian Lilliputians abbiano indirizzi postali con questo codice postale rispetto ai Little-Endian Lilliputian, questo algoritmo potrebbe avere un impatto disparato.

A differenza del trattamento disparato, che si concentra sulle disparità risultanti quando le caratteristiche dei sottogruppi sono input espliciti a un processo decisionale algoritmico.

trattamento disparato

#fairness

Fattorizzazione degli attributi sensibili dei soggetti in un processo decisionale algoritmico in modo che i diversi sottogruppi di persone vengano trattati in modo diverso.

Ad esempio, considera un algoritmo che determina l'idoneità dei Lilliputian a un mutuo per la casa in miniatura in base ai dati forniti nella richiesta di prestito. Se l'algoritmo utilizza un'affiliazione di lillippino come Big-Endian o Little-Endian come input, applica un trattamento disparato lungo questa dimensione.

Sono invece opposti all'impatto disparato, che si concentra sulle disparità nell'impatto sociale delle decisioni algoritmiche sui sottogruppi, a prescindere dal fatto che questi sottogruppi siano input del modello.

distillazione

#IAgenerativa

Il processo di riduzione delle dimensioni di un model (noto come model) in un modello più piccolo (noto come model) che emula le previsioni del modello originale nel modo più fedele possibile. La distillazione è utile perché il modello più piccolo ha due vantaggi chiave rispetto al modello più grande (l'insegnante):

Tempi di inferenza più rapidi
Consumo di memoria e energia ridotto

Tuttavia, in genere le previsioni dello studente non sono buone come quelle dell'insegnante.

La distillazione addestra il modello studente per ridurre al minimo una funzione di perdita in base alla differenza tra gli output delle previsioni dei modelli studente e insegnante.

Confronta la distillazione con i seguenti termini e illustrane le differenze:

ottimizzazione
apprendimento basato su prompt

distribution

La frequenza e l'intervallo di valori diversi per una determinata funzionalità o etichetta. Una distribuzione acquisisce la probabilità di un determinato valore.

La seguente immagine mostra istogrammi di due distribuzioni diverse:

A sinistra, la distribuzione della ricchezza in base alla legge dell'energia rispetto al numero di persone che la possiedono.
A destra, una normale distribuzione dell'altezza rispetto al numero di persone che posseggono l'altezza.

Comprendere la distribuzione di ogni funzionalità e delle etichette può aiutarti a determinare come normalizzare i valori e rilevare i valori anomali.

L'espressione out of Distribution si riferisce a un valore che non compare nel set di dati o che è molto raro. Ad esempio, un'immagine del pianeta Saturno verrebbe considerata fuori dalla distribuzione per un set di dati composto da immagini di gatti.

clustering divisivo

#clustering

Consulta il clustering gerarchico.

sottocampionamento

#image

Termine sovraccarico che può indicare una delle seguenti situazioni:

Ridurre la quantità di informazioni in una funzionalità per addestrare un modello in modo più efficiente. Ad esempio, prima di addestrare un modello di riconoscimento delle immagini, sottocampionando le immagini ad alta risoluzione a un formato a risoluzione più bassa.
Addestramento su una percentuale sproporzionatamente bassa di esempi di classi sovrarappresentati per migliorare l'addestramento del modello nelle classi sottorappresentate. Ad esempio, in un set di dati con squilibrio tra le classi, i modelli tendono a imparare molto sulla classe di maggioranza e non abbastanza sulla classe di minoranza. Il sottocampionamento aiuta a bilanciare la quantità di addestramento per le classi di maggioranza e di minoranza.

DQN

#rl

Abbreviazione di Deep Q-Network.

regolarizzazione degli abbandoni

Una forma di regolarizzazione utile per l'addestramento delle reti neurali. La regolarizzazione dell'abbandono rimuove una selezione casuale di un numero fisso di unità in un livello di rete per un singolo passaggio del gradiente. Più unità hanno abbandonato, maggiore è la regolarizzazione. Ciò è analogo all'addestramento della rete per emulare un insieme esponenzialmente grande di reti più piccole. Per informazioni dettagliate, consulta Dropout: un modo semplice per impedire l'overfitting delle reti neurali.

dinamico

#fundamentals

Si tratta di un'operazione che viene eseguita di frequente o continuamente. I termini dinamico e online sono sinonimi nel machine learning. Di seguito sono riportati alcuni usi comuni degli attributi dinamico e online nel machine learning:

Un modello dinamico (o modello online) è un modello che viene riaddestrato di frequente o continuamente.
L'addestramento dinamico (o addestramento online) è il processo di addestramento frequente o continuo.
L'inferenza dinamica (o inferenza online) è il processo di generazione di previsioni on demand.

modello dinamico

#fundamentals

Un model che viene riaddestrato di frequente (forse anche continuamente). Un modello dinamico è uno "apprendista per tutta la vita" che si adatta costantemente ai dati in evoluzione. Un modello dinamico è anche noto come modello online.

Sono in contrasto con il modello statico.

E

esecuzione impaziente

#TensorFlow

Un ambiente di programmazione TensorFlow in cui le operations vengono eseguite immediatamente. Al contrario, le operazioni chiamate in esecuzione del grafico non vengono eseguite finché non vengono valutate esplicitamente. L'esecuzione impaziente è un'interfaccia imperativa, molto simile al codice nella maggior parte dei linguaggi di programmazione. I programmi di esecuzione più entusiasti sono generalmente molto più semplici da eseguire rispetto ai programmi di esecuzione di grafici.

interruzione anticipata

#fundamentals

Un metodo per la regolarizzazione che prevede la fine dell'addestramento prima che la perdita di addestramento termini in diminuzione. Nell'interruzione anticipata, interrompi intenzionalmente l'addestramento del modello quando la perdita in un set di dati di convalida inizia ad aumentare, ovvero quando le prestazioni della generalizzazione peggiorano.

Fai clic sull'icona per le note aggiuntive.

L'interruzione anticipata può sembrare controintuitivo. Dopotutto, dire a un modello di interrompere l'addestramento mentre la perdita è ancora in calo può sembrare come dire a uno chef di interrompere la cottura prima che il dessert sia finito. Tuttavia, l'addestramento di un modello per troppo tempo può portare a un overfitting. In altre parole, se addestra un modello troppo a lungo, il modello potrebbe adattarsi ai dati di addestramento in modo tale da non fare previsioni corrette su nuovi esempi.

distanza del movimento terra (EMD)

Una misura della somiglianza relativa di due distribuzioni. Più bassa è la distanza del creatore della terra, più simili sono le distribuzioni.

modifica distanza

#language

Una misurazione della somiglianza tra due stringhe di testo. Nel machine learning, la modifica della distanza è utile perché è semplice da calcolare e un modo efficace per confrontare due stringhe note per essere simili o per trovare stringhe simili a una determinata stringa.

Esistono diverse definizioni di distanza di modifica, ognuna delle quali utilizza operazioni di stringa diverse. Ad esempio, per la distanza levenshtein viene preso in considerazione il minor numero di operazioni di eliminazione, inserimento e sostituzione.

Ad esempio, la distanza Levenshtein tra le parole "cuore" e "frecce" è 3 perché le tre modifiche seguenti sono il numero minimo di modifiche per trasformare una parola nell'altra:

cuore → deart (sostituisci "h" con "d")
deart → dart (elimina "e")
dart → freccette (inserisci "s")

Notazione einsum

Una notazione efficiente per descrivere come devono essere combinati due tensori. I tensori vengono combinati moltiplicando gli elementi di un tensore per gli elementi dell'altro tensore e sommando i risultati. La notazione Einsum utilizza simboli per identificare gli assi di ogni tensore, che vengono riorganizzati per specificare la forma del nuovo tensore risultante.

NumPy fornisce un'implementazione comune di Einsum.

livello di incorporamento

#language

#fundamentals

Uno speciale livello nascosto che si addestra su una funzionalità categorica ad alta dimensione per apprendere gradualmente un vettore di incorporamento di dimensioni inferiori. Un livello di incorporamento consente a una rete neurale di addestrare in modo molto più efficiente rispetto all'addestramento solo sulla caratteristica categoriale ad alta dimensione.

Ad esempio, attualmente la Terra supporta circa 73.000 specie di alberi. Supponiamo che le specie di alberi siano una caratteristica nel modello, quindi il livello di input del modello include un vettore one-hot lungo 73.000 elementi. Ad esempio, baobab potrebbe essere rappresentato in modo simile al seguente:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore
0. L'elemento successivo contiene il valore 1. Gli ultimi 66.767 elementi contengono il valore zero.

Un array di 73.000 elementi è molto lungo. Se non aggiungi un livello di incorporamento al modello, l'addestramento richiederà molto tempo a causa della moltiplicazione di 72.999 zeri. Ad esempio, puoi scegliere che lo strato di incorporamento sia composto da 12 dimensioni. Di conseguenza, lo strato di incorporamento apprenderà gradualmente un nuovo vettore di incorporamento per ogni specie di albero.

In alcune situazioni, l'hashing è un'alternativa ragionevole a un livello di incorporamento.

spazio di incorporamento

#language

Lo spazio vettoriale d-dimensionale in cui vengono mappati gli elementi di uno spazio vettoriale di dimensione superiore. Idealmente, lo spazio di incorporamento contiene una struttura che restituisce risultati matematici significativi. Ad esempio, in uno spazio di incorporamento ideale, l'aggiunta e la sottrazione di incorporamenti possono risolvere attività di analogia delle parole.

Il prodotto punto di due incorporamenti è una misura della loro somiglianza.

vettore di incorporamento

#language

In linea di massima, un array di numeri in virgola mobile tratti da qualsiasi livello nascosto che descrive gli input di quel livello nascosto. Spesso, un vettore di incorporamento è l'array di numeri in virgola mobile addestrati in uno strato di incorporamento. Supponiamo, ad esempio,che un livello di incorporamento debba apprendere un vettore di incorporamento per ognuna delle 73.000 specie di alberi sulla Terra. Forse il seguente array è il vettore di incorporamento per un baobab:

Un array di 12 elementi, ciascuno con un numero in virgola mobile compreso tra 0,0 e 1,0.

Un vettore di incorporamento non è un gruppo di numeri casuali. Un livello di incorporamento determina questi valori tramite l'addestramento, in modo simile al modo in cui una rete neurale apprende altri pesi durante l'addestramento. Ogni elemento dell'array è una valutazione lungo alcune caratteristiche di una specie di albero. Quale elemento rappresenta la caratteristica di quale specie di alberi? Questo è molto difficile per gli esseri umani.

La parte matematicamente rilevante di un vettore di incorporamento è che gli elementi simili hanno insiemi simili di numeri in virgola mobile. Ad esempio, le specie di alberi simili hanno un insieme più simile di numeri in virgola mobile rispetto a specie di alberi diverse. Le sequoie e le sequoie sono specie di alberi correlate, quindi avranno una serie di numeri con punta fluttuante più simile a quella delle sequoie e delle palme da cocco. I numeri nel vettore di incorporamento cambieranno ogni volta che riaddestri il modello, anche se riaddestra il modello con un input identico.

funzione di distribuzione cumulativa empirica (eCDF o EDF)

Una funzione di distribuzione cumulativa basata su misurazioni empiriche da un set di dati reale. Il valore della funzione in qualsiasi punto lungo l'asse x è la frazione di osservazioni nel set di dati che sono inferiori o uguali al valore specificato.

minimizzazione del rischio empirico (ERM)

Scegliere la funzione che riduce al minimo la perdita del set di addestramento. Al contrario, la minimizzazione del rischio strutturale.

codificatore

#language

In generale, qualsiasi sistema di ML che converte da una rappresentazione non elaborata, sparsa o esterna a una rappresentazione più elaborata, più densa o interna.

Gli encoder sono spesso parte di un modello più grande e sono spesso accoppiati a un decoder. Alcuni Transformer accoppiano i codificatori con i decoder, mentre altri utilizzano solo l'encoder o solo il decoder.

Alcuni sistemi utilizzano l'output dell'encoder come input per una rete di classificazione o regressione.

Nelle attività da sequenza a sequenza, un codificatore prende una sequenza di input e restituisce uno stato interno (un vettore). Quindi, il decoder utilizza questo stato interno per prevedere la sequenza successiva.

Per la definizione di un encoder nell'architettura Transformer, consulta la sezione Transformer.

completo

Una raccolta di modelli addestrati in modo indipendente le cui previsioni vengono calcolate in media o aggregate. In molti casi, un insieme produce previsioni migliori rispetto a un singolo modello. Ad esempio, una foresta casuale è un insieme creato a partire da più alberi decisionali. Tieni presente che non tutte le foreste decisionali sono compositi.

entropia

#df

Nella teoria dell'informazione, una descrizione di quanto sia imprevedibile una distribuzione di probabilità. In alternativa, l'entropia è definita anche come la quantità di informazioni contenute in ogni esempio. Una distribuzione ha la più alta entropia possibile quando tutti i valori di una variabile casuale hanno la stessa probabilità.

L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dove:

H è l'entropia.
p è la frazione di "1".
q è la frazione degli esempi "0". Nota che q = (1 - p)
log corrisponde in genere a log₂. In questo caso, l'unità di entropia è un po'.

Supponiamo, ad esempio, che:

100 esempi contengono il valore "1"
300 esempi contengono il valore "0"

Di conseguenza, il valore entropia è:

p = 0,25
q = 0,75
H = (-0,25) log₂(0,25) - (0,75)log₂(0,75) = 0,81 bit per esempio

Un insieme perfettamente bilanciato (ad esempio 200 "0" e 200 "1") avrebbe un'entropia di 1, 0 bit per esempio. Man mano che un insieme diventa più sbilanciato, la sua entropia si sposta verso 0,0.

Negli alberi decisionali, l'entropia aiuta a formulare il aumento delle informazioni per aiutare lo strumento splitter a selezionare le condizioni durante la crescita di un albero decisionale della classificazione.

Confronta l'entropia con:

impurità gini
Funzione di perdita di entropia incrociata

L'entropia di Shannon è spesso chiamata entropia di Shannon.

produzione

#rl

Nel reinforcement learning, il mondo che contiene l'agente e consente all'agente di osservare lo stato del mondo. Ad esempio, il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come un labirinto. Quando l'agente applica un'azione all'ambiente, l'ambiente passa da uno stato all'altro.

puntata

#rl

Nell'apprendimento per rinforzo, ciascuno dei tentativi ripetuti da parte dell'agente di apprendere un ambiente.

periodo

#fundamentals

Un passaggio completo di addestramento sull'intero set di addestramento in modo che ogni esempio sia stato elaborato una sola volta.

Un'epoca rappresenta N/dimensione del batch iterazioni di addestramento, dove N è il numero totale di esempi.

Ad esempio, supponiamo quanto segue:

Il set di dati è composto da 1000 esempi.
La dimensione del batch è di 50 esempi.

Pertanto, una singola epoca richiede 20 iterazioni:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

norme epsilon greedy

#rl

Nel reinforcement learning, una norma che segue una norma casuale con una probabilità di epsilon o una norma greedy. Ad esempio, se epsilon è 0.9, la norma segue una norma casuale il 90% delle volte e una norma greedy il 10% delle volte.

Negli episodi successivi, l'algoritmo riduce il valore di epsilon per passare da un criterio casuale a un criterio greedy. Cambiando il criterio, l'agente prima esplora in modo casuale l'ambiente e poi sfrutta avidamente i risultati di un'esplorazione casuale.

pari opportunità

#fairness

Una metrica di equità per valutare se un modello prevede lo stesso risultato auspicabile per tutti i valori di un attributo sensibile. In altre parole, se il risultato desiderato per un modello è la classe positiva, l'obiettivo è fare in modo che il tasso di veri positivi sia lo stesso per tutti i gruppi.

L'uguaglianza di opportunità è correlata alle quote uguali, il che richiede che sia i tassi di veri positivi sia i tassi di falsi positivi siano uguali per tutti i gruppi.

Supponiamo che la Glubbdubdrib University ammette sia Lilliputiani che Brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliputian offrono un solido programma di lezioni di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnagia non offrono corsi di matematica e, di conseguenza, un numero molto inferiore di studenti è qualificato. L'uguaglianza di opportunità è soddisfatta per l'etichetta preferita di "ammesso" rispetto alla nazionalità (Lilliputian o Brobdingnagian), se gli studenti qualificati hanno le stesse probabilità di essere ammessi indipendentemente dal fatto che siano lillipui o Brobdingnagian.

Ad esempio, supponiamo che alla Glubbdubdrib University si accompagnino 100 liilliputiani e 100 dei Brobdingnagi e che le decisioni di ammissione siano prese come segue:

Tabella 1. Candidati lillutini (il 90% dei candidati è qualificato)

	Qualificato	Non qualificato
Ammesso	45	3
Rifiutata	45	7
Totale	90	10
Percentuale di studenti idonei ammessi: 45/90 = 50% Percentuale di studenti non qualificati respinti: 7/10 = 70% Percentuale totale di studenti lilligiani ammessi: (45+3)/100 = 48%

Tabella 2. Candidati per Brobdingnagian (il 10% dei partecipanti è qualificato):

	Qualificato	Non qualificato
Ammesso	5	9
Rifiutata	5	81
Totale	10	90
Percentuale di studenti idonei ammessi: 5/10 = 50% Percentuale di studenti non qualificati respinti: 81/90 = 90% Percentuale totale di studenti Brobdingnagian ammessi: (5+9)/100 = 14%

Gli esempi precedenti soddisfano l'uguaglianza di opportunità per l'accettazione di studenti qualificati, perché i Lilliputiani e i Brobdingnagia qualificati hanno entrambi una probabilità del 50% di essere ammessi.

Sebbene la parità di opportunità sia soddisfatta, non vengono soddisfatte le seguenti due metriche di equità:

Parità demografica: i licenziani e i ragazzi di Brobdingnagiani vengono ammessi all'università con tariffe diverse; il 48% degli studenti lillipuini, ma solo il 14% degli studenti di Brobdingnagian.
Probabilità uguali: sebbene gli studenti Lilliputian e Brobdingnagian qualificati abbiano entrambi la stessa probabilità di essere ammessi, il vincolo aggiuntivo secondo cui i Lilliputian e i Brobdingnagia non qualificati hanno entrambi la stessa probabilità di essere rifiutati. I lilliputiani non qualificati hanno un tasso di rifiuto del 70%, mentre i Brobdingnagia non qualificati hanno un tasso di rifiuto del 90%.

Consulta "Equality of Opportunity in Supervised Learning" per una discussione più dettagliata sull'uguaglianza delle opportunità. Inoltre, consulta "Lotta alla discriminazione con un machine learning più intelligente" per una visualizzazione che illustra i compromessi durante l'ottimizzazione per ottenere l'uguaglianza di opportunità.

probabilità pareggiata

#fairness

Una metrica di equità per valutare se un modello prevede i risultati altrettanto bene per tutti i valori di un attributo sensibile rispettando sia la classe positiva che la classe negativa, non solo una o l'altra esclusivamente. In altre parole, il tasso di veri positivi e il tasso di falsi negativi devono essere uguali per tutti i gruppi.

Le probabilità uguali sono legate all'uguaglianza delle opportunità, che si concentra solo sui tassi di errore per una singola classe (positiva o negativa).

Ad esempio, supponiamo che l'Università Glubbdubdrib ammetta sia i lilligini che i Brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliputian offrono un programma valido per i corsi di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnagiani non offrono corsi di matematica e, di conseguenza, un numero molto inferiore di studenti ha ottenuto la qualifica. Le probabilità uguali sono soddisfatte a condizione che non sia importante che il richiedente sia lillippino o Brobdingnagian, se è qualificato, ha la stessa probabilità di essere ammesso al programma; se non lo è, ha altrettanto probabilità di essere rifiutato.

Supponiamo che 100 lillipuini e 100 Brobdingnagi si riferiscano alla Glubbdubdrib University e che le decisioni di ammissione siano prese come segue:

Tabella 3. Candidati lillutini (il 90% dei candidati è qualificato)

	Qualificato	Non qualificato
Ammesso	45	2
Rifiutata	45	8
Totale	90	10
Percentuale di studenti idonei ammessi: 45/90 = 50% Percentuale di studenti non qualificati respinti: 8/10 = 80% Percentuale totale di studenti milliputiani ammessi: (45+2)/100 = 47%

Tabella 4. Candidati per Brobdingnagian (il 10% dei partecipanti è qualificato):

	Qualificato	Non qualificato
Ammesso	5	18
Rifiutata	5	72
Totale	10	90
Percentuale di studenti idonei ammessi: 5/10 = 50% Percentuale di studenti non qualificati respinti: 72/90 = 80% Percentuale totale di studenti Brobdingnagian ammessi: (5+18)/100 = 23%

Le probabilità uguali sono soddisfatte perché gli studenti qualificati Lilliputian e Brobdingnagian hanno entrambi una probabilità del 50% di essere ammessi, mentre Lilliputian e Brobdingnagian non qualificati hanno un'80% di probabilità di essere rifiutati.

Le probabilità uguali sono definite formalmente in "Uguaglianza delle opportunità nell'apprendimento supervisionato" come segue: "il preveditore ↓ soddisfa le probabilità equate rispetto all'attributo protetto A e il risultato Y se ↓ e A sono indipendenti, condizionati da Y".

Strumento di stima

#TensorFlow

Un'API TensorFlow deprecata. Utilizza tf.keras anziché lo strumento per la stima.

valutazione

Il processo di misurazione della qualità delle previsioni di un modello di machine learning. Durante lo sviluppo di un modello, in genere si applicano le metriche di valutazione non solo al set di addestramento, ma anche a un set di convalida e a un set di test. Puoi usare le metriche di valutazione anche per confrontare modelli diversi.

un esempio.

#fundamentals

I valori di una riga di features ed eventualmente di un'etichetta. Gli esempi di apprendimento supervisionato rientrano in due categorie generali:

Un esempio etichettato è costituito da una o più funzionalità e un'etichetta. Gli esempi etichettati vengono utilizzati durante l'addestramento.
Un esempio senza etichetta è costituito da una o più funzionalità, ma nessuna etichetta. Durante l'inferenza vengono utilizzati esempi senza etichetta.

Ad esempio, supponi di addestrare un modello per determinare l'influenza delle condizioni meteo sui punteggi dei test degli studenti. Ecco tre esempi di etichette:

Funzionalità			Etichetta
Temperatura	Umidità	Pressione	Punteggio del test
15	47	998	Buoni
19	34	1020	Eccellente
18	92	1012	Scadente

Ecco tre esempi senza etichetta:

Temperatura	Umidità	Pressione
12	62	1014
21	47	1017
19	41	1021

La riga di un set di dati è in genere l'origine non elaborata di un esempio. Ciò significa che un esempio di solito è costituito da un sottoinsieme delle colonne nel set di dati. Inoltre, le funzionalità di un esempio possono includere anche funzionalità sintetiche, come incroci di funzionalità.

riproduzione dell'esperienza

#rl

Nel reinforcement learning, è stata utilizzata una tecnica DQN per ridurre le correlazioni temporali nei dati di addestramento. L'agente memorizza le transizioni di stato in un buffer di riproduzione, quindi campiona le transizioni dal buffer di ripetizione per creare i dati di addestramento.

pregiudizi degli sperimentatori

#fairness

Consulta la sezione Bias di conferma.

problema con gradiente che esplode

#seq

La tendenza ai gradienti nelle reti neurali profonde (in particolare nelle reti neurali ricorrenti) a diventare molto marcata (elevata). Gradienti ripide spesso causano aggiornamenti molto grandi delle ponderazioni di ogni nodo in una rete neurale profonda.

L'addestramento di modelli con un gradiente che esplode è difficile o impossibile da addestrare. Taglio di sfumatura può ridurre il problema.

Confrontalo con il problema di gradiente in fuga.

F

F₁

Una metrica di classificazione binaria "di aggregazione" che si basa sia sulla precisione che sul richiamo. Ecco la formula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Ad esempio, considerando quanto segue:

precisione = 0,6
richiamo = 0,4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Quando precisione e richiamo sono abbastanza simili (come nell'esempio precedente), F₁ è vicino alla loro media. Quando la precisione e il richiamo differiscono notevolmente, F₁ è più vicino al valore più basso. Ad esempio:

precisione = 0,9
richiamo = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

vincolo di equità

#fairness

Applicazione di un vincolo a un algoritmo per garantire che siano soddisfatte una o più definizioni di equità. Esempi di vincoli di equità includono:

Post-elaborazione dell'output del modello.
Alterazione della funzione di perdita per incorporare una sanzione per violazione di una metrica di equità.
Aggiunta diretta di un vincolo matematico a un problema di ottimizzazione.

metrica di equità

#fairness

Una definizione matematica di "equità" misurabile. Ecco alcune metriche di equità di uso comune:

probabilità uguali
parità predittiva
equità controfattuale
Parità demografica

Molte metriche di equità si escludono a vicenda; consulta la sezione relativa all'incompatibilità delle metriche di equità.

falso negativo (FN)

#fundamentals

Un esempio in cui il modello prevede erroneamente la classe negativa. Ad esempio, il modello prevede che un determinato messaggio email non sia spam (la classe negativa), ma che in realtà sia spam.

percentuale di falsi negativi

La proporzione di esempi positivi effettivi per cui il modello ha previsto erroneamente la classe negativa. La seguente formula calcola il tasso di falsi negativi:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

falso positivo (FP)

#fundamentals

Un esempio in cui il modello prevede erroneamente la classe positiva. Ad esempio, il modello prevede che un determinato messaggio email sia spam (la classe positiva), ma quel messaggio in realtà non è spam.

tasso di falsi positivi

#fundamentals

La proporzione di esempi negativi effettivi per cui il modello ha previsto erroneamente la classe positiva. La seguente formula calcola la percentuale di falsi positivi:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Il tasso di falsi positivi è l'asse x in una curva ROC.

caratteristica

#fundamentals

Una variabile di input in un modello di machine learning. Un esempio è costituito da una o più funzionalità. Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteo sui punteggi dei test. La seguente tabella mostra tre esempi, ognuno dei quali contiene tre caratteristiche e un'etichetta:

Funzionalità			Etichetta
Temperatura	Umidità	Pressione	Punteggio del test
15	47	998	92
19	34	1020	84
18	92	1012	87

Sono in contrasto con label.

croce di caratteristiche

#fundamentals

Una funzionalità sintetica formata da funzionalità "crossing" categoriche o in bucket.

Ad esempio, considera un modello di "previsione dell'umore" che rappresenta la temperatura in uno dei seguenti quattro bucket:

freezing
chilly
temperate
warm

Rappresenta la velocità del vento in una delle seguenti tre categorie:

still
light
windy

Senza incroci di caratteristiche, il modello lineare viene addestrato in modo indipendente su ciascuno dei sette bucket precedenti. Di conseguenza, il modello viene addestrato, ad esempio, freezing indipendentemente dall'addestramento su windy.

In alternativa, puoi creare un croce di caratteristiche tra temperatura e velocità del vento. Questa funzionalità sintetica dovrebbe avere i seguenti 12 valori possibili:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Grazie agli incroci di funzionalità, il modello può apprendere le differenze di umore tra un freezing-windy giorno e un freezing-still giorno.

Se crei una caratteristica sintetica da due caratteristiche ciascuna con molti bucket diversi, l'intersezione delle caratteristiche risultante avrà un numero enorme di combinazioni possibili. Ad esempio, se una funzionalità ha 1000 bucket e l'altra ne ha 2000, l'incrociato delle caratteristiche risultante avrà 2.000.000 bucket.

Formalmente, una croce è un prodotto cartesiano.

Gli incroci di caratteristiche vengono utilizzati principalmente con i modelli lineari e raramente con le reti neurali.

e applicazione del feature engineering.

#fundamentals

#TensorFlow

Un processo che prevede i seguenti passaggi:

Determinare quali caratteristiche potrebbero essere utili per addestrare un modello.
Convertire i dati non elaborati dal set di dati in versioni efficienti di queste caratteristiche.

Ad esempio, potresti determinare che temperature potrebbe essere una funzionalità utile. Poi, potresti sperimentare il bucketing per ottimizzare le informazioni che il modello può apprendere da diversi intervalli temperature.

Il feature engineering a volte viene chiamato estrazione delle caratteristiche o caratterizzazione.

Fai clic sull'icona per ulteriori note su TensorFlow.

In TensorFlow, il feature engineering spesso implica la conversione delle voci dei file di log non elaborati in buffer di protocollo tf.Example. Vedi anche tf.Transform.

estrazione di caratteristiche

Termine sovraccarico con una delle seguenti definizioni:

Recupero delle rappresentazioni intermedie delle funzionalità calcolate da un modello non supervisionato o preaddestrato (ad esempio i valori del livello nascosto in una rete neurale) da utilizzare in un altro modello come input.
Sinonimo di feature engineering.

importanza delle caratteristiche

#df

Sinonimo di importanza delle variabili.

insieme di funzionalità

#fundamentals

Il gruppo di funzionalità su cui viene addestrato il modello di machine learning. Ad esempio, il codice postale, le dimensioni e le condizioni della proprietà potrebbero comprendere un semplice set di caratteristiche per un modello che prevede i prezzi delle abitazioni.

specifica della funzionalità

#TensorFlow

Descrive le informazioni necessarie per estrarre i dati delle features dal buffer di protocollo tf.Example. Poiché il buffer di protocollo tf.Example è solo un container di dati, devi specificare quanto segue:

I dati da estrarre (ovvero le chiavi per le caratteristiche)
Il tipo di dati (ad esempio, float o int)
Lunghezza (fissa o variabile)

vettore di caratteristiche

#fundamentals

L'array di valori feature che comprende un esempio. Il vettore di caratteristiche viene inserito durante l'addestramento e durante l'inferenza. Ad esempio, il vettore di caratteristiche per un modello con due caratteristiche discrete potrebbe essere:

[0.92, 0.56]

Quattro livelli: uno di input, due nascosti e uno di output.
Il livello di input contiene due nodi, uno contenente il valore 0,92 e l'altro contenente il valore 0,56.

Ogni esempio fornisce valori diversi per il vettore di caratteristiche, quindi il vettore di caratteristiche per l'esempio successivo potrebbe essere:

[0.73, 0.49]

Il Feature engineering determina come rappresentare le caratteristiche nel vettore di caratteristiche. Ad esempio, una caratteristica categorica binaria con cinque valori possibili potrebbe essere rappresentata con la codifica one-hot. In questo caso, la porzione del vettore di caratteristiche per un esempio specifico sarebbe composta da quattro zeri e un singolo 1,0 nella terza posizione, come segue:

[0.0, 0.0, 1.0, 0.0, 0.0]

Per fare un altro esempio, supponi che il tuo modello sia costituito da tre caratteristiche:

una caratteristica categorica binaria con cinque possibili valori rappresentati con la codifica one-hot; ad esempio: [0.0, 1.0, 0.0, 0.0, 0.0]
un'altra caratteristica categorica binaria con tre possibili valori rappresentati con la codifica one-hot; ad esempio: [0.0, 0.0, 1.0]
un elemento con rappresentazione in virgola mobile; ad esempio: 8.3.

In questo caso, il vettore di caratteristiche per ogni esempio è rappresentato da nove valori. Dati i valori di esempio nell'elenco precedente, il vettore di caratteristiche sarebbe:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

funzionalità

Il processo di estrazione delle caratteristiche da un'origine di input, ad esempio un documento o un video, e la mappatura di queste caratteristiche in un vettore di caratteristiche.

Alcuni esperti di ML usano la funzionalità come sinonimo di feature engineering o estrazione di funzionalità.

apprendimento federato

Un approccio di machine learning distribuito che addestra modelli di machine learning utilizzando esempi decentralizzati che risiedono su dispositivi come gli smartphone. Nell'apprendimento federato, un sottoinsieme di dispositivi scarica il modello attuale da un server di coordinamento centrale. I dispositivi utilizzano gli esempi memorizzati sui dispositivi per migliorare il modello. I dispositivi caricano quindi i miglioramenti del modello (ma non gli esempi di addestramento) nel server di coordinamento, dove vengono aggregati con altri aggiornamenti per generare un modello globale migliore. Dopo l'aggregazione, gli aggiornamenti del modello calcolati dai dispositivi non sono più necessari e possono essere eliminati.

Poiché gli esempi di addestramento non vengono mai caricati, l'apprendimento federato segue i principi sulla privacy della raccolta dei dati mirata e della minimizzazione dei dati.

Per maggiori informazioni sull'apprendimento federato, consulta questo tutorial.

ciclo di feedback

#fundamentals

Nel machine learning, una situazione in cui le previsioni di un modello influiscono sui dati di addestramento per lo stesso modello o per un altro. Ad esempio, un modello che consiglia i film influirà sui film visti dalle persone, il che influirà poi sui modelli successivi per i film consigliati.

FFN (rete neurale feed-forward)

Una rete neurale senza connessioni cicliche o ricorrenti. Ad esempio, le reti neurali profonde tradizionali sono reti neurali feed-forward. Al contrario, le reti neurali ricorrenti sono cicliche.

apprendimento few-shot

Approccio basato sul machine learning, spesso utilizzato per la classificazione degli oggetti, pensato per addestrare classificatori efficaci utilizzando solo un numero limitato di esempi di addestramento.

Vedi anche apprendimento one-shot e apprendimento zero-shot.

prompt few-shot

#language

#IAgenerativa

Un prompt che contiene più di un esempio (solo "pochi") che mostra come deve rispondere il modello linguistico di grandi dimensioni (LLM). Ad esempio, il seguente lungo prompt contiene due esempi che mostrano come rispondere a una query con un modello linguistico di grandi dimensioni.

Parti di un prompt	Note
`Qual è la valuta ufficiale del paese specificato?`	La domanda a cui vuoi che l'LLM risponda.
`Francia: EUR`	Ecco un esempio.
`Regno Unito: GBP`	Un altro esempio.
`India:`	La query effettiva.

I prompt few-shot in genere producono risultati più desiderabili rispetto ai Prompt zero-shot e ai Prompt one-shot. Tuttavia, i prompt few-shot richiedono un prompt più lungo.

Prompt few-shot è una forma di apprendimento few-shot applicata all'apprendimento basato su prompt.

Violino

#language

Una libreria di configurazione incentrata su Python che imposta i valori di funzioni e classi senza codice o infrastruttura invasivi. Nel caso di Pax e di altri codebase ML, queste funzioni e classi rappresentano modelli e iperparametri di addestramento.

Fiddle presuppone che i codebase di machine learning siano generalmente suddivisi in:

Codice libreria, che definisce i livelli e gli ottimizzatori.
Il codice "colla" del set di dati, che chiama le librerie e collega il tutto.

Fiddle acquisisce la struttura delle chiamate del codice colla in una forma non valutata e modificabile.

messa a punto

#language

#image

#IAgenerativa

Un secondo pass di addestramento specifico per l'attività eseguito su un modello preaddestrato per perfezionare i parametri in base a un caso d'uso specifico. Ad esempio, la sequenza completa di addestramento per alcuni modelli linguistici di grandi dimensioni è la seguente:

Preaddestramento: addestra un modello linguistico di grandi dimensioni (LLM) su un ampio set di dati generale, ad esempio tutte le pagine di Wikipedia in lingua inglese.
Ottimizzazione: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio rispondere a domande mediche. Il perfezionamento comporta in genere centinaia o migliaia di esempi incentrati sull'attività specifica.

Ecco un altro esempio: la sequenza completa di addestramento per un modello con immagini di grandi dimensioni è la seguente:

Preaddestramento: addestra un modello di immagini di grandi dimensioni su un vasto set di dati di immagini generali, come tutte le immagini in Wikimedia Commons.
Perfezionamento: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio la generazione di immagini di orche.

Il perfezionamento può comportare una combinazione delle seguenti strategie:

Modifica di tutti i parametri esistenti del modello preaddestrato. Questa procedura è a volte chiamata ottimizzazione completa.
Modificare solo alcuni dei parametri esistenti del modello preaddestrato (in genere, i livelli più vicini al livello di output), senza modificare gli altri parametri esistenti (in genere quelli più vicini al livello di input). Consulta l'ottimizzazione efficiente dei parametri.
Aggiunta di altri livelli, in genere sopra quelli esistenti più vicini al livello di output.

Il perfezionamento è una forma di Transfer Learning. Di conseguenza, l'ottimizzazione potrebbe utilizzare una funzione di perdita o un tipo di modello diverso rispetto a quelli utilizzati per addestrare il modello preaddestrato. Ad esempio, potresti perfezionare un modello di immagini di grandi dimensioni preaddestrato per produrre un modello di regressione che restituisca il numero di uccelli in un'immagine di input.

Metti a confronto i seguenti termini di messa a punto:

distillazione
apprendimento basato su prompt

Lino

#language

Una libreria open source ad alte prestazioni per il deep learning basata su JAX. Flax offre funzioni per l'addestramento delle reti neurali, nonché i metodi per valutarne le prestazioni.

Forma del lino

#language

Una libreria Transformer open source, basata su Flax, progettata principalmente per l'elaborazione del linguaggio naturale e la ricerca multimodale.

cancellare la porta

#seq

La porzione di una cella di memoria a breve termine che regola il flusso di informazioni attraverso la cella. Dimentica le porte e mantieni il contesto decidendo quali informazioni eliminare dallo stato della cella.

funzione softmax completa

Sinonimo di softmax.

Sono invece opposti al campionamento dei candidati.

livello completamente connesso

Un livello nascosto in cui ogni nodo è connesso a ogni nodo nel livello nascosto successivo.

Un livello completamente connesso è anche noto come livello denso.

trasformazione della funzione

Una funzione che prende una funzione come input e restituisce una funzione trasformata come output. JAX utilizza le trasformazioni delle funzioni.

G

GAN

Abbreviazione di generative adversarial network.

generalizzazione

#fundamentals

La capacità di un modello di eseguire previsioni corrette su dati nuovi, non visti in precedenza. Un modello in grado di generalizzare è l'opposto di un modello di overfitting.

Fai clic sull'icona per le note aggiuntive.

Addestra un modello sugli esempi nel set di addestramento. Di conseguenza, il modello apprende le peculiarità dei dati nel set di addestramento. La generalizzazione in pratica chiede se il modello è in grado di fare previsioni efficaci su esempi che non sono inclusi nel set di addestramento.

Per incoraggiare la generalizzazione, la regolarizzazione aiuta un modello ad addestrare meno esattamente le peculiarità dei dati nel set di addestramento.

curva di generalizzazione

#fundamentals

Un grafico sia della perdita di addestramento sia della perdita della convalida in funzione del numero di iterazioni.

Una curva di generalizzazione può aiutarti a rilevare un possibile overfitting. Ad esempio, la seguente curva di generalizzazione suggerisce l'overfitting, poiché la perdita di convalida diventa di fatto molto più elevata rispetto alla perdita di addestramento.

Un grafico cartesiano in cui l'asse y è etichettato come perdita e l'asse x è etichettato come iterazioni. Vengono visualizzati due trame. Un grafico mostra la perdita di addestramento e l'altro mostra la perdita di convalida.
I due grafici iniziano in modo simile, ma la perdita di addestramento alla fine cala molto più in basso rispetto a quella di convalida.

modello lineare generalizzato

Una generalizzazione dei modelli di regressione dei minimi quadrati, basati sul rumore gaussiano, ad altri tipi di modelli basati su altri tipi di rumore, ad esempio Rumore di Poisson o rumore categorico. Esempi di modelli lineari generalizzati includono:

regressione logistica
regressione multiclasse
regressione dei minimi quadrati

I parametri di un modello lineare generalizzato possono essere trovati tramite l'ottimizzazione convessa.

I modelli lineari generalizzati presentano le seguenti proprietà:

La previsione media del modello di regressione dei minimi quadrati ottimale è uguale all'etichetta media sui dati di addestramento.
La probabilità media prevista dal modello di regressione logistica ottimale è uguale all'etichetta media sui dati di addestramento.

La potenza di un modello lineare generalizzato è limitata dalle sue caratteristiche. A differenza di un modello deep, un modello lineare generalizzato non può "imparare nuove caratteristiche".

Generative Adversarial Network (GAN)

Un sistema per creare nuovi dati in cui un generatore crea dati e un discriminatore determina se i dati creati sono validi o non validi.

IA generativa

#language

#image

#IAgenerativa

Un campo rivoluzionario emergente senza una definizione formale. Detto questo, la maggior parte degli esperti concorda sul fatto che i modelli di IA generativa possono creare ("generare") contenuti che corrispondono a quanto segue:

complesso
coerente
originale

Ad esempio, un modello di IA generativa può creare immagini o saggi.

Anche alcune tecnologie precedenti, tra cui gli LSTM e gli RNN, possono generare contenuti originali e coerenti. Alcuni esperti considerano queste tecnologie precedenti come IA generativa, mentre altri ritengono che la vera IA generativa richieda risultati più complessi rispetto a quelli prodotti dalle tecnologie precedenti.

Sono invece opposti al ML predittivo.

un modello generativo

In pratica, un modello che svolge una delle seguenti opzioni:

Crea (genera) nuovi esempi dal set di dati di addestramento. Ad esempio, un modello generativo potrebbe creare poesia dopo l'addestramento su un set di poesie. La parte generatore di una rete generativa antagonistica rientra in questa categoria.
Determina la probabilità che un nuovo esempio provenga dal set di addestramento o che sia stato creato dallo stesso meccanismo che ha creato il set di addestramento. Ad esempio, dopo l'addestramento su un set di dati composto da frasi in inglese, un modello generativo potrebbe determinare la probabilità che il nuovo input sia una frase in inglese valida.

Un modello generativo può teoricamente discernere la distribuzione di esempi o particolari caratteristiche in un set di dati. Ossia:

p(examples)

I modelli di apprendimento non supervisionato sono generativi.

Sono invece opposti ai modelli discriminativi.

generatore

Il sottosistema all'interno di una rete generativa antagonistica che crea nuovi esempi.

Sono in contrasto con il modello discriminativo.

impurità gini

#df

Una metrica simile ad entropia. I suddivise utilizzano valori derivati dall'impurità o dall'entropia di gini per comporre le condizioni per la classificazione degli alberi decisionali. Il guadagno di informazioni deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità gini; tuttavia, questa metrica senza nome è importante quanto il guadagno di informazioni.

L'impurità di Gini è anche chiamata gini index o semplicemente gini.

Fai clic sull'icona per dettagli matematici sull'impurità di gini.

L'impurità di Gini è la probabilità di classificare erroneamente un nuovo dati preso dalla stessa distribuzione. L'impurità gini di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) viene calcolata dalla seguente formula:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

dove:

I è l'impurità della gini.
p è la frazione di "1".
q è la frazione degli esempi "0". Tieni presente che q = 1-p

Ad esempio, considera il seguente set di dati:

100 etichette (0,25 del set di dati) contengono il valore "1"
300 etichette (0,75 del set di dati) contengono il valore "0"

Pertanto, l'impurità della gini è:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Di conseguenza, un'etichetta casuale dello stesso set di dati avrebbe una probabilità del 37,5% di essere classificata in modo errato e del 62,5% di una classificazione corretta.

Un'etichetta perfettamente bilanciata (ad esempio 200 "0" e 200 "1") avrebbe un'impurità di gini pari a 0, 5. Un'etichetta molto sbilanciata avrebbe un'impurità gini vicina a 0,0.

set di dati golden

Un insieme di dati selezionati manualmente che acquisiscono dati empirici reali. I team possono utilizzare uno o più set di dati finali per valutare la qualità di un modello.

Alcuni set di dati finali catturano diversi sottodomini di dati empirici reali. Ad esempio, un set di dati aureo per la classificazione delle immagini potrebbe acquisire le condizioni di illuminazione e la risoluzione delle immagini.

GPT (Generative Pre-addestrati Transformer)

#language

Una famiglia di modelli linguistici di grandi dimensioni basati su Transformer sviluppati da OpenAI.

Le varianti GPT possono essere applicate a diverse modalità, tra cui:

generazione di immagini (ad es. ImageGPT)
da testo a immagine (ad esempio, DALL-E).

gradiente

Il vettore delle derivate parziali rispetto a tutte le variabili indipendenti. Nel machine learning, il gradiente è il vettore delle derivate parziali della funzione del modello. Il gradiente indica la direzione della salita più ripida.

accumulo del gradiente

Una tecnica di backpropagazione che aggiorna i parametri solo una volta per epoca anziché una volta per iterazione. Dopo l'elaborazione di ogni mini-batch, l'accumulo di gradienti aggiorna semplicemente un totale corrente di gradienti. Poi, dopo l'elaborazione dell'ultimo mini-batch nell'epoca, il sistema aggiorna i parametri in base al totale di tutte le modifiche al gradiente.

L'accumulo di gradienti è utile quando la dimensione del batch è molto grande rispetto alla quantità di memoria disponibile per l'addestramento. Quando la memoria è un problema, la tendenza naturale è quella di ridurre le dimensioni del batch. Tuttavia, la riduzione delle dimensioni del batch nella normale retropropagazione dell'errore aumenta il numero di aggiornamenti dei parametri. L'accumulo di gradienti consente al modello di evitare problemi di memoria, ma di eseguire l'addestramento in modo efficiente.

Alberi a decisioni (GBT) potenziato con gradiente

#df

Un tipo di foresta decisionale in cui:

L'addestramento si basa sul incremento del gradiente.
Il modello debole è un albero decisionale.

boosting del gradiente

#df

Un algoritmo di addestramento in cui i modelli deboli vengono addestrati per migliorare iterativamente la qualità di un modello forte. Ad esempio, un modello debole può essere lineare o con albero decisionale piccolo. Il modello forte diventa la somma di tutti i modelli deboli addestrati in precedenza.

Nella forma più semplice di boosting del gradiente, a ogni iterazione viene addestrato un modello debole per prevedere il gradiente di perdita del modello forte. Poi, l'output del modello efficace viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dove:

$F_{0}$ è il modello iniziale efficace.
$F_{i+1}$ è il prossimo modello potente.
$F_{i}$ è l'attuale modello efficace.
$\xi$ è un valore compreso tra 0,0 e 1,0 chiamato retrazione, che è analogo al tasso di apprendimento nella discesa del gradiente.
$f_{i}$ è il modello debole addestrato per prevedere il gradiente di perdita di $F_{i}$.

Le varianti moderne di gradienting del boosting includono anche la derivata seconda (Hessian) della perdita nel calcolo.

Gli alberi decisionali vengono comunemente utilizzati come modelli deboli nel incremento del gradiente. Vedi gli alberi con gradiente (decision).

ritaglio a gradiente

#seq

Meccanismo di uso comune per mitigare il problema di gradiente che esplode, limitando artificialmente (tagliando) il valore massimo dei gradienti quando si utilizza la discesa del gradiente per addestrare un modello.

discesa del gradiente

#fundamentals

Una tecnica matematica per ridurre al minimo la perdita. La discesa del gradiente regola in modo iterativo i ponderazioni e i bias, trovando gradualmente la combinazione migliore per ridurre al minimo la perdita.

La discesa del gradiente è più antica, molto più antica del machine learning.

grafico

#TensorFlow

In TensorFlow, una specifica di calcolo. I nodi nel grafico rappresentano le operazioni. I bordi sono diretti e rappresentano il passaggio del risultato di un'operazione (Tensor) come operando a un'altra operazione. Utilizza TensorBoard per visualizzare un grafico.

esecuzione del grafico

#TensorFlow

Un ambiente di programmazione TensorFlow in cui il programma crea prima un grafico e poi ne esegue tutto o parte. L'esecuzione del grafico è la modalità di esecuzione predefinita in TensorFlow 1.x.

In contrasto con l'esecuzione eager.

norme greedy

#rl

Nell'apprendimento per rinforzo, una norma che sceglie sempre l'azione con il ritorno previsto più alto.

dato di fatto

#fundamentals

Realtà.

Ciò che è realmente accaduto.

Ad esempio, prendi in considerazione un modello di classificazione binaria che prevede se uno studente al primo anno di università laureerà entro sei anni. I dati empirici reali di questo modello sono se lo studente si è effettivamente laureato in sei anni.

Fai clic sull'icona per le note aggiuntive.

Valutiamo la qualità del modello sulla base di dati empirici reali. Tuttavia, i dati empirici reali non sono sempre veritiere e complete. Ad esempio, considera i seguenti esempi di potenziali imperfezioni nei dati empirici reali:

Nell'esempio della laurea, siamo sicuri che i registri delle lauree per ogni studente siano sempre corretti? La conservazione dei registri dell'università è impeccabile?
Supponiamo che l'etichetta sia un valore in virgola mobile misurato da strumenti (ad esempio barometri). Come possiamo essere sicuri che ogni strumento sia calibrato in modo identico o che ogni lettura sia stata rilevata nelle stesse circostanze?
Se l'etichetta è una questione di opinione umana, come possiamo avere la certezza che ogni revisore umano stia valutando gli eventi nello stesso modo? Per migliorare la coerenza, a volte intervengono revisori esperti.

bias di attribuzione di gruppo

#fairness

Supponendo che ciò che è vero per un individuo sia vero anche per tutti i membri del gruppo. Gli effetti dei bias di attribuzione di gruppo possono essere esacerbati se viene utilizzato un campionamento di convenienza per la raccolta dei dati. In un campione non rappresentativo, potrebbero essere fatte attribuzioni che non riflettono la realtà.

Vedi anche Bias di omogeneità esterna al gruppo e Bias di omogeneità all'interno del gruppo.

V

allucinazione

#language

La produzione di output plausibili, ma di fatto errati, da parte di un modello di IA generativa che dichiara di fare un'affermazione sul mondo reale. Ad esempio, un modello di IA generativa che afferma che Barack Obama è morto nel 1865 è allucinante.

hashing

Nel machine learning, è un meccanismo per bucket di dati categoria, in particolare quando il numero di categorie è elevato, ma il numero di categorie effettivamente visualizzate nel set di dati è relativamente ridotto.

Ad esempio, la Terra ospita circa 73.000 specie di alberi. Potresti rappresentare ciascuna delle 73.000 specie di alberi in 73.000 bucket categorici separati. In alternativa, se solo 200 di queste specie di alberi compaiano effettivamente in un set di dati, potresti utilizzare l'hashing per dividere le specie di alberi in forse 500 bucket.

Un singolo secchio potrebbe contenere più specie di alberi. Ad esempio, l'hashing potrebbe collocare baobab e acero rosso, due specie geneticamente diverse, nello stesso secchio. Indipendentemente da ciò, l'hashing è comunque un buon modo per mappare insiemi di categorie di grandi dimensioni nel numero selezionato di bucket. L'hashing trasforma una caratteristica categorica con un gran numero di valori possibili in un numero molto più ridotto di valori raggruppando i valori in modo deterministico.

euristica

Una soluzione semplice e rapidamente implementata a un problema. Ad esempio, "Con un'euristica abbiamo ottenuto un'accuratezza dell'86%. Quando siamo passati a una rete neurale profonda, l'accuratezza è aumentata fino al 98%."

strato nascosto

#fundamentals

Un livello in una rete neurale tra il livello di input (le caratteristiche) e il livello di output (la previsione). Ogni livello nascosto è costituito da uno o più neuroni. Ad esempio, la seguente rete neurale contiene due livelli nascosti, il primo con tre neuroni e il secondo con due neuroni:

Una rete neurale profonda contiene più di un livello nascosto. L'illustrazione precedente è una rete neurale profonda perché il modello contiene due livelli nascosti.

clustering gerarchico

#clustering

Una categoria di algoritmi di clustering che crea una struttura di cluster. Il clustering gerarchico è adatto per dati gerarchici, come le tassonomie botaniche. Esistono due tipi di algoritmi di clustering gerarchico:

Il clustering agglomerato assegna innanzitutto ogni esempio al proprio cluster, poi unendo iterativamente i cluster più vicini per creare un albero gerarchico.
Il clustering divisivo raggruppa prima tutti gli esempi in un unico cluster, quindi lo suddivide iterativamente in una struttura gerarchica.

Sono invece opposti al clustering basato sul centroide.

perdita della cerniera

Una famiglia di funzioni di perdita per la classificazione progettata per trovare il confine decisionale il più lontano possibile da ogni esempio di addestramento, massimizzando così il margine tra gli esempi e il confine. Le KSVM utilizzano la perdita della cerniera (o una funzione correlata, ad esempio la perdita della cerniera quadrata). Per la classificazione binaria, la funzione di perdita di cerniera è definita come segue:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

dove y è l'etichetta vera, -1 o +1, e y' è l'output non elaborato del modello di classificatore:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Di conseguenza, il grafico della perdita della cerniera rispetto a (y * y') ha il seguente aspetto:

Grafico cartesiano costituito da due segmenti di linee uniti. Il primo segmento inizia da (-3, 4) e termina a (1, 0). Il secondo segmento
della linea inizia da (1, 0) e continua a tempo indeterminato con un'inclinazione
pari a 0.

bias storico

#fairness

Un tipo di pregiudizi che esiste già nel mondo e si è convertito in un set di dati. Questi pregiudizi tendono a riflettere gli stereotipi culturali, le disuguaglianze demografiche e i pregiudizi esistenti nei confronti di determinati gruppi sociali.

Ad esempio, prendi in considerazione un modello di classificazione che prevede se una persona che ha richiesto un prestito sarà inadempiente o meno, che è stato addestrato sulla base di dati storici sui prestiti degli anni '80 da banche locali di due diverse comunità. Se i candidati della comunità A in passato avevano una probabilità di inadempienza sei volte superiore rispetto a quelli della comunità B, il modello potrebbe apprendere un bias storico, per cui il modello ha meno probabilità di approvare i prestiti nella comunità A, anche se le condizioni storiche che hanno portato a tassi di inadempienza più alti della comunità non erano più rilevanti.

dati di holdout

Esempi non utilizzati intenzionalmente ("impediti") durante l'addestramento. Il set di dati di convalida e il set di dati di test sono esempi di dati di holdout. I dati di holdout aiutano a valutare la capacità del modello di generalizzare a dati diversi da quelli su cui è stato addestrato. La perdita del set di isolamento fornisce una stima migliore della perdita su un set di dati non visualizzato rispetto alla perdita del set di addestramento.

organizzatore

#TensorFlow

#GoogleCloud

Durante l'addestramento di un modello di ML su chip di acceleratore (GPU o TPU), la parte del sistema che controlla entrambi i seguenti aspetti:

Il flusso complessivo del codice.
Estrazione e trasformazione della pipeline di input.

In genere l'host viene eseguito su una CPU, non su un chip di acceleratore; il dispositivo manipola i tensori sui chip dell'acceleratore.

iperparametro

#fundamentals

Le variabili che tu o un servizio di ottimizzazione degli iperparametri regolari durante le successive esecuzioni di addestramento di un modello. Ad esempio, il tasso di apprendimento è un iperparametro. Puoi impostare il tasso di apprendimento su 0,01 prima di una sessione di addestramento. Se determini che 0,01 è troppo alto, potresti impostare il tasso di apprendimento su 0,003 per la prossima sessione di addestramento.

Al contrario, i parametri sono i vari ponderazioni e bias che il modello apprende durante l'addestramento.

iperpiano

Un confine che separa uno spazio in due sottospazi. Ad esempio, una retta è un iperpiano in due dimensioni e un piano è un iperpiano in tre dimensioni. Più tipicamente nel machine learning, un iperpiano è il confine che separa uno spazio ad alta dimensione. Le macchine vettoriali di supporto del kernel utilizzano gli iperpiani per separare le classi positive da quelle negative, spesso in uno spazio con dimensioni molto elevate.

I

i.d.

Abbreviazione di distribuita in modo indipendente e identico.

riconoscimento immagine

#image

Un processo che classifica gli oggetti, i pattern o i concetti in un'immagine. Il riconoscimento delle immagini è anche noto come classificazione delle immagini.

Per maggiori informazioni, consulta ML Practicum: Image Classification.

set di dati non bilanciato

Sinonimo di class-imbalanced dataset.

bias implicito

#fairness

Creare automaticamente un'associazione o un presupposto in base ai modelli mentali e ai ricordi. Il bias implicito può influire su quanto segue:

Modalità di raccolta e classificazione dei dati.
Come vengono progettati e sviluppati i sistemi di machine learning.

Ad esempio, quando si crea un classificatore per identificare le foto dei matrimoni, un ingegnere potrebbe usare la presenza di un abito bianco in una foto come caratteristica. Tuttavia, gli abiti bianchi erano consuetudine solo in certe epoche e in certe culture.

Vedi anche Bias di conferma.

attribuzione

Breve forma di attribuzione del valore.

incompatibilità delle metriche di equità

#fairness

L'idea che alcune nozioni di equità sono reciprocamente incompatibili e non possono essere soddisfatte contemporaneamente. Di conseguenza, non esiste un'unica metrica universale per quantificare l'equità che possa essere applicata a tutti i problemi di ML.

Sebbene questo possa sembrare scoraggiante, l'incompatibilità delle metriche di equità non implica che gli sforzi per equità siano inutili. Suggerisce, invece, che l'equità deve essere definita in base al contesto per un dato problema di ML, con l'obiettivo di prevenire danni specifici dei casi d'uso.

Consulta la sezione "(im)possibilità dell'equità" per una discussione più dettagliata su questo argomento.

apprendimento contestuale

#language

#IAgenerativa

Sinonimo di prompt few-shot.

in modo indipendente e identico (i.d.)

#fundamentals

Dati estratti da una distribuzione che non cambia e in cui ogni valore tracciato non dipende da valori tracciati in precedenza. L'ID è il modello ideale del machine learning, un costrutto matematico utile che non si trova quasi mai nel mondo reale. Ad esempio, la distribuzione dei visitatori di una pagina web può essere, ad esempio, in un breve periodo di tempo, ovvero la distribuzione non cambia in questo breve periodo e la visita di una persona è generalmente indipendente dalla visita di un altro utente. Tuttavia, se espandi questo periodo di tempo, potrebbero apparire differenze stagionali nei visitatori della pagina web.

Vedi anche nonstationarity.

equità individuale

#fairness

Una metrica di equità che verifica se persone simili sono classificate in modo simile. Ad esempio, la Brobdingnagian Academy potrebbe voler soddisfare l'equità individuale garantendo che due studenti con voti identici e punteggi dei test standardizzati abbiano le stesse probabilità di ottenere l'ammissione.

Tieni presente che l'equità individuale si basa interamente sul modo in cui definisci la"somiglianza" (in questo caso, voti e punteggi dei test) e puoi correre il rischio di introdurre nuovi problemi di equità se la tua metrica di somiglianza non include informazioni importanti (come il rigore del programma di studio di uno studente).

Consulta la sezione "Fairness Through Awareness" per una discussione più dettagliata sull'equità individuale.

inferenza

#fundamentals

Nel machine learning, il processo di previsione tramite l'applicazione di un modello addestrato ad esempi non etichettati.

L'inferenza ha un significato leggermente diverso nelle statistiche. Per maggiori dettagli, vedi l' articolo di Wikipedia sull'inferenza statistica.

percorso di inferenza

#df

In un albero decisionale, durante l'inferenza, il routing di un determinato esempio prende dalla principale ad altre condizioni, terminando con una leaf. Ad esempio, nel seguente albero decisionale, le frecce più spesse mostrano il percorso di inferenza per un esempio con i seguenti valori delle funzionalità:

x = 7
y = 12
z = -3

Il percorso di inferenza nella seguente illustrazione attraversa tre condizioni prima di raggiungere la foglia (Zeta).

Le tre frecce spesse mostrano il percorso di inferenza.

guadagno di informazioni

#df

Nelle foreste decisionali, la differenza tra l'entropia di un nodo e la somma ponderata (per numero di esempi) dell'entropia dei nodi figlio. L'entropia di un nodo è l'entropia degli esempi in quel nodo.

Ad esempio, considera i seguenti valori di entropia:

entropia del nodo padre = 0,6
entropia di un nodo figlio con 16 esempi pertinenti = 0,2
entropia di un altro nodo figlio con 24 esempi pertinenti = 0,1

Quindi il 40% degli esempi si trova in un nodo figlio e il 60% nell'altro nodo figlio. Pertanto:

somma entropia ponderata dei nodi figlio = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Quindi, le informazioni ottenute sono:

guadagno di informazioni = entropia del nodo principale - somma di entropia ponderata dei nodi figlio
guadagno di informazioni = 0,6 - 0,14 = 0,46

La maggior parte dei splitter cerca di creare condizioni che massimizzano il guadagno di informazioni.

bias di gruppo

#fairness

Mostrare parzialità rispetto al proprio gruppo o alle proprie caratteristiche. Se i tester o i classificatori sono amici, familiari o colleghi dello sviluppatore di machine learning, i bias di gruppo possono invalidare i test dei prodotti o il set di dati.

La bias nel gruppo è una forma di bias di attribuzione del gruppo. Vedi anche Bias di omogeneità fuori gruppo.

generatore di input

Meccanismo mediante il quale i dati vengono caricati in una rete neurale.

Un generatore di input può essere considerato come un componente responsabile dell'elaborazione di dati non elaborati in tensori che vengono iterati per generare batch per l'addestramento, la valutazione e l'inferenza.

livello di input

#fundamentals

Il livello di una rete neurale che contiene il vettore di caratteristiche. In altre parole, il livello di input fornisce esempi per l'addestramento o l'inferenza. Ad esempio, il livello di input nella seguente rete neurale è costituito da due caratteristiche:

Quattro livelli: uno di input, due livelli nascosti e uno di output.

condizione impostata

#df

In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, quella che segue è una condizione impostata:

  house-style in [tudor, colonial, cape]

Durante l'inferenza, se il valore della feature in stile autopromozionale è tudor, colonial o cape, questa condizione restituisce Sì. Se il valore della caratteristica autopromozionale è qualcos'altro (ad esempio, ranch), la condizione ha come risultato No.

Le condizioni in-set di solito portano a alberi decisionali più efficienti rispetto alle condizioni che testano le funzionalità con codifica one-hot.

istanza

Sinonimo di example.

ottimizzazione delle istruzioni

#IAgenerativa

Una forma di ottimizzazione che migliora la capacità di un modello di IA generativa di seguire le istruzioni. L'ottimizzazione delle istruzioni comporta l'addestramento di un modello sulla base di una serie di prompt di istruzione, che in genere coprono un'ampia serie di attività. Il modello ottimizzato per l'istruzione risultante tende quindi a generare risposte utili ai richieste zero-shot in una serie di attività.

Confronta con:

ottimizzazione efficiente dei parametri
ottimizzazione dei prompt

interpretabilità

#fundamentals

La capacità di spiegare o presentare il ragionamento di un modello di ML in termini comprensibili per un essere umano.

La maggior parte dei modelli di regressione lineare, ad esempio, sono altamente interpretabili. Devi semplicemente esaminare i pesi addestrati per ogni funzionalità. Anche le foreste decisionali sono altamente interpretabili. Alcuni modelli, tuttavia, richiedono una visualizzazione sofisticata per diventare interpretabile.

Puoi utilizzare lo strumento di interpretabilità dell'apprendimento (LIT) per interpretare i modelli ML.

contratto tra classificatori

Una misurazione della frequenza con cui i revisori sono d'accordo nello svolgimento di un'attività. Se i valutatori non sono d'accordo, potrebbe essere necessario migliorare le istruzioni dell'attività. A volte viene chiamato anche accordo inter-annotatore o affidabilità tra classificatori. Vedi anche Kappa di Cohen, che è una delle misurazioni dei contratti tra i classificatori più popolari.

intersezione su unione (IoU)

#image

L'intersezione di due insiemi divisa per la relativa unione. Nelle attività di rilevamento delle immagini di machine learning, l'IoU viene utilizzata per misurare l'accuratezza del riquadro di delimitazione previsto del modello in relazione al riquadro di delimitazione dati empirici reali. In questo caso, l'IoU dei due riquadri è il rapporto tra l'area in sovrapposizione e l'area totale e il suo valore va da 0 (nessuna sovrapposizione del riquadro di delimitazione previsto e del riquadro di delimitazione dei dati empirici reali) a 1 (il riquadro di delimitazione previsto e il riquadro di delimitazione dei dati empirici reali hanno le stesse coordinate).

Ad esempio, nell'immagine di seguito:

Il riquadro di delimitazione previsto (le coordinate che definiscono il punto in cui il modello prevede la posizione del tavolino nel dipinto) è contorto in viola.
Il riquadro di delimitazione dei dati empirici reali (le coordinate che definiscono il punto in cui si trova effettivamente la tabella notturna nel quadro) è contornato in verde.

In questo caso, l'intersezione dei riquadri di delimitazione per la previsione e i dati empirici reali (in basso a sinistra) è 1 e l'unione dei riquadri di delimitazione per la previsione e i dati empirici reali (in basso a destra) è 7, quindi l'IoU è $\frac{1}{7}$.

Stessa immagine dell'immagine precedente, ma con ogni riquadro di delimitazione diviso in quattro quadranti. Il totale è di sette quadranti, poiché il quadrante in basso a destra del riquadro di delimitazione basato sui dati empirici reali e il quadrante in alto a sinistra del riquadro di delimitazione previsto si sovrappongono. Questa sezione sovrapposta (evidenziata in verde) rappresenta l'intersezione e ha un'area pari a 1.

IoU

Abbreviazione di intersection over union.

matrice degli elementi

#recsystems

Nei sistemi di suggerimenti, una matrice di vettori di incorporamento generati dalla fattorizzazione matriciale che contengono indicatori latenti su ogni elemento. Ogni riga della matrice di elementi contiene il valore di una singola caratteristica latente per tutti gli elementi. Ad esempio, prendi in considerazione un sistema di consigli sui film. Ogni colonna nella matrice degli elementi rappresenta un singolo filmato. Gli indicatori latenti potrebbero rappresentare i generi o essere più difficili da interpretare che comportano interazioni complesse tra genere, star, era del cinema o altri fattori.

La matrice degli elementi ha lo stesso numero di colonne della matrice target che viene fattorizzata. Ad esempio, se un sistema di consigli sui film valuta 10.000 titoli, la matrice di elementi avrà 10.000 colonne.

items

#recsystems

In un sistema di consigli, indica le entità consigliate da un sistema. Ad esempio, i video sono gli articoli consigliati da un video store, mentre i libri sono gli articoli consigliati.

iterazione

#fundamentals

Un singolo aggiornamento dei parametri del modello, ovvero le ponderazioni e i bias del modello, durante l'addestramento. La dimensione batch determina il numero di esempi elaborati dal modello in una singola iterazione. Ad esempio, se la dimensione del batch è 20, il modello elabora 20 esempi prima di regolare i parametri.

Durante l'addestramento di una rete neurale, una singola iterazione prevede i seguenti due passaggi:

Un passaggio in avanti per valutare la perdita su un singolo batch.
Un passaggio a ritroso (backpropagazione) per regolare i parametri del modello in base alla perdita e al tasso di apprendimento.

J

JAX

Una libreria di array di computing, che combina XLA (Accelerated Linear Algebra) e la differenziazione automatica per il calcolo numerico ad alte prestazioni. JAX offre un'API semplice e potente per scrivere codice numerico accelerato con trasformazioni componibili. JAX offre funzionalità quali:

grad (differenziazione automatica)
jit (compilazione just-in-time)
vmap (vettorizzazione o batch automatici)
pmap (Parallelizzazione)

JAX è un linguaggio per esprimere e comporre trasformazioni di codice numerico, analogo, ma per un ambito molto più ampio, alla libreria NumPy di Python. (In effetti, la libreria .numpy di JAX è equivalente dal punto di vista funzionale, ma una versione completamente riscritta della libreria Python NumPy).

JAX è particolarmente adatto a velocizzare molte attività di machine learning trasformando i modelli e i dati in un formato adatto al parallelismo tra GPU e chip di acceleratori TPU.

Flax, Optax, Pax e molte altre librerie sono basate sull'infrastruttura JAX.

K

Keras

API Python per il machine learning. Keras viene eseguito su diversi framework di deep learning, tra cui TensorFlow, dove è reso disponibile come tf.keras.

Macchine vettore di supporto del kernel (KSVM)

Un algoritmo di classificazione che cerca di massimizzare il margine tra le classi positive e le classi negative mappando i vettori dei dati di input su uno spazio dimensionale più elevato. Ad esempio, considera un problema di classificazione in cui il set di dati di input ha un centinaio di caratteristiche. Per massimizzare il margine tra classi positive e negative, un KSVM potrebbe mappare internamente queste caratteristiche in uno spazio di milioni di dimensioni. Le VM KSVM utilizzano una funzione di perdita chiamata perdita della cerniera.

punti chiave

#image

Le coordinate di particolari elementi in un'immagine. Ad esempio, per un modello di riconoscimento delle immagini in grado di distinguere le specie di fiori, i punti chiave potrebbero essere il centro di ogni petalo, lo stelo, lo stame e così via.

convalida incrociata K-fold

Un algoritmo per prevedere la capacità di un modello di generalizzare in base a nuovi dati. La k in k-fold si riferisce al numero di gruppi uguali in cui suddividi gli esempi di un set di dati, ovvero che devi addestrare e testare il modello k volte. Per ogni fase di addestramento e test, un gruppo diverso viene assegnato al set di test, mentre tutti i gruppi rimanenti diventano il set di addestramento. Dopo k round di addestramento e test, calcoli la media e la deviazione standard delle metriche di test scelte.

Ad esempio, supponiamo che il tuo set di dati sia composto da 120 esempi. Supponiamo inoltre che tu decida di impostare K su 4. Pertanto, dopo l'ordinamento casuale degli esempi, dividi il set di dati in quattro gruppi uguali di 30 esempi ed esegui quattro cicli di addestramento/test:

Ad esempio, Errore quadratico medio (MSE) potrebbe essere la metrica più significativa per un modello di regressione lineare. Pertanto, troveresti la media e la deviazione standard della MSE in tutti e quattro i round.

k-means

#clustering

Un noto algoritmo di clustering che raggruppa esempi di apprendimento non supervisionato. Fondamentalmente, l'algoritmo K-means esegue quanto segue:

Determina iterativamente i migliori punti centrali k (noti come centroidi).
Assegna ogni esempio al baricentro più vicino. Gli esempi più vicini allo stesso baricentro appartengono allo stesso gruppo.

L'algoritmo K-means sceglie le posizioni dei baridi per ridurre al minimo il quadrato cumulativo delle distanze tra ogni esempio e il baricentro più vicino.

Ad esempio, considera il seguente diagramma dell'altezza del cane per la larghezza del cane:

Un grafico cartesiano con diverse decine di punti dati.

Se k=3, l'algoritmo k-means determinerà tre centroidi. Ogni esempio viene assegnato al baricentro più vicino, generando tre gruppi:

Lo stesso grafico cartesiano dell'illustrazione precedente, tranne con l'aggiunta di tre centroidi.
I punti dati precedenti sono raggruppati in tre gruppi distinti,
ognuno dei quali rappresenta i punti dati più vicini a un determinato
centroide.

Immagina che un produttore voglia stabilire le taglie ideali per maglioni per cani di taglia piccola, media e grande. I tre centroidi identificano l'altezza e la larghezza media di ciascun cane dell'ammasso. Quindi, probabilmente il produttore dovrebbe basare le taglie dei maglioni su questi tre centroidi. Tieni presente che il baricentro di un cluster in genere non è un esempio nel cluster.

Le illustrazioni precedenti mostrano il valore k-means per esempi con solo due caratteristiche (altezza e larghezza). Tieni presente che K-means può raggruppare esempi in molte caratteristiche.

mediana k

#clustering

Un algoritmo di clustering strettamente correlato a k-means. La differenza pratica tra i due è la seguente:

In K-means, i baricentroidi sono determinati riducendo al minimo la somma dei quadrati della distanza tra un candidato dei baricentro e ciascuno dei suoi esempi.
Nella mediana k, i baricentro sono determinati riducendo al minimo la somma della distanza tra un candidato dei centroide e ciascuno dei suoi esempi.

Tieni presente che anche le definizioni di distanza sono diverse:

k-means si basa sulla distanza euclidea dal baricentro a un esempio. (In due dimensioni, la distanza euclidea significa usare il teorema di Pitagora per calcolare l'ipotenusa.) Ad esempio, la distanza k-means tra (2,2) e (5,-2) sarebbe:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-mediana si basa sulla distanza di Manhattan dal centroide a un esempio. che è la somma dei delta assoluti in ogni dimensione. Ad esempio, la distanza mediana k tra (2,2) e (5,-2) sarebbe:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regolarizzazione L₀

#fundamentals

Un tipo di regolarizzazione che penalizza il numero totale di ponderazioni diverse da zero in un modello. Ad esempio, un modello con 11 ponderazioni diverse da zero verrebbe penalizzato più di un modello simile con 10 ponderazioni diverse da zero.

La regolarizzazione L₀ è a volte chiamata regolarizzazione L0-norm.

Fai clic sull'icona per le note aggiuntive.

La regolarizzazione L₀ è generalmente non praticabile nei modelli di grandi dimensioni perché la regolarizzazione L₀ trasforma l'addestramento in un problema di ottimizzazione convesso.

Perdita L₁

#fundamentals

Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L₁ per un batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Valore assoluto del delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perdita L₁

La perdita L₁ è meno sensibile ai outlier rispetto alla perdita L₂.

L'errore assoluto medio è la perdita media di L₁ per esempio.

Fai clic sull'icona per visualizzare i calcoli matematici formali.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore previsto dal modello per $y$.

Regolarizzazione L₁

#fundamentals

Un tipo di regolarizzazione che penalizza le ponderazioni in proporzione alla somma del loro valore assoluto. La regolarizzazione L₁ aiuta a portare a 0 esattamente 0 le ponderazioni di funzionalità non pertinenti o poco pertinenti. Una funzionalità con peso pari a 0 viene effettivamente rimossa dal modello.

Al contrario, la regolarizzazione L₂.

Perdita L₂

#fundamentals

Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L₂ per un batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Quadrato del delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = perdita L₂

A causa dello squaring, la perdita L₂ amplifica l'influenza dei outlier. In altre parole, la perdita di L₂ reagisce più fortemente alle previsioni errate rispetto alla perdita di L₁. Ad esempio, la perdita L₁ per il batch precedente sarebbe 8 anziché 16. Nota che un singolo outlier prende in considerazione 9 su 16.

I modelli di regressione in genere utilizzano la perdita L₂ come funzione di perdita.

L'errore quadratico medio è la perdita media L₂ per esempio. Perdita quadrata è un altro nome per la sconfitta di L₂.

Fai clic sull'icona per visualizzare i calcoli matematici formali.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore previsto dal modello per $y$.

Regolarizzazione L₂

#fundamentals

Un tipo di regolarizzazione che penalizza le ponderazioni in proporzione alla somma dei quadrati delle ponderazioni. La regolarizzazione L₂ aiuta ad aumentare le ponderazioni outlier (con valori positivi o bassi negativi) più vicini a 0, ma non addirittura a 0. Le caratteristiche con valori molto vicini a 0 rimangono nel modello, ma non influiscono molto sulla previsione del modello.

La regolarizzazione L₂ migliora sempre la generalizzazione nei modelli lineari.

Al contrario, la regolarizzazione L₁.

o l'etichetta.

#fundamentals

Nel machine learning supervisionato, la parte "risposta" o "risultato" di un esempio.

Ogni esempio etichettato è costituito da una o più funzionalità e un'etichetta. Ad esempio, in un set di dati per il rilevamento di spam, l'etichetta probabilmente sarà "spam" o "non spam". In un set di dati sulle precipitazioni, l'etichetta potrebbe essere la quantità di pioggia caduta in un determinato periodo.

esempio con etichetta

#fundamentals

Un esempio che contiene una o più funzionalità e un'etichetta. Ad esempio, la tabella seguente mostra tre esempi etichettati di un modello di valutazione delle case, ciascuno con tre caratteristiche e un'etichetta:

Numero di camere	Numero di bagni	Età della famiglia	Prezzo interno (etichetta)
3	2	15	345.000 $
2	1	72	179.000 $
4	2	34	392.000 $

Nel machine learning supervisionato, i modelli vengono addestrati sulla base di esempi etichettati ed eseguire previsioni su esempi non etichettati.

Confronta l'esempio etichettato con esempi non etichettati.

perdita di etichette

Un difetto di progettazione del modello in cui una caratteristica è un proxy per l'etichetta. Ad esempio, prendi in considerazione un modello di classificazione binaria che prevede se un potenziale cliente acquisterà o meno un determinato prodotto. Supponiamo che una delle caratteristiche del modello sia un valore booleano denominato SpokeToCustomerAgent. Supponiamo inoltre che un agente cliente venga assegnato solo dopo che il potenziale cliente ha effettivamente acquistato il prodotto. Durante l'addestramento, il modello apprende rapidamente l'associazione tra SpokeToCustomerAgent e l'etichetta.

lambda

#fundamentals

Sinonimo di tasso di regolarizzazione.

Lambda è un termine sovraccarico. Qui ci concentriamo sulla definizione del termine all'interno della regolarizzazione.

LaMDA (Language Model for Dialogue Applications)

#language

Un modello linguistico di grandi dimensioni basato su Transformer, sviluppato da Google, addestrato su un ampio set di dati dei dialoghi in grado di generare risposte conversazionali realistiche.

LaMDA: la nostra innovativa tecnologia di conversazione fornisce una panoramica.

punti di riferimento

#image

Sinonimo di keypoints.

modello linguistico

#language

Un model che stima la probabilità di un model o di una sequenza di token che si verificano in una sequenza più lunga di token.

Fai clic sull'icona per le note aggiuntive.

Sebbene siano controintuitivi, molti modelli che valutano il testo non sono modelli linguistici. Ad esempio, i modelli di classificazione del testo e di analisi del sentiment non sono modelli linguistici.

modello LLM

#language

Termine informale senza definizione rigorosa che di solito indica un modello linguistico con un numero elevato di parametri. Alcuni modelli linguistici di grandi dimensioni (LLM) contengono oltre 100 miliardi di parametri.

Fai clic sull'icona per le note aggiuntive.

Forse ti starai chiedendo quando un modello linguistico diventa abbastanza grande da essere definito modello linguistico di grandi dimensioni. Attualmente, non esiste una riga che definisca un accordo per il numero di parametri.

La maggior parte dei modelli linguistici di grandi dimensioni attuali (ad esempio GPT) si basa sull'architettura Transformer.

spazio latente

#language

Sinonimo di spazio di incorporamento.

strato

#fundamentals

Un insieme di neuroni in una rete neurale. Esistono tre tipi di livelli comuni:

Il livello di input, che fornisce valori per tutte le funzionalità.
Uno o più livelli nascosti che trovano le relazioni non lineari tra gli elementi e l'etichetta.
Il livello di output, che fornisce la previsione.

Ad esempio, la seguente illustrazione mostra una rete neurale con un livello di input, due livelli nascosti e uno di output:

Una rete neurale con un livello di input, due livelli nascosti e uno di output. Il livello di input è costituito da due elementi. Il primo strato nascosto è costituito da tre neuroni e il secondo strato nascosto da due neuroni. Il livello di output è costituito da un singolo nodo.

In TensorFlow, i livelli sono anche funzioni Python che utilizzano i Tensor e le opzioni di configurazione come input e producono altri tensori come output.

API Livelli (tf.layers)

#TensorFlow

Un'API TensorFlow per realizzare una rete neurale profonda come composizione di livelli. L'API Livelli consente di creare diversi tipi di livelli, tra cui:

tf.layers.Dense per un livello completamente connesso.
tf.layers.Conv2D per un livello convoluzionale.

L'API Livelli segue le convenzioni delle API dei livelli Keras. Ciò significa che, a parte un prefisso diverso, tutte le funzioni dell'API Livelli hanno gli stessi nomi e firme delle loro controparti nell'API Keras Layer.

foglia

#df

Qualsiasi endpoint in un albero decisionale. A differenza di una condizione, una foglia non esegue un test. Piuttosto, una foglia è una possibile previsione. Una foglia è anche il nodo terminale di un percorso di inferenza.

Ad esempio, il seguente albero decisionale contiene tre foglie:

Un albero decisionale con due condizioni che portano a tre foglie.

Strumento di interpretabilità dell'apprendimento (LIT)

Uno strumento visivo e interattivo per la comprensione dei modelli e la visualizzazione dei dati.

Puoi utilizzare LIT open source per interpretare modelli o per visualizzare dati di testo, immagini e dati tabulari.

tasso di apprendimento

#fundamentals

Un numero in virgola mobile che indica all'algoritmo di discesa del gradiente con che intensità regolare le ponderazioni e i bias per ogni iterazione. Ad esempio, un tasso di apprendimento pari a 0,3 modificherebbe le ponderazioni e i bias tre volte in modo più efficace rispetto a un tasso di apprendimento pari a 0,1.

Il tasso di apprendimento è un iperparametro fondamentale. Se imposti un tasso di apprendimento troppo basso, l'addestramento richiederà troppo tempo. Se imposti il tasso di apprendimento troppo alto, la discesa del gradiente spesso fa fatica a raggiungere la convergenza.

Fai clic sull'icona per una spiegazione più matematica.

Durante ogni iterazione, l'algoritmo di discesa del gradiente moltiplica il tasso di apprendimento per il gradiente. Il prodotto risultante è chiamato passaggio gradiente.

regressione dei minimi quadrati

Un modello di regressione lineare addestrato riducendo al minimo la perdita di L₂.

lineare

#fundamentals

Una relazione tra due o più variabili che può essere rappresentata esclusivamente tramite addizione e moltiplicazione.

Il grafico di una relazione lineare è una linea.

In contrasto con il modello non lineare.

modello lineare

#fundamentals

Un model che assegna una model per model per effettuare model. I modelli lineari incorporano anche un bias. Al contrario, la relazione tra le caratteristiche e le previsioni nei modelli di profondità è generalmente non lineare.

I modelli lineari sono di solito più facili da addestrare e più interpretabili rispetto ai modelli approfonditi. Tuttavia, i modelli profondi sono in grado di apprendere relazioni complesse tra le caratteristiche.

La regressione lineare e la regressione logistica sono due tipi di modelli lineari.

Fai clic sull'icona per visualizzare il calcolo.

Un modello lineare segue questa formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

dove:

"y" è la previsione non elaborata. (In alcuni tipi di modelli lineari, questa previsione non elaborata verrà ulteriormente modificata. Ad esempio, consulta la sezione regressione logistica.
b è il bias.
w è una ponderazione, quindi w₁ è la ponderazione della prima caratteristica, w₂ è la ponderazione della seconda e così via.
x è una caratteristica, quindi x₁ è il valore della prima caratteristica, x₂ è il valore della seconda e così via.

Ad esempio, supponiamo che un modello lineare per tre caratteristiche apprenda i seguenti bias e ponderazioni:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Pertanto, date tre caratteristiche (x₁, x₂ e x₃), il modello lineare utilizza la seguente equazione per generare ciascuna previsione:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Supponiamo che un determinato esempio contenga i seguenti valori:

x₁ = 4
x₂ = -10
x₃ = 5

Se colleghi questi valori nella formula, otterrai una previsione per questo esempio:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

I modelli lineari includono non solo modelli che utilizzano solo un'equazione lineare per fare previsioni, ma anche un insieme più ampio di modelli che utilizzano un'equazione lineare come componente della formula che effettua le previsioni. Ad esempio, la regressione logistica esegue un post-elaborazione della previsione non elaborata (y') per produrre un valore di previsione finale compreso tra 0 e 1.

regressione lineare

#fundamentals

Un tipo di modello di machine learning in cui si verificano entrambe le seguenti condizioni:

Il modello è lineare.
La previsione è un valore in virgola mobile. Questa è la parte della regressione della regressione lineare.

Confrontare la regressione lineare con la regressione logistica. Inoltre, puoi mettere a confronto la regressione con la classificazione.

LIT

Abbreviazione di Learning Interpretability Tool (LIT), precedentemente noto come Language Interpretability Tool.

LLM

#language

Abbreviazione di Large Language Model.

regressione logistica

#fundamentals

Un tipo di modello di regressione che prevede una probabilità. I modelli di regressione logistica hanno le seguenti caratteristiche:

L'etichetta è categorical. Il termine regressione logistica di solito si riferisce alla regressione logistica binaria, ovvero a un modello che calcola le probabilità per le etichette con due valori possibili. Una variante meno comune, la regressione logistica multinomiale, calcola le probabilità delle etichette con più di due valori possibili.
La funzione di perdita durante l'addestramento è Log Loss. È possibile inserire più unità di perdita log in parallelo per le etichette con più di due valori possibili.
Il modello ha un'architettura lineare, non una rete neurale profonda. Tuttavia, la parte restante di questa definizione si applica anche ai modelli diretti che prevedono le probabilità per le etichette categoriche.

Ad esempio, considera un modello di regressione logistica che calcola la probabilità che un'email di input sia spam o non spam. Durante l'inferenza, supponiamo che il modello preveda 0,72. Di conseguenza, il modello stima:

Una probabilità del 72% che l'email sia spam.
Una probabilità del 28% che l'email non sia spam.

Un modello di regressione logistica utilizza la seguente architettura in due fasi:

Il modello genera una previsione non elaborata (y') applicando una funzione lineare delle caratteristiche di input.
Il modello utilizza questa previsione non elaborata come input di una funzione sigmoidale, che converte la previsione non elaborata in un valore compreso tra 0 e 1, esclusi.

Come qualsiasi modello di regressione, un modello di regressione logistica prevede un numero, Tuttavia, questo numero diventa generalmente parte di un modello di classificazione binario come segue:

Se il numero previsto è maggiore della soglia di classificazione, il modello di classificazione binario prevede la classe positiva.
Se il numero previsto è minore della soglia di classificazione, il modello di classificazione binario prevede la classe negativa.

logit

Il vettore di previsioni non elaborate (non normalizzate) generate da un modello di classificazione, che di solito vengono passate a una funzione di normalizzazione. Se il modello risolve un problema di classificazione multi-classe, i logit di solito diventano un input per la funzione softmax. La funzione softmax genera quindi un vettore di probabilità (normalizzato) con un valore per ogni classe possibile.

Log Loss

#fundamentals

La funzione di perdita utilizzata nella regressione logistica binaria.

Fai clic sull'icona per visualizzare il calcolo.

La seguente formula calcola la perdita di log:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

dove:

$(x,y)\in D$ è il set di dati contenente molti esempi etichettati, che sono $(x,y)$ coppie.
$y$ è l'etichetta in un esempio etichettato. Poiché si tratta di una regressione logistica, ogni valore di $y$ deve essere 0 o 1.
$y'$ è il valore previsto (compreso tra 0 e 1, escluso), in base all'insieme di caratteristiche in $x$.

log-ods

#fundamentals

Il logaritmo delle probabilità di un evento.

Fai clic sull'icona per visualizzare il calcolo.

Se l'evento è una probabilità binaria, odds si riferisce al rapporto tra la probabilità di successo (p) e la probabilità di fallimento (1-p). Ad esempio, supponiamo che un determinato evento abbia una probabilità di successo del 90% e una probabilità di fallimento del 10%. In questo caso, le quote vengono calcolate come segue:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Il log-odds è semplicemente il logaritmo delle probabilità. Per convenzione, "logaritmo" si riferisce al logaritmo naturale, ma il logaritmo potrebbe in realtà essere qualsiasi base maggiore di 1. Attenendoti alle convenzioni, le probabilità logiche del nostro esempio sono quindi:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

La funzione log-odds è l'opposto della funzione sigmoidale.

LSTM (Long Short-Term Memory).

#seq

Un tipo di cella in una rete neurale ricorrente utilizzata per elaborare sequenze di dati in applicazioni come il riconoscimento della scrittura a mano libera, la traduzione automatica e l'assegnazione di didascalie alle immagini. Gli LSTM risolvono il problema del gradiente di fuga che si verifica durante l'addestramento degli RNN a causa di lunghe sequenze di dati mantenendo la cronologia in uno stato della memoria interna in base ai nuovi input e al contesto delle celle precedenti nell'RNN.

LoRA

#language

#IAgenerativa

Abbreviazione di Low-Rank Adjustability.

perdita

#fundamentals

Durante l'addestramento di un modello supervisionato, una misura di quanto dista la previsione di un modello rispetto alla sua etichetta.

Una funzione di perdita calcola la perdita.

aggregatore di perdite

Un tipo di algoritmo di machine learning che migliora le prestazioni di un modello combinando le previsioni di più modelli e utilizzando quelle previsioni per effettuare un'unica previsione. Di conseguenza, un aggregatore di perdite può ridurre la varianza delle previsioni e migliorarne la precisione.

curva di perdita

#fundamentals

Un grafico della perdita in funzione del numero di iterazioni di addestramento. Il seguente diagramma mostra una tipica curva di perdita:

Un grafico cartesiano della perdita rispetto alle iterazioni di addestramento, che mostra un rapido calo della perdita per le iterazioni iniziali, seguito da un calo graduale e quindi da una pendenza piatta durante le iterazioni finali.

Le curve di perdita possono aiutarti a determinare quando il tuo modello è convergente o overfitting.

Le curve di perdita possono tracciare tutti i seguenti tipi di perdita:

perdita di addestramento
perdita della convalida
perdita di prova

Vedi anche curva di generalizzazione.

funzione "loss"

#fundamentals

Durante l'addestramento o il test, una funzione matematica che calcola la perdita su un batch di esempi. Una funzione loss restituisce una perdita inferiore per i modelli che eseguono previsioni corrette rispetto ai modelli che fanno previsioni errate.

L'obiettivo dell'addestramento è tipicamente di minimizzare la perdita restituita da una funzione di perdita.

Esistono molti tipi diversi di funzioni di perdita. Scegli la funzione di perdita appropriata per il tipo di modello che stai creando. Ad esempio:

La perdita L₂ (o errore quadratico medio) è la funzione di perdita per la regressione lineare.
Log Loss è la funzione di perdita per la regressione logistica.

superficie di perdita

Un grafico relativo al confronto tra i pesi e la perdita. La discesa del gradiente mira a trovare i pesi per cui la superficie di perdita è minima locale.

Adattabilità a basso ranking (LoRA)

#language

#IAgenerativa

Un algoritmo per eseguire l'ottimizzazione efficiente dei parametri che perfeziona solo un sottoinsieme dei parametri di un modello linguistico di grandi dimensioni (LLM). LoRA offre i seguenti vantaggi:

Perfeziona più velocemente rispetto alle tecniche che richiedono l'ottimizzazione di tutti i parametri di un modello.
Riduce il costo di calcolo dell'inferenza nel modello ottimizzato.

Un modello ottimizzato con LoRA mantiene o migliora la qualità delle sue previsioni.

LoRA consente più versioni specializzate di un modello.

LSTM

#seq

Abbreviazione di Long Short-Term Memory.

L

machine learning

#fundamentals

Un programma o sistema che addestra un modello dai dati di input. Il modello addestrato può eseguire previsioni utili a partire da dati nuovi (mai visti prima) ricavati dalla stessa distribuzione utilizzata per addestrare il modello.

Il machine learning si riferisce anche al settore di studio relativo a questi programmi o sistemi.

classe di maggioranza

#fundamentals

L'etichetta più comune in un set di dati non bilanciato in base alla classe. Ad esempio, da un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette negative sono la classe maggioritaria.

Sono invece opposti a classe di minoranza.

Processo decisionale di Markov (MDP)

#rl

Un grafico che rappresenta il modello decisionale in cui vengono prese le decisioni (o le azioni) per esplorare una sequenza di stati partendo dal presupposto che la proprietà di Markov è in possesso. Nell'apprendimento per rinforzo, queste transizioni tra gli stati restituiscono una ricompensa numerica.

Proprietà di Markov

#rl

Una proprietà di alcuni ambienti, in cui le transizioni di stato sono interamente determinate dalle informazioni implicite nello stato corrente e dall'azione dell'agente.

modello linguistico mascherato

#language

Un modello linguistico che prevede la probabilità che i token dei candidati riempiano gli spazi vuoti in una sequenza. Ad esempio, un modello linguistico mascherato può calcolare le probabilità di una o più parole candidati per sostituire la sottolineatura nella seguente frase:

È tornato il ____ nel cappello.

In genere viene utilizzata la stringa "MASK" anziché una sottolineatura. Ad esempio:

La "MASCHEZZA" nel cappello è tornata.

La maggior parte dei modelli linguistici mascherati moderni è bidirezionale.

matplotlib

Una libreria di tracciamento 2D Python open source. matplotlib ti aiuta a visualizzare diversi aspetti del machine learning.

fattorizzazione matriciale

#recsystems

In matematica, un meccanismo per trovare le matrici il cui prodotto scalare si avvicina a una matrice target.

Nei sistemi di consigli, la matrice di destinazione include spesso le valutazioni degli utenti sugli elementi. Ad esempio, la matrice target per un sistema di consigli sui film potrebbe avere il seguente aspetto, in cui i numeri interi positivi sono valutazioni degli utenti e 0 indica che l'utente non ha valutato il film:

	Casablanca	La storia di Philadelphia	Black Panther	Wonder Woman	Pulpfiction
Utente 1	5,0	3,0	0.0	2.0	0.0
Utente 2	4.0	0.0	0.0	1,0	5,0
Utente 3	3,0	1,0	4.0	5,0	0.0

Il sistema di consigli sui film ha lo scopo di prevedere le valutazioni degli utenti per i film senza classificazione. Ad esempio, l'utente 1 piace Black Panther?

Un approccio per i sistemi di suggerimenti è utilizzare la fattorizzazione matriciale per generare le due matrici seguenti:

Una matrice utente, formata dal numero di utenti moltiplicato per il numero di dimensioni di incorporamento.
Una matrice di elementi, formattata in base al numero di dimensioni di incorporamento per il numero di elementi.

Ad esempio, l'utilizzo della fattorizzazione matriciale sui nostri 3 utenti e 5 elementi potrebbe restituire la seguente matrice utente e quella degli articoli:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Il prodotto scalare della matrice utenti e della matrice degli elementi restituisce una matrice di suggerimenti che contiene non solo le valutazioni originali degli utenti, ma anche le previsioni per i film che ogni utente non ha visto. Ad esempio, considera la valutazione dell'utente 1 di Casablanca, che era 5,0. Il prodotto scalare corrispondente a quella cella nella matrice dei suggerimenti dovrebbe essere pari a circa 5,0, ed è:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Ma soprattutto, all'Utente 1 piace Black Panther? Considerando il prodotto scalare corrispondente alla prima riga e alla terza colonna, si ottiene una valutazione prevista di 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La fattorizzazione matriciale in genere genera una matrice utente e una matrice di articoli che, insieme, sono molto più compatte rispetto alla matrice di destinazione.

Errore medio assoluto (MAE)

La perdita media per esempio quando viene utilizzata la perdita di ₁. Calcola l'errore medio assoluto come segue:

Calcola la perdita L₁ per un batch.
Dividi la perdita L₁ per il numero di esempi nel batch.

Fai clic sull'icona per visualizzare i calcoli matematici formali.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore previsto dal modello per $y$.

Ad esempio, considera il calcolo della perdita L₁ nel seguente gruppo di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Perdita (differenza tra effettiva e prevista)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perdita L₁

Quindi, la perdita L₁ è 8 e il numero di esempi è 5. Pertanto, l'errore medio assoluto è:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Errore medio assoluto di contrasto con errore quadratico medio ed errore quadratico medio della radice.

errore quadratico medio (MSE)

La perdita media per esempio quando viene utilizzata la perdita L₂. Calcola l'errore quadratico medio come segue:

Calcola la perdita di L₂ per un batch.
Dividi la perdita L₂ per il numero di esempi nel batch.

Fai clic sull'icona per visualizzare i calcoli matematici formali.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è la previsione del modello per $y$.

Ad esempio, considera la perdita del seguente gruppo di cinque esempi:

Valore effettivo	Previsione del modello	Perdita	Perdita al quadrato
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = perdita L₂

Pertanto, l'errore quadratico medio è:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

L'errore quadratico medio è un popolare strumento di ottimizzatore di addestramento, in particolare per la regressione lineare.

Errore quadratico medio di contrasto con errore quadratico medio ed errore quadratico medio della radice.

TensorFlow Playground utilizza l'errore quadratico medio per calcolare i valori di perdita.

Fai clic sull'icona per visualizzare ulteriori dettagli sui valori anomali.

I valori anomali influenzano fortemente l'errore quadratico medio. Ad esempio, una perdita di 1 è una perdita al quadrato di 1, mentre una perdita di 3 è una perdita al quadrato di 9. Nella tabella precedente, l'esempio con una perdita di 3 rappresenta circa il 56% dell'errore quadratico medio, mentre ciascuno degli esempi con una perdita di 1 rappresenta solo il 6% dell'errore quadratico medio.

I valori anomali non influenzano l'errore medio assoluto quanto l'errore quadratico medio. Ad esempio, una perdita di 3 rappresenta solo il 38% circa dell'errore assoluto medio.

Clipping è un modo per evitare che valori anomali estremi danneggino la capacità predittiva del modello.

mesh

#TensorFlow

#GoogleCloud

Nella programmazione parallela di ML, termine associato all'assegnazione di dati e modello ai chip TPU e alla definizione del modo in cui questi valori verranno messi in shard o replicati.

Mesh è un termine di sovraccarico che può indicare una delle seguenti situazioni:

Un layout fisico dei chip TPU.
Un costrutto logico astratto per la mappatura di dati e modello ai chip TPU.

In entrambi i casi, un mesh viene specificato come forma.

meta-apprendimento

#language

Un sottoinsieme del machine learning che scopre o migliora un algoritmo di apprendimento. Un sistema di meta-apprendimento può anche mirare ad addestrare un modello per apprendere rapidamente una nuova attività da una piccola quantità di dati o dall'esperienza acquisita nelle attività precedenti. Generalmente, gli algoritmi di meta-apprendimento cercano di raggiungere i seguenti obiettivi:

Migliorare o apprendere funzionalità progettate manualmente (come un inizializzatore o un ottimizzatore).
Maggiore efficienza in termini di dati ed efficienza di calcolo.
Migliorare la generalizzazione.

Il meta-apprendimento è correlato all'apprendimento few-shot.

metrica

#TensorFlow

Una statistica che ti interessa.

Un obiettivo è una metrica che un sistema di machine learning prova a ottimizzare.

API Metrics (tf.metrics)

Un'API TensorFlow per la valutazione dei modelli. Ad esempio, tf.metrics.accuracy determina la frequenza con cui le previsioni di un modello corrispondono alle etichette.

mini-batch

#fundamentals

Un piccolo sottoinsieme selezionato in modo casuale di un batch elaborato in un'unica iterazione. Le dimensioni del batch di un mini-batch in genere sono comprese tra 10 e 1000 esempi.

Supponiamo che l'intero set di addestramento (il batch completo) sia composto da 1000 esempi. Supponiamo inoltre di impostare la dimensione del batch di ogni mini-batch su 20. Di conseguenza, ogni iterazione determina la perdita su un 20 casuale dei 1000 esempi e quindi regola di conseguenza ponderazioni e bias.

È molto più efficiente calcolare la perdita in un mini-batch che in tutti gli esempi nel batch completo.

discesa del gradiente stocastico in mini-batch

Un algoritmo di discesa del gradiente che utilizza mini-batch. In altre parole, la discesa del gradiente stocastico in mini-batch stima il gradiente in base a un piccolo sottoinsieme di dati di addestramento. La discesa del gradiente stocastico regolare utilizza un mini-batch di dimensione 1.

perdita minimax

Una funzione di perdita per le reti generative avversarie, basata sull'entropia incrociata tra la distribuzione dei dati generati e quelli reali.

La perdita minima è utilizzata nel primo articolo per descrivere le reti generative avversarie.

classe minoranza

#fundamentals

L'etichetta meno comune in un set di dati non bilanciato in base alla classe. Ad esempio, da un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette positive sono la classe minoritaria.

Al contrario, con classe di maggioranza.

Fai clic sull'icona per le note aggiuntive.

Un addestramento con un milione di esempi sembra impressionante. Tuttavia, se la classe minoritaria è mal rappresentata, anche un numero elevato di corsi di formazione potrebbe non essere sufficiente. Concentrati meno sul numero totale di esempi nel set di dati e più sul numero di esempi nella classe minoritaria.

Se il tuo set di dati non contiene un numero sufficiente di esempi di classi di minoranza, valuta la possibilità di utilizzare il downcampionamento (la definizione nel secondo punto dell'elenco) per integrare la classe di minoranza.

ML

Abbreviazione di machine learning.

MNIST

#image

Un set di dati di dominio pubblico compilato da LeCun, Cortes e Burges contenente 60.000 immagini, ciascuna delle quali mostra come una persona ha scritto manualmente una determinata cifra da 0 a 9. Ogni immagine è archiviata come array di numeri interi 28 x 28, dove ogni numero intero corrisponde a un valore in scala di grigi compreso tra 0 e 255 inclusi.

MNIST è un set di dati canonico per il machine learning, spesso utilizzato per testare nuovi approcci di machine learning. Per maggiori dettagli, consulta il documento MNIST Database of Handwrites.

modalità

#language

Una categoria di dati di alto livello. Ad esempio, numeri, testo, immagini, video e audio sono cinque modalità diverse.

model

#fundamentals

In generale, qualsiasi costrutto matematico che elabora dati di input e restituisce un output. Detto in modo diverso, un modello è l'insieme di parametri e struttura necessari a un sistema per eseguire le previsioni. Nel machine learning supervisionato, un modello prende un esempio come input e deduce una previsione come output. Nel machine learning supervisionato, i modelli differiscono leggermente. Ad esempio:

Un modello di regressione lineare è costituito da un insieme di ponderazioni e un bias.
Un modello di rete neurale è costituito da:
- Un insieme di livelli nascosti, ciascuno contenente uno o più neuroni.
- Le ponderazioni e i bias associati a ogni neurone.
Un modello ad albero decisionale è costituito da:
- La forma dell'albero, ovvero lo schema in cui le condizioni e le foglie sono collegate.
- Le condizioni e le foglie.

Puoi salvare, ripristinare o creare copie di un modello.

Il machine learning non supervisionato genera anche modelli, in genere una funzione che può mappare un esempio di input al cluster più appropriato.

Fai clic sull'icona per confrontare le funzioni algebriche e di programmazione con i modelli di ML.

Una funzione algebrica come la seguente è un modello:

  f(x, y) = 3x -5xy + y² + 17

La funzione precedente mappa i valori di input (x e y) all'output.

Allo stesso modo, anche una funzione di programmazione come la seguente è un modello:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Un chiamante passa gli argomenti alla funzione Python precedente e la funzione Python genera un output (tramite l'istruzione return).

Sebbene una rete neurale profonda abbia una struttura matematica molto diversa da quella di una funzione algebrica o di programmazione, una rete neurale profonda riceve comunque l'input (un esempio) e restituisce l'output (una previsione).

Un programmatore umano codifica manualmente una funzione di programmazione. Al contrario, un modello di machine learning apprende gradualmente i parametri ottimali durante l'addestramento automatico.

capacità del modello

La complessità dei problemi che un modello può apprendere. Più sono complessi i problemi che un modello è in grado di apprendere, maggiore è la sua capacità. La capacità di un modello in genere aumenta con il numero di parametri del modello. Per una definizione formale della capacità del classificatore, consulta Dimensione VC.

modello a cascata

#IAgenerativa

Un sistema che sceglie il model ideale per una query di inferenza specifica.

Immagina un gruppo di modelli, che va da molto grande (molti parametri) a molto più piccoli (molto meno parametri). I modelli molto grandi consumano più risorse di calcolo al momento dell'inferenza rispetto ai modelli più piccoli. Tuttavia, i modelli molto grandi possono in genere dedurre richieste più complesse rispetto ai modelli più piccoli. La distribuzione a cascata dei modelli determina la complessità della query di inferenza, quindi seleziona il modello appropriato per eseguire l'inferenza. La motivazione principale per la creazione a cascata dei modelli è la riduzione dei costi di inferenza, generalmente selezionando modelli più piccoli e scegliendo solo un modello più grande per query più complesse.

Immagina che un modello piccolo venga eseguito su un telefono e una versione più grande del modello venga eseguita su un server remoto. Un buon modello a cascata riduce i costi e la latenza consentendo al modello più piccolo di gestire richieste semplici e chiamando solo il modello remoto per gestire richieste complesse.

Vedi anche modello di router.

parallelismo del modello

#language

Un modo per scalare l'addestramento o l'inferenza che inserisce parti diverse di un model su diversi model. Il parallelismo dei modelli consente ai modelli troppo grandi per essere inseriti in un solo dispositivo.

Per implementare il parallelismo dei modelli, un sistema di solito:

Suddivide il modello in parti più piccole.
Distribuisce l'addestramento di queste parti più piccole su più processori. Ogni processore addestra la propria parte del modello.
Combina i risultati per creare un singolo modello.

Il parallelismo dei modelli rallenta l'addestramento.

Vedi anche Parallelismo dei dati.

modello di router

#IAgenerativa

L'algoritmo che determina il model ideale per l'model nella model. Un modello di router è di solito un modello di machine learning che gradualmente impara a scegliere il modello migliore per un determinato input. Tuttavia, a volte un modello di router è un algoritmo più semplice, non di machine learning.

addestramento del modello

Il processo di determinazione del model migliore.

Momentum

Un sofisticato algoritmo di discesa del gradiente in cui un passaggio di apprendimento dipende non solo dalla derivata nel passaggio attuale, ma anche dalle derivate dei passaggi che lo hanno immediatamente preceduto. Lo slancio prevede il calcolo di una media mobile ponderata in modo esponenziale dei gradienti nel tempo, in modo analogo allo slancio in Fisica. La quantità di slancio a volte impedisce all'apprendimento di rimanere bloccati nelle minime locali.

classificazione multiclasse

#fundamentals

Nell'apprendimento supervisionato, un problema di classificazione in cui il set di dati contiene più di due classi di etichette. Ad esempio, le etichette nel set di dati Iris devono essere una delle seguenti tre classi:

Iris setosa
Iris virginica
Iris versicolor

Un modello addestrato sul set di dati Iris che prevede il tipo di Iris su nuovi esempi esegue la classificazione multiclasse.

Al contrario, i problemi di classificazione che distinguono esattamente due classi sono i modelli di classificazione binaria. Ad esempio, un modello di email che prevede spam o non spam è un modello di classificazione binario.

Nei problemi di clustering, la classificazione multiclasse fa riferimento a più di due cluster.

regressione logistica multiclasse

Utilizzo della regressione logistica nei problemi di classificazione multi-classe.

auto-attenzione multipla

#language

Un'estensione dell'auto-attenzione che applica il meccanismo di auto-attenzione più volte per ogni posizione nella sequenza di input.

I Transformers hanno introdotto l'auto-attenzione multi-testa.

modello multimodale

#language

Un modello i cui input e/o output includono più di una modalità. Ad esempio, considera un modello che prende sia un'immagine che una didascalia di testo (due modalità) come caratteristiche e restituisce un punteggio che indica l'adeguatezza della didascalia di testo per l'immagine. Quindi, gli input di questo modello sono multimodali e l'output è unimodale.

classificazione multinomiale

Sinonimo di classificazione multi-classe.

regressione multinomiale

Sinonimo di regressione logistica multi-classe.

multitasking

Una tecnica di machine learning in cui un singolo model viene addestrato per eseguire più model.

I modelli multitasking vengono creati mediante l'addestramento sui dati appropriati per ciascuna delle diverse attività. In questo modo, il modello può imparare a condividere informazioni sulle varie attività.

Un modello addestrato per più attività spesso ha capacità di generalizzazione migliorate e può essere più efficace nella gestione di diversi tipi di dati.

N

NaN trap

Quando un numero nel modello diventa NaN durante l'addestramento, il che fa sì che molti o tutti gli altri numeri nel modello diventino NaN.

NaN è l'abbreviazione di Not a Number.

comprensione del linguaggio naturale

#language

Determinare le intenzioni di un utente in base a ciò che ha digitato o detto. Ad esempio, un motore di ricerca utilizza la comprensione del linguaggio naturale per determinare ciò che l'utente sta cercando in base a ciò che ha digitato o detto.

classe esclusa

#fundamentals

Nella classificazione binaria, una classe viene chiamata positiva e l'altra negativa. La classe positiva è l'elemento o l'evento per cui il modello sta testando, mentre la classe negativa è l'altra possibilità. Ad esempio:

La classe negativa in un test medico potrebbe essere "non tumore".
La classe esclusa in un classificatore email potrebbe essere "non spam".

Al contrario, è classe positiva.

campionamento negativo

Sinonimo di campionamento dei candidati.

Neural Architecture Search (NAS)

Una tecnica per la progettazione automatica dell'architettura di una rete neurale. Gli algoritmi NAS possono ridurre la quantità di tempo e risorse necessarie per addestrare una rete neurale.

NAS in genere utilizza:

Uno spazio di ricerca, ovvero un insieme di possibili architetture.
Una funzione di fitness, ovvero una misurazione delle prestazioni di una determinata architettura in una determinata attività.

Gli algoritmi NAS spesso iniziano con un piccolo insieme di possibili architetture e espandono gradualmente lo spazio di ricerca man mano che l'algoritmo apprende di più sulle architetture efficaci. La funzione di fitness si basa in genere sulle prestazioni dell'architettura su un set di addestramento e l'algoritmo viene generalmente addestrato utilizzando una tecnica di apprendimento per rinforzo.

Gli algoritmi NAS si sono dimostrati efficaci nel trovare architetture ad alte prestazioni per una serie di attività, tra cui la classificazione delle immagini, la classificazione del testo e la traduzione automatica.

feed-forward

#fundamentals

Un model contenente almeno un model. Una rete neurale profonda è un tipo di rete neurale contenente più di un livello nascosto. Ad esempio, il diagramma seguente mostra una rete neurale profonda contenente due livelli nascosti.

Una rete neurale con un livello di input, due livelli nascosti e uno di output.

Ogni neurone in una rete neurale si connette a tutti i nodi nel livello successivo. Ad esempio, nel diagramma precedente, nota che ciascuno dei tre neuroni nel primo strato nascosto si connettono separatamente a entrambi i neuroni nel secondo strato nascosto.

Le reti neurali implementate sui computer vengono talvolta chiamate reti neurali artificiali per differenziarle dalle reti neurali presenti nel cervello e in altri sistemi nervosi.

Alcune reti neurali possono imitare relazioni non lineari molto complesse tra le diverse caratteristiche e l'etichetta.

Vedi anche rete neurale convoluzionale e rete neurale ricorrente.

neurone

#fundamentals

Nel machine learning, un'unità distinta all'interno di un livello nascosto di una rete neurale. Ogni neurone esegue la seguente azione in due fasi:

Calcola la somma ponderata dei valori di input moltiplicata per le ponderazioni corrispondenti.
Trasmette la somma ponderata come input a una funzione di attivazione.

Un neurone nel primo livello nascosto accetta gli input dai valori delle caratteristiche nel livello di input. Un neurone in qualsiasi livello nascosto oltre il primo accetta gli input dei neuroni nel precedente livello nascosto. Ad esempio, un neurone nel secondo strato nascosto accetta gli input dei neuroni nel primo strato nascosto.

L'illustrazione seguente evidenzia due neuroni e i relativi input.

Un neurone in una rete neurale imita il comportamento dei neuroni nel cervello e in altre parti del sistema nervoso.

N-grammo

#seq

#language

Una sequenza ordinata di N parole. Ad esempio, davvero folle è una pesata di 2 grammi. Poiché l'ordine è importante, ma molto di più 2 grammi di peso è diverso da davvero pazzesco.

N	Nomi per questo tipo di n-grammi	Esempi
2	bigram o 2 grammi	andare, andare a, pranzare, cenare
3	trigramma o 3 grammi	mangiare troppo, tre topi ciechi, il campanello suona
4	4 grammi	camminare nel parco, polvere al vento, il ragazzo mangiava lenticchie

Molti modelli di comprensione del linguaggio naturale si basano su N-grammi per prevedere la parola successiva che l'utente digiti o pronuncerà. Ad esempio, supponiamo che un utente abbia digitato tre ciechi. Un modello NLU basato sui trigrammi probabilmente prevede che l'utente digiterà poi i topo.

Metti a confronto N-grammi con sacco di parole, che sono insiemi di parole non ordinati.

NLU

#language

Abbreviazione di natural languageing (comprensione del linguaggio naturale).

nodo (albero decisionale)

#df

In un albero decisionale, qualsiasi condizione o foglia.

Un albero decisionale con due condizioni e tre foglie.

nodo (rete neurale)

#fundamentals

Un neurone in uno livello nascosto.

nodo (grafico TensorFlow)

#TensorFlow

Un'operazione in un grafico TensorFlow.

rumore

In generale, tutto ciò che oscura il segnale in un set di dati. Il rumore può essere introdotto nei dati in diversi modi. Ad esempio:

I revisori commettono errori nell'etichettatura.
Persone e strumenti registrano in modo errato oppure omettono valori delle caratteristiche.

condizione non binaria

#df

Una condizione che contiene più di due risultati possibili. Ad esempio, la seguente condizione non binaria contiene tre possibili risultati:

Una condizione (number_of_legs = ?) che genera tre possibili risultati. Un risultato (number_of_legs = 8) porta a una foglia
denominata ragno. Un secondo risultato (number_of_legs = 4) porta a una foglia di nome cane. Un terzo risultato (number_of_legs = 2) porta a una foglia chiamata pinguino.

non lineare

#fundamentals

Una relazione tra due o più variabili che non può essere rappresentata esclusivamente tramite l'addizione e la moltiplicazione. Una relazione lineare può essere rappresentata come una linea, mentre una relazione non lineare non può essere rappresentata come una linea. Prendi in considerazione due modelli, ciascuno correlato a una singola etichetta. Il modello a sinistra è lineare, mentre il modello a destra è non lineare:

Due trame. Un grafico è costituito da una linea, quindi si tratta di una relazione lineare.
L'altro grafico è a curva, perciò si tratta di una relazione non lineare.

bias non risposta

#fairness

Consulta la sezione Bias di selezione.

nonstationarità

#fundamentals

Una funzionalità i cui valori cambiano in una o più dimensioni, in genere nel tempo. Ad esempio, considera i seguenti esempi di nonstationarità:

Il numero di costumi da bagno venduti in un determinato negozio varia in base alla stagione.
La quantità di un frutto raccolto in una determinata regione è pari a zero per gran parte dell'anno, ma è elevata per un breve periodo.
A causa del cambiamento climatico, le temperature medie annuali stanno cambiando.

Sono in contrasto con la stationarità.

normalizzazione

#fundamentals

In generale, il processo di conversione dell'intervallo effettivo di una variabile in un intervallo standard di valori, ad esempio:

Da -1 a +1
Da 0 a 1
la distribuzione normale

Ad esempio, supponiamo che l'intervallo effettivo di valori di una determinata funzionalità sia compreso tra 800 e 2400. Nell'ambito del feature engineering, puoi normalizzare i valori effettivi fino a un intervallo standard, ad esempio da -1 a +1.

La normalizzazione è un'attività comune nel feature engineering. In genere i modelli vengono addestrati più velocemente (e producono previsioni migliori) quando ogni caratteristica numerica nel vettore di caratteristiche ha all'incirca lo stesso intervallo.

rilevamento di novità

Il processo per determinare se un nuovo esempio (innovativo) proviene dalla stessa distribuzione del set di addestramento. In altre parole, dopo l'addestramento sul set di addestramento, il rilevamento delle novità determina se un nuovo esempio (durante l'inferenza o durante l'addestramento aggiuntivo) è un outlier.

Al contrario del rilevamento di outlier.

dati numerici

#fundamentals

Funzionalità rappresentate come numeri interi o a valore reale. Ad esempio, un modello di valutazione di una casa rappresenterebbe probabilmente le dimensioni di una casa (in piedi quadrati o metri quadrati) come dati numerici. La rappresentazione di una caratteristica come dati numerici indica che i valori dell'elemento hanno una relazione matematica con l'etichetta. In altre parole, il numero di metri quadrati di una casa ha probabilmente una relazione matematica con il suo valore.

Non tutti i dati interi devono essere rappresentati come dati numerici. Ad esempio, in alcune parti del mondo i codici postali sono numeri interi. Tuttavia, i codici postali interi non devono essere rappresentati come dati numerici nei modelli. Questo perché un codice postale 20000 non è due (o metà) più potente di un codice postale di 10.000. Inoltre, sebbene diversi codici postali corrispondano a valori immobiliari diversi, non possiamo presumere che i valori degli immobili per il codice postale 20000 abbiano il doppio del valore degli immobili per il codice postale 10000. I codici postali devono invece essere rappresentati come dati relativi alle categorie.

Le caratteristiche numeriche sono talvolta chiamate funzionalità continue.

NumPy

Una libreria matematica open source che fornisce operazioni efficienti degli array in Python. pandas si basa su NumPy.

O

scopo

Una metrica che l'algoritmo sta cercando di ottimizzare.

funzione obiettivo

La formula matematica o metrica che un modello mira a ottimizzare. Ad esempio, la funzione obiettivo per la regressione lineare è di solito Media perdita quadrata. Di conseguenza, durante l'addestramento di un modello di regressione lineare, l'addestramento punta a ridurre al minimo la perdita quadratica media.

In alcuni casi, l'obiettivo è massimizzare la funzione obiettivo. Ad esempio, se la funzione obiettivo è l'accuratezza, l'obiettivo è massimizzare l'accuratezza.

Vedi anche perdita.

condizione obliqua

#df

In un albero decisionale, una condizione che include più di una funzionalità. Ad esempio, se altezza e larghezza sono entrambe caratteristiche, la seguente condizione è una obliqua:

  height > width

Il contrasto con la condizione allineata all'asse.

offline

#fundamentals

Sinonimo di static.

inferenza offline

#fundamentals

Il processo di un modello che genera un batch di previsioni e quindi memorizzale (salvandole) nella cache. Le app possono quindi accedere alla previsione dedotta dalla cache anziché eseguire nuovamente il modello.

Prendiamo ad esempio un modello che genera le previsioni meteo locali (previsioni) una volta ogni 4 ore. Dopo l'esecuzione di ogni modello, il sistema memorizza nella cache tutte le previsioni meteo locali. Le app Meteo recuperano le previsioni dalla cache.

L'inferenza offline è anche chiamata inferenza statica.

Sono in contrasto con l'inferenza online.

codifica one-hot

#fundamentals

Rappresentare i dati categorici come un vettore in cui:

Un elemento è impostato su 1.
Tutti gli altri elementi sono impostati su 0.

La codifica one-hot viene comunemente utilizzata per rappresentare le stringhe o gli identificatori che hanno un insieme finito di valori possibili. Ad esempio, supponiamo che una determinata funzionalità di categoria denominata Scandinavia abbia cinque valori possibili:

"Danimarca"
"Svezia"
"Norvegia"
"Finlandia"
"Islanda"

La codifica one-hot potrebbe rappresentare ciascuno dei cinque valori nel seguente modo:

country	Vettore
"Danimarca"	1	0	0	0	0
"Svezia"	0	1	0	0	0
"Norvegia"	0	0	1	0	0
"Finlandia"	0	0	0	1	0
"Islanda"	0	0	0	0	1

Grazie alla codifica one-hot, un modello può apprendere connessioni diverse in base a ciascuno dei cinque paesi.

La rappresentazione di una funzionalità come dati numerici è un'alternativa alla codifica one-hot. Sfortunatamente, rappresentare numericamente i paesi scandinavi non è una buona scelta. Ad esempio, considera la seguente rappresentazione numerica:

"Danimarca" è 0
"Svezia" corrisponde a 1
"Norvegia" è 2
"Finlandia" è 3
"Islanda" 4

Con la codifica numerica, un modello interpreta i numeri non elaborati matematicamente e prova ad addestrarsi con questi numeri. Tuttavia, l'Islanda non corrisponde al doppio (o la metà) di qualcosa rispetto alla Norvegia, quindi il modello trarrebbe alcune strane conclusioni.

apprendimento one-shot

Approccio di machine learning, spesso utilizzato per la classificazione degli oggetti, progettato per apprendere classificatori efficaci da un singolo esempio di addestramento.

Vedi anche apprendimento few-shot e apprendimento zero-shot.

prompt one-shot

#language

#IAgenerativa

Un messaggio contenente un esempio che mostra come deve rispondere il modello linguistico di grandi dimensioni (LLM). Ad esempio, il seguente prompt contiene un esempio che mostra come un modello linguistico di grandi dimensioni (LLM) dovrebbe rispondere a una query.

Parti di un prompt	Note
`Qual è la valuta ufficiale del paese specificato?`	La domanda a cui vuoi che l'LLM risponda.
`Francia: EUR`	Ecco un esempio.
`India:`	La query effettiva.

Confronta i prompt one-shot con i seguenti termini:

Prompt zero-shot
Prompt few-shot

uno contro tutti

#fundamentals

Dato un problema di classificazione con N classi, una soluzione composta da N classificatori binari separati, ovvero un classificatore binario per ogni risultato possibile. Ad esempio, a fronte di un modello che classifica esempi come animali, vegetali o minerali, una soluzione "uno contro tutti" fornirebbe i seguenti tre classificatori binari distinti:

animale/non animale
ortaggi e non verdure
minerale / non minerale

online

#fundamentals

Sinonimo di dynamic.

inferenza online

#fundamentals

Generare previsioni on demand. Ad esempio, supponi che un'app passi l'input a un modello e invii una richiesta per una previsione. Un sistema che utilizza l'inferenza online risponde alla richiesta eseguendo il modello (e restituendo la previsione all'app).

È diverso con l'inferenza offline.

operazione (op)

#TensorFlow

In TensorFlow, qualsiasi procedura che crea, manipola o distrugge un Tensor. Ad esempio, una moltiplicazione di matrici è un'operazione che richiede due Tensor come input e genera un Tensor come output.

Optax

Una libreria di ottimizzazione e elaborazione dei gradienti per JAX. Optax facilita la ricerca fornendo componenti di base che possono essere ricombinati in modi personalizzati per ottimizzare i modelli parametrici come le reti neurali profonde. Altri obiettivi includono:

Fornire implementazioni leggibili, ben testate ed efficienti dei componenti principali.
Migliorare la produttività consentendo di combinare ingredienti di basso livello in ottimizzatori personalizzati (o altri componenti di elaborazione gradiente).
Accelerare l'adozione di nuove idee semplificando il contributo di tutti.

ottimizzatore

Un'implementazione specifica dell'algoritmo di discesa del gradiente. Gli ottimizzatori più diffusi includono:

AdaGrad, che indica la discesa ADAptive GRADient.
Adam, che significa ADAptive with Momentum.

bias di omogeneità out-group

#fairness

Tendenza a vedere i membri esterni al gruppo più simili rispetto ai membri secondari quando si confrontano atteggiamenti, valori, tratti personali e altre caratteristiche. In gruppo si riferisce alle persone con cui interagisci regolarmente, mentre out-group si riferisce a persone con cui non interagisci regolarmente. Se crei un set di dati chiedendo alle persone di fornire attributi relativi ai gruppi esterni, questi potrebbero essere meno precisi e più stereotipati rispetto agli attributi che i partecipanti elencano per le persone del loro gruppo.

Ad esempio, potrebbero descrivere le case di altri lillilupi in grande dettaglio, citando piccole differenze negli stili architettonici, nelle finestre, nelle porte e nelle dimensioni. Tuttavia, gli stessi lillipui potrebbero semplicemente dichiarare che i brobdingnagi vivono tutti in case identiche.

Il bias di omogeneità all'esterno del gruppo è una forma di bias di attribuzione dei gruppi.

Vedi anche Bias all'interno del gruppo.

rilevamento outlier

Il processo di identificazione dei outlier in un set di addestramento.

Al contrario del rilevamento delle novità.

le anomalie

Valori distanti dalla maggior parte degli altri valori. Nel machine learning, i seguenti sono anomalie:

Dati di input i cui valori superano circa 3 deviazioni standard dalla media.
Ponderazioni con valori assoluti elevati.
Valori previsti relativamente distanti dai valori effettivi.

Ad esempio, supponiamo che widget-price sia una funzionalità di un determinato modello. Supponiamo che il valore medio di widget-price sia pari a 7 euro con una deviazione standard di 1 euro. Gli esempi contenenti un widget-price di 12 o 2 euro sarebbero pertanto considerati valori anomali, in quanto ciascuno di questi prezzi è cinque deviazioni standard dalla media.

I valori anomali sono spesso causati da errori di battitura o altri errori di input. In altri casi, i valori anomali non sono errori; dopotutto, valori di cinque deviazioni standard dalla media sono rari ma quasi impossibili.

I valori anomali spesso causano problemi nell'addestramento del modello. Clipping è un modo per gestire i valori anomali.

valutazione out-of-bag (valutazione OOB)

#df

Un meccanismo per valutare la qualità di un albero decisionale, testando ogni albero decisionale rispetto agli esempi non utilizzati durante l'addestramento di quell'albero decisionale. Ad esempio, nel seguente diagramma, nota che il sistema addestra ogni albero decisionale su circa due terzi degli esempi, quindi valuta in base a un terzo rimanente degli esempi.

La valutazione out-of-bag è un'approssimazione conservativa e efficiente dal punto di vista computazionale del meccanismo di convalida incrociata. Nella convalida incrociata, viene addestrato un modello per ogni round di convalida incrociata (ad esempio, 10 modelli vengono addestrati con una convalida incrociata di 10 volte). Con la valutazione OOB, viene addestrato un singolo modello. Poiché l'insufficienza di dati trattene alcuni dati di ogni albero durante l'addestramento, la valutazione OOB può utilizzare questi dati per approssimare la convalida incrociata.

livello di output

#fundamentals

Il livello "finale" di una rete neurale. Il livello di output contiene la previsione.

L'illustrazione seguente mostra una piccola rete neurale profonda con un livello di input, due livelli nascosti e uno di output:

overfitting

#fundamentals

Creazione di un model che corrisponda così da vicino ai model che il modello non riesce a effettuare previsioni corrette sui nuovi dati.

La regolarizzazione può ridurre l'overfitting. Anche la formazione su un set di addestramento ampio e diversificato può ridurre l'overfitting.

Fai clic sull'icona per le note aggiuntive.

Fare overfitting è come seguire rigorosamente i consigli del tuo insegnante preferito. Probabilmente avrai successo nel corso di quell'insegnante, ma potresti "adattarti" alle idee di quell'insegnante e fallire in altri corsi. Seguendo i consigli di un mix di insegnanti potrai adattarti meglio alle nuove situazioni.

sovracampionamento

Riutilizzare gli esempi di una classe di minoranza in un set di dati non bilanciato in classe per creare un set di addestramento più bilanciato.

Ad esempio, considera un problema di classificazione binaria in cui il rapporto tra la classe di maggioranza e la classe di minoranza è pari a 5000:1. Se il set di dati contiene un milione di esempi, contiene solo circa 200 esempi della classe di minoranza, che potrebbero essere troppo pochi per un addestramento efficace. Per superare questa carenza, potresti sovracampionare (riutilizzare) questi 200 esempi più volte, forsendo esempi sufficienti per un addestramento utile.

Devi fare attenzione all'overfitting durante il sovracampionamento.

Sono invece in contrasto con il sottocampionamento.

P

dati compressi

Un approccio per archiviare i dati in modo più efficiente.

I dati compressi archiviano i dati utilizzando un formato compresso o in altri modi che ne consentono l'accesso in modo più efficiente. I pacchetti di dati riducono al minimo la quantità di memoria e calcolo necessari per accedervi, portando a un addestramento più rapido e a un'inferenza del modello più efficiente.

I dati pacchettizzati vengono spesso utilizzati con altre tecniche, come l'aumento dei dati e la regolarizzazione, migliorando ulteriormente le prestazioni dei modelli.

panda

#fundamentals

Un'API di analisi dei dati orientata alle colonne basata su numpy. Molti framework di machine learning, tra cui TensorFlow, supportano le strutture di dati pandas. Per ulteriori dettagli, consulta la documentazione di Panda.

parametro

#fundamentals

Le ponderazioni e i bias che un modello apprende durante l'addestramento. Ad esempio, in un modello di regressione lineare, i parametri sono costituiti dal bias (b) e da tutte le ponderazioni (w₁, w₂ e così via) nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Al contrario, gli iperparametri sono i valori che tu (o un servizio di rotazione iperparametri) fornisci al modello. Ad esempio, il tasso di apprendimento è un iperparametro.

ottimizzazione efficiente dei parametri

#language

#IAgenerativa

Un insieme di tecniche per mettere a punto un modello linguistico preaddestrato (PLM) di grandi dimensioni in modo più efficiente rispetto all'ottimizzazione completa. Un'ottimizzazione efficiente in base ai parametri in genere ottimizza molti meno parametri rispetto all'ottimizzazione completa, ma in genere produce un modello linguistico di grandi dimensioni che ha le stesse prestazioni (o quasi) di un modello linguistico di grandi dimensioni (LLM) creato con un'ottimizzazione completa.

Confronta e contrapponi l'ottimizzazione efficiente dai parametri con:

ottimizzazione delle istruzioni
ottimizzazione dei prompt

L'ottimizzazione efficiente dei parametri è nota anche come ottimizzazione efficiente dei parametri.

Server dei parametri (PS)

#TensorFlow

Un job che tiene traccia dei parametri di un modello in un'impostazione distribuita.

aggiornamento parametro

L'operazione di regolazione dei parametri di un modello durante l'addestramento, in genere all'interno di una singola iterazione di discesa del gradiente.

derivata parziale

Una derivata in cui tutte le variabili tranne una sono considerate costanti. Ad esempio, la derivata parziale di f(x, y) rispetto a x è la derivata di f considerata come una funzione della sola x (ovvero, mantenendo la costante y). La derivata parziale di f rispetto a x si concentra solo su come x cambia e ignora tutte le altre variabili dell'equazione.

bias di partecipazione

#fairness

Sinonimo di bias di mancata risposta. Consulta la sezione Bias di selezione.

strategia di partizionamento

L'algoritmo in base al quale vengono suddivise le variabili tra i server dei parametri.

Pax

un framework di programmazione progettato per l'addestramento di modelli di rete neurale su larga scala così grandi da coprire più chip di TPU acceleratore sezioni o pod.

Pax è basato su Flax, che è basato su JAX.

Diagramma che indica la posizione di Pax nello stack software.
Pax è basato su JAX. Pax stesso è costituito da tre livelli. Il livello inferiore contiene TensorStore e Flax.
Il livello centrale contiene Optax e Flaxformer. Il livello superiore contiene la libreria modelli Praxis. Fiddle è costruito su Pax.

perceptrone

Un sistema (hardware o software) che accetta uno o più valori di input, esegue una funzione sulla somma ponderata degli input e calcola un singolo valore di output. Nel machine learning, la funzione è tipicamente non lineare, ad esempio ReLU, sigmoid o tanh. Ad esempio, il seguente perceptrone si basa sulla funzione sigmoide per elaborare tre valori di input:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Nell'illustrazione seguente, il perceptron accetta tre input, ciascuno dei quali viene modificato da una ponderazione prima di inserire il perceptrone:

Un perceptron che accetta 3 input, ciascuno moltiplicato per ponderazioni separate. Il perceptron restituisce un singolo valore.

I perceptroni sono i neuroni nelle reti neurali.

prestazioni

Termine sovraccarico con i seguenti significati:

Il significato standard all'interno dell'ingegneria del software. Ossia: quanto è veloce (o efficiente) l'esecuzione di questo software?
Il significato all'interno del machine learning. In questo caso, il rendimento risponde alla seguente domanda: Quanto è corretto questo model? In altre parole, quanto sono valide le previsioni del modello?

importanza delle variabili di permutazione

#df

Un tipo di importanza della variabile che valuta l'aumento dell'errore di previsione di un modello dopo aver autorizzato i valori della caratteristica. L'importanza della variabile di permutazione è una metrica indipendente dal modello.

perplessità

Una misura dell'efficacia di un model nell'adempimento dei propri compiti. Ad esempio, supponi di leggere le prime lettere di una parola che un utente sta digitando sulla tastiera di un telefono e di offrire un elenco di possibili parole di completamento. Perplessità, P, per questa attività equivale a circa il numero di ipotesi che devi offrire affinché l'elenco contenga la parola effettiva che l'utente sta cercando di digitare.

La perplessità è correlata all'entropia incrociata come segue:

$$P= 2^{-\text{cross entropy}}$$

pipeline

L'infrastruttura che circonda un algoritmo di machine learning. Una pipeline include la raccolta dei dati, il loro inserimento in file di dati di addestramento, l'addestramento di uno o più modelli e l'esportazione dei modelli in produzione.

pipeline

#language

Una forma di Parallelismo del modello in cui l'elaborazione di un modello viene divisa in fasi consecutive e ogni fase viene eseguita su un dispositivo diverso. Mentre una fase elabora un batch, la fase precedente può lavorare sul batch successivo.

Vedi anche la formazione graduale.

pjit

Una funzione JAX che suddivide il codice in modo che venga eseguito su più chip dell'acceleratore. L'utente passa una funzione a pjit, che restituisce una funzione che ha la semantica equivalente, ma che viene compilata in un calcolo XLA eseguito su più dispositivi (ad esempio GPU o core TPU).

pjit consente agli utenti di eseguire lo sharding dei calcoli senza riscriverli utilizzando il partizionatore SPMD.

A partire da marzo 2023, pjit è stato unito a jit. Per ulteriori dettagli, consulta Array distribuiti e parallelizzazione automatica.

PLM

#language

#IAgenerativa

Abbreviazione di modello linguistico preaddestrato.

pmap

Una funzione JAX che esegue copie di una funzione di input su più dispositivi hardware sottostanti (CPU, GPU o TPU), con valori di input diversi. pmap si basa su SPMD.

policy

#rl

Nell'apprendimento per rinforzo, la mappatura probabilistica di un agente da stati ad azioni.

pooling

#image

Ridurre una o più matrici create da un livello convoluzionale precedente in una matrice più piccola. Il pooling solitamente comporta l'applicazione del valore massimo o medio all'interno dell'area complessiva. Supponiamo, ad esempio, di avere la seguente matrice 3 x 3:

La matrice 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Un'operazione di pooling, proprio come un'operazione convoluzionale, divide la matrice in sezioni e poi fa scorrere l'operazione convoluzionale di passi. Ad esempio, supponiamo che l'operazione di pool divisi la matrice convoluzionale in sezioni 2x2 con un passo di 1x1. Come illustrato nel seguente diagramma, si svolgono quattro operazioni di pooling. Immagina che ogni operazione di pooling scelga il valore massimo dei quattro in quella sezione:

Il pooling consente di applicare l'invarianza di traduzione nella matrice di input.

Il pooling per le applicazioni di visione artificiale è noto formalmente come pooling spaziale. In genere, per le applicazioni delle serie temporali si fa riferimento al pooling come pool temporale. Meno formalmente, il pooling viene spesso chiamato sottocampionamento o downcampionamento.

codifica posizionale

#language

Una tecnica per aggiungere informazioni sulla posizione di un token in una sequenza all'incorporamento. I modelli Transformer utilizzano la codifica posizionale per comprendere meglio la relazione tra le diverse parti della sequenza.

Un'implementazione comune della codifica posizionale utilizza una funzione sinusoidale. In particolare, la frequenza e l'ampiezza della funzione sinusoidale sono determinate dalla posizione del token nella sequenza. Questa tecnica consente al modello Transformer di imparare a osservare parti diverse della sequenza in base alla loro posizione.

classe positiva

#fundamentals

Il corso per cui stai eseguendo il test.

Ad esempio, la classe positiva in un modello di cancro potrebbe essere "tumore". La classe positiva in un classificatore di email potrebbe essere "spam".

Sono in contrasto con class negative.

Fai clic sull'icona per le note aggiuntive.

Il termine classe positiva può creare confusione perché il risultato "positivo" di molti test è spesso un risultato indesiderato. Ad esempio, la classe positiva in molti test medici corrisponde a tumori o malattie. In generale, il medico ti dice: "Congratulazioni! I risultati del test sono stati negativi." In ogni caso, la classe positiva è l'evento che il test vuole trovare.

Ammettiamo che testate contemporaneamente sia le classi positive che quelle negative.

post-elaborazione

#fairness

#fundamentals

Modificare l'output di un modello dopo che quest'ultimo è stato eseguito. La post-elaborazione può essere utilizzata per applicare vincoli di equità senza modificare i modelli stessi.

Ad esempio, si potrebbe applicare la post-elaborazione a un classificatore binario impostando una soglia di classificazione in modo che venga mantenuta uguaglianza di opportunità per alcuni attributi controllando che il tasso di veri positivi sia lo stesso per tutti i valori di quell'attributo.

AUC PR (area sotto la curva PR)

Area sotto la curva di precisione-richiamo interpolata, ottenuta tracciando punti (richiamo, precisione) per diversi valori della soglia di classificazione. A seconda di come viene calcolata, l'AUC PR può essere equivalente alla precisione media del modello.

Prassi

Una libreria ML di base ad alte prestazioni di Pax. Praxis è spesso chiamato "libreria dei livelli".

Praxis non contiene solo le definizioni della classe Layer, ma anche la maggior parte dei componenti di supporto, tra cui:

input di dati
librerie di configurazione (HParam e Fiddle)
ottimizzatori

Praxis fornisce le definizioni della classe Model.

precisione

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando il modello ha previsto la classe positiva, quale percentuale di previsioni era corretta?

Ecco la formula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

dove:

vero positivo indica che il modello ha previsto correttamente la classe positiva.
falso positivo indica che il modello ha previsto erroneamente la classe positiva.

Ad esempio, supponiamo che un modello abbia effettuato 200 previsioni positive. Di queste 200 previsioni positive:

150 erano veri positivi.
50 erano falsi positivi.

In questo caso:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Sono invece opposti ad accuratezza e richiamo.

curva di precisione-richiamo

Una curva di precisione rispetto al richiamo con diverse soglie di classificazione.

la previsione.

#fundamentals

L'output di un modello. Ad esempio:

La previsione di un modello di classificazione binaria è la classe positiva o la classe negativa.
La previsione di un modello di classificazione multiclasse è una classe.
La previsione di un modello di regressione lineare è un numero.

#IAgenerativa

L'addestramento iniziale di un modello su un grande set di dati. Alcuni modelli preaddestrati sono giganti e in genere devono essere perfezionati mediante addestramento aggiuntivo. Ad esempio, gli esperti di ML potrebbero preaddestrare un modello linguistico di grandi dimensioni (LLM) su un vasto set di dati di testo, come tutte le pagine in inglese su Wikipedia. Dopo il pre-addestramento, il modello risultante potrebbe essere ulteriormente perfezionato tramite una delle seguenti tecniche:

distillazione
ottimizzazione
ottimizzazione delle istruzioni
ottimizzazione efficiente dei parametri
ottimizzazione dei prompt

credenza precedente

Cosa credi dei dati prima di iniziare l'addestramento. Ad esempio, la regolarizzazione L₂ si basa su una precedente convinzione secondo cui le ponderazioni dovrebbero essere piccole e normalmente distribuite intorno a zero.

modello di regressione probabilistica

Un modello di regressione che utilizza non solo le ponderazioni per ogni funzionalità, ma anche l'incertezza di queste ponderazioni. Un modello di regressione probabilistica genera una previsione e l'incertezza. Ad esempio, un modello di regressione probabilistica potrebbe generare una previsione di 325 con una deviazione standard di 12. Per ulteriori informazioni sui modelli di regressione probabilistica, consulta questo Colab su tensorflow.org.

funzione di densità di probabilità

Una funzione che identifica la frequenza dei campioni di dati che hanno esattamente un determinato valore. Quando i valori di un set di dati sono numeri a virgola mobile continui, raramente si verificano corrispondenze esatte. Tuttavia, l'integrating di una funzione di densità di probabilità dal valore x al valore y produce la frequenza prevista dei campioni di dati tra x e y.

Ad esempio, considera una distribuzione normale con una media di 200 e una deviazione standard di 30. Per determinare la frequenza prevista dei campioni di dati che rientrano nell'intervallo compreso tra 211,4 e 218,7, puoi integrare la funzione di densità di probabilità per una distribuzione normale compresa tra 211,4 e 218,7.

richiesta

#language

#IAgenerativa

Qualsiasi testo inserito come input in un modello linguistico di grandi dimensioni (LLM) per condizionare il modello in modo che si comporti in un determinato modo. I prompt possono essere brevi come una frase o arbitrariamente lunghi (ad esempio l'intero testo di un romanzo). I prompt rientrano in più categorie, incluse quelle mostrate nella seguente tabella:

Categoria del prompt	Esempio	Note
Domanda	`Quanto è veloce un piccione a volare?`
Istruzione	`Scrivi una poesia divertente sull'arbitraggio.`	Un prompt che chiede al modello LLM di fare qualcosa.
Esempio	`Traduci il codice Markdown in HTML. Ad esempio: Markdown: * voce elenco HTML: <ul> <li>elemento dell'elenco</li> </ul>`	La prima frase di questo prompt di esempio è un'istruzione. Il resto del prompt è l'esempio.
Ruolo	`Spiega perché la discesa del gradiente viene utilizzata nell'addestramento tramite machine learning per un dottorato di ricerca in fisica.`	La prima parte della frase è un'istruzione; la frase "per un dottorato in fisica" è la parte relativa al ruolo.
Input parziale per il completamento del modello	`Il Primo Ministro del Regno Unito vive presso`	Un prompt di input parziale può terminare improvvisamente (come in questo esempio) o terminare con un trattino basso.

Un modello di IA generativa è in grado di rispondere a un prompt con testo, codice, immagini, incorporamenti, video... praticamente qualsiasi cosa.

apprendimento basato su prompt

#language

#IAgenerativa

La funzionalità di alcuni modelli che consente loro di adattare il proprio comportamento in risposta a un input di testo arbitrario (richieste). In un tipico paradigma di apprendimento basato su prompt, un modello linguistico di grandi dimensioni (LLM) risponde a un prompt generando del testo. Ad esempio, supponiamo che un utente inserisca il seguente prompt:

Riassumi il terzo principio della dinamica di Newton.

Un modello in grado di apprendimento basato su prompt non è addestrato specificamente per rispondere al prompt precedente. Piuttosto, il modello "conosce" molte informazioni sulla fisica, molto sulle regole generali del linguaggio e molto su ciò che costituisce risposte generalmente utili. Queste conoscenze sono sufficienti per fornire una risposta (si spera) utile. Il feedback umano aggiuntivo ("Questa risposta era troppo complicata." o "Che cos'è una reazione?") consente ad alcuni sistemi di apprendimento basati su prompt di migliorare gradualmente l'utilità delle loro risposte.

progettazione dei prompt

#language

#IAgenerativa

Sinonimo di prompt engineering.

ingegneria del prompt

#language

#IAgenerativa

L'arte di creare messaggi che generino le risposte desiderate da un modello linguistico di grandi dimensioni (LLM). Gli esseri umani svolgono l'ingegneria del prompt. Scrivere prompt ben strutturati è essenziale per garantire risposte utili da un modello linguistico di grandi dimensioni (LLM). Il prompt engineering dipende da molti fattori, tra cui:

Il set di dati utilizzato per preaddestrare e possibilmente mettere a punto il modello LLM.
La temperatura e altri parametri di decodifica che il modello utilizza per generare risposte.

Consulta Introduzione alla progettazione dei prompt per ulteriori dettagli sulla scrittura di prompt utili.

Progettazione di prompt è un sinonimo di prompt engineering.

ottimizzazione dei prompt

#language

#IAgenerativa

Un meccanismo di ottimizzazione efficiente dei parametri che apprende un "prefisso" che il sistema antepone al prompt effettivo.

Una variante dell'ottimizzazione dei prompt, a volte chiamata ottimizzazione del prefisso, consiste nell'anteporre il prefisso a ogni livello. Al contrario, la maggior parte dell'ottimizzazione dei prompt aggiunge solo un prefisso al livello di input.

Fai clic sull'icona per scoprire di più sui prefissi.

Per l'ottimizzazione dei prompt, il "prefisso" (noto anche come "prompt flessibile") è un numero di vettori appresi e specifici per l'attività anteposti agli incorporamenti di token di testo dal prompt effettivo. Il sistema apprende il prompt software bloccando tutti gli altri parametri del modello e perfezionando un'attività specifica.

etichette proxy

#fundamentals

Dati utilizzati per approssimare le etichette non direttamente disponibili in un set di dati.

Ad esempio, supponiamo di dover addestrare un modello per prevedere il livello di stress dei dipendenti. Il set di dati contiene molte funzionalità predittive, ma non contiene un'etichetta denominata livello di stress. Immediatamente, scegli "incidenti sul lavoro" come etichetta proxy per il livello di stress. Dopotutto, i dipendenti più stressati subiscono più incidenti che tranquillizzarli. Oppure sì? Forse gli incidenti sul posto di lavoro in realtà aumentano e diminuiscono per diversi motivi.

Come secondo esempio, supponi di voler piovere? come etichetta booleana per il set di dati, ma che non contiene dati relativi alle piogge. Se sono disponibili delle fotografie, potresti creare immagini di persone che trasportano ombrelli come etichetta proxy per sta piovendo? È una buona etichetta proxy? Forse, ma in alcune culture è più probabile che portano gli ombrelli per proteggersi dal sole piuttosto che dalla pioggia.

Le etichette del proxy sono spesso imperfette. Se possibile, scegli le etichette effettive anziché le etichette proxy. Detto questo, quando un'etichetta effettiva non è presente, sceglila con molta attenzione, scegliendo l'etichetta proxy meno orribile.

proxy (attributi sensibili)

#fairness

Un attributo utilizzato come sostituzione per un attributo sensibile. Ad esempio, il codice postale di un individuo può essere utilizzato come sostituto del reddito, della razza o dell'etnia.

funzione pura

Una funzione i cui output si basano solo sui suoi input e che non ha effetti collaterali. Nello specifico, una funzione pura non utilizza o modifica lo stato globale, ad esempio i contenuti di un file o il valore di una variabile esterna alla funzione.

Puoi utilizzare funzioni pure per creare codice thread-safe, utile per lo sharding del codice del model tra più model.

I metodi di trasformazione delle funzioni di JAX richiedono che le funzioni di input siano funzioni pure.

D

Funzione Q

#rl

Nell'apprendimento per rinforzo, la funzione che prevede il ritorno previsto dall'esecuzione di un' azione in uno stato e dal seguito di un determinato criterio.

La funzione Q è anche nota come funzione valore stato-azione.

Q-learning

#rl

Nell'apprendimento per rinforzo, un algoritmo che consente a un agente di apprendere la funzione Q ottimale di un processo decisionale di Markov applicando l'equazione di Bellman. Il processo decisionale di Markov modella un ambiente.

quantile

Ogni bucket in bucketing quantile.

bucket di quantili

La distribuzione dei valori di una caratteristica in bucket in modo che ogni bucket contenga lo stesso numero di esempi (o quasi lo stesso). Ad esempio, la figura seguente suddivide 44 punti in 4 bucket, ognuno dei quali contiene 11 punti. Affinché ogni bucket nella figura contenga lo stesso numero di punti, alcuni bucket coprono una larghezza diversa di valori x.

44 punti dati suddivisi in 4 segmenti da 11 punti ciascuno.
Sebbene ogni bucket contenga lo stesso numero di punti dati, alcuni bucket contengono un intervallo più ampio di valori delle caratteristiche rispetto ad altri bucket.

quantizzazione

Termine sovraccarico che potrebbe essere utilizzato in uno dei seguenti modi:

Implementazione del bucketing quantile su una particolare funzionalità.
Trasformazione dei dati in zeri e uno per archiviazione, addestramento e inferenza più rapidamente. Poiché i dati booleani sono più affidabili per rumore ed errori rispetto agli altri formati, la quantizzazione può migliorare la correttezza del modello. Le tecniche di quantizzazione includono arrotondamento, troncamento e binding.
Riduzione del numero di bit utilizzati per archiviare i parametri di un modello. Supponiamo, ad esempio, che i parametri di un modello siano memorizzati come numeri in virgola mobile a 32 bit. La quantizzazione converte questi parametri da 32 bit a 4, 8 o 16 bit. La quantizzazione riduce quanto segue:
- Computing, memoria, disco e utilizzo della rete
- Tempo per dedurre una previsione
- Consumo energetico
Tuttavia, la quantizzazione talvolta riduce la correttezza delle previsioni di un modello.

queue

#TensorFlow

Un'operazione TensorFlow che implementa una struttura di dati in coda. Utilizzata generalmente in I/O.

R

RAG

#fundamentals

Abbreviazione di retrieval-augmented Generation.

Random Forest

#df

Un insieme di alberi decisionali in cui ogni albero decisionale viene addestrato con un rumore casuale specifico, ad esempio insaus.

Le foreste casuali sono un tipo di foresta decisionale.

criterio casuale

#rl

Nell'apprendimento per rinforzo, un criterio che sceglie un' azione a caso.

classifica

Un tipo di apprendimento supervisionato il cui obiettivo è ordinare un elenco di elementi.

ranking (ordinalità)

La posizione ordinale di una classe in un problema di machine learning che classifica le classi dalla più alta alla più bassa. Ad esempio, un sistema di ranking del comportamento potrebbe classificare le ricompense di un cane dal più alto (una bistecca) al più basso (cavolo appassito).

ranking (Tensor)

#TensorFlow

Il numero di dimensioni in un Tensor. Ad esempio, uno scalare ha un rango di 0, un vettore ha un rango 1 e una matrice ha un rango 2.

Da non confondere con il ranking (ordinalità).

votante

#fundamentals

Una persona che fornisce etichette per esempi. "Annotator" è un altro nome che indica il responsabile delle valutazioni.

recall

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando la dati empirici reali era la classe positiva, quale percentuale di previsioni è stata correttamente identificata dal modello come classe positiva?

Ecco la formula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

dove:

vero positivo indica che il modello ha previsto correttamente la classe positiva.
falso negativo significa che il modello ha previsto erroneamente la classe negativa.

Ad esempio, supponiamo che il modello abbia effettuato 200 previsioni su esempi per cui i dati empirici reali erano la classe positiva. Di queste 200 previsioni:

180 erano veri positivi.
20 erano falsi negativi.

In questo caso:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Fai clic sull'icona per visualizzare note sui set di dati non bilanciati in classe.

Recall è particolarmente utile per determinare la capacità predittiva dei modelli di classificazione in cui la classe positiva è rara. Ad esempio, considera un set di dati non bilanciato in base alla classe in cui la classe positiva di una determinata patologia si verifica solo in 10 pazienti su un milione. Supponiamo che il tuo modello faccia cinque milioni di previsioni che producono i seguenti risultati:

30 veri positivi
20 falsi negativi
4.999.000 veri negativi
950 falsi positivi

Il richiamo di questo modello è quindi:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Al contrario, la precisione di questo modello è:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Questo elevato valore di precisione sembra impressionante, ma sostanzialmente è privo di significato. Recall è una metrica molto più utile per i set di dati non bilanciati in classe rispetto all'accuratezza.

sistema di suggerimenti

#recsystems

un sistema che seleziona per ogni utente un insieme relativamente piccolo di elementi desiderabili da un corpus di grandi dimensioni. Ad esempio, un sistema di consigli per i video potrebbe consigliare due video tratto da un corpus di 100.000 video, selezionando Casablanca e La storia di Filadelfia per un utente e Wonder Woman e Black Panther per un altro. Un sistema di consigli per i video potrebbe basare i consigli su fattori quali:

Film che utenti simili hanno valutato o guardato da utenti simili.
Genere, registi, attori, gruppo demografico target...

Unità lineare rettificata (ReLU)

#fundamentals

Una funzione di attivazione con il seguente comportamento:

Se l'input è negativo o pari a zero, l'output è 0.
Se l'input è positivo, l'output corrisponde all'input.

Ad esempio:

Se l'input è -3, l'output è 0.
Se l'input è +3, l'output è 3,0.

Ecco un diagramma della ReLU:

ReLU è una funzione di attivazione molto diffusa. Nonostante il suo comportamento semplice, la ReLU consente comunque a una rete neurale di apprendere relazioni non lineari tra le caratteristiche e l'etichetta.

rete neurale ricorrente

#seq

Una rete neurale eseguita intenzionalmente più volte, in cui le parti di ogni esecuzione alimentano l'esecuzione successiva. In particolare, i livelli nascosti nell'esecuzione precedente forniscono parte dell'input allo stesso livello nascosto all'esecuzione successiva. Le reti neurali ricorrenti sono particolarmente utili per la valutazione delle sequenze, in modo che i livelli nascosti possano apprendere dalle esecuzioni precedenti della rete neurale nelle parti precedenti della sequenza.

Ad esempio, la figura seguente mostra una rete neurale ricorrente che viene eseguita quattro volte. Nota che i valori appresi nei livelli nascosti dalla prima esecuzione diventano parte dell'input per gli stessi livelli nascosti nella seconda esecuzione. Analogamente, i valori appresi nel livello nascosto alla seconda esecuzione diventano parte dell'input per lo stesso livello nascosto nella terza esecuzione. In questo modo, la rete neurale ricorrente addestra e prevede gradualmente il significato dell'intera sequenza anziché solo il significato delle singole parole.

Un RNN che viene eseguito quattro volte per elaborare quattro parole di input.

modello di regressione

#fundamentals

Informale, un modello che genera una previsione numerica. Al contrario, un modello di classificazione genera una previsione della classe. Ad esempio, quelli riportati di seguito sono tutti modelli di regressione:

Modello che prevede il valore di una certa casa, ad esempio 423.000 euro.
Modello che prevede l'aspettativa di vita di un determinato albero, ad esempio 23,2 anni.
un modello che prevede la quantità di pioggia che cadrà in una determinata città nelle sei ore successive, ad esempio 45,7 mm.

Due tipi comuni di modelli di regressione sono:

La regressione lineare, che trova la linea più adatta ai valori delle etichette alle caratteristiche.
Regressione logistica, che genera una probabilità compresa tra 0,0 e 1,0 che un sistema in genere mappa a una previsione di classe.

Non tutti i modelli che forniscono previsioni numeriche sono modelli di regressione. In alcuni casi, una previsione numerica è in realtà solo un modello di classificazione che ha nomi di classi numeriche. Ad esempio, un modello che prevede un codice CAP numerico è un modello di classificazione, non un modello di regressione.

regolarizzazione

#fundamentals

Qualsiasi meccanismo che riduca l'overfitting. I tipi più comuni di regolarizzazione includono:

Regolarizzazione ₁
Regolarizzazione L₂
regolarizzazione degli abbandoni
interruzione anticipata (non è un metodo di regolarizzazione formale, ma può limitare efficacemente l'overfitting)

La regolarizzazione può anche essere definita come la penalità sulla complessità di un modello.

Fai clic sull'icona per le note aggiuntive.

La regolarizzazione è controintuitiva. L'aumento della regolarizzazione di solito aumenta la perdita di addestramento, il che crea confusione perché, beh, non è l'obiettivo di ridurre la perdita di addestramento?

In realtà no. L'obiettivo non è ridurre al minimo la perdita di addestramento. L'obiettivo è fare previsioni eccellenti su esempi reali. In modo notevole, anche se l'aumento della regolarizzazione aumenta la perdita di addestramento, di solito aiuta i modelli a fare previsioni migliori su esempi reali.

tasso di regolarizzazione

#fundamentals

Un numero che specifica l'importanza relativa della regolarizzazione durante l'addestramento. Aumentare il tasso di regolarizzazione riduce l'overfitting, ma potrebbe ridurre la capacità predittiva del modello. Invece, ridurre o omettere il tasso di regolarizzazione aumenta l'overfitting.

Fai clic sull'icona per visualizzare il calcolo.

Il tasso di regolarizzazione è solitamente rappresentato dalla lettera greca lambda. La seguente equazione semplificata per la perdita mostra l'influenza di lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

dove regularizzazione è un qualsiasi meccanismo di regolarizzazione, inclusi:

Regolarizzazione ₁
Regolarizzazione L₂

apprendimento per rinforzo

#rl

Una famiglia di algoritmi che apprende una norma ottimale, il cui obiettivo è massimizzare il ritorno quando si interagisce con un ambiente. Ad esempio, la ricompensa definitiva della maggior parte dei giochi è la vittoria. I sistemi di apprendimento per rinforzo possono imparare a giocare a giochi complessi valutando sequenze di mosse precedenti che hanno portato a vittorie e sequenze che alla fine hanno portato a perdite.

Apprendimento per rinforzo con feedback umano (RLHF)

#IAgenerativa

#rl

Utilizzo del feedback di revisori umani per migliorare la qualità delle risposte di un modello. Ad esempio, un meccanismo RLHF può chiedere agli utenti di valutare la qualità della risposta di un modello con un'emoji 👍 o 👎. Il sistema può quindi modificare le risposte future in base a quel feedback.

ReLU

#fundamentals

Abbreviazione di Rectified Linear Unit.

ripeti buffer

#rl

Negli algoritmi simili a DQN, la memoria utilizzata dall'agente per archiviare le transizioni di stato per l'utilizzo nella riproduzione dell'esperienza.

replica

Una copia del set di addestramento o del modello, in genere su un'altra macchina. Ad esempio, un sistema potrebbe utilizzare la seguente strategia per implementare il Parallelismo dei dati:

Posiziona le repliche di un modello esistente su più macchine.
Invia diversi sottoinsiemi del set di addestramento a ogni replica.
Aggrega gli aggiornamenti dei parametri.

bias nei report

#fairness

Il fatto che la frequenza con cui le persone scrivano di azioni, risultati o proprietà non riflette la frequenza reale o la misura in cui una proprietà è caratteristica di una classe di individui. I bias nei report possono influenzare la composizione dei dati da cui i sistemi di machine learning

Ad esempio, nei libri, la parola risata è più prevalente di espirato. Un modello di machine learning che stima la frequenza relativa di risate e respiri nel corpus di un libro probabilmente determinarebbe che ridere è più comune della respirazione.

vettoriale prima che arrivassero

Il processo di mappatura dei dati a utili funzionalità.

riclassificazione

#recsystems

La fase finale di un sistema di suggerimenti, durante il quale gli elementi con punteggio possono essere valutati nuovamente in base ad altri algoritmi (in genere non ML). Il nuovo ranking valuta l'elenco di elementi generati dalla fase di punteggio, intraprendendo azioni come:

Eliminazione degli articoli già acquistati dall'utente.
Aumento del punteggio degli elementi più recenti.

RAG (retrieval-augmented Generation)

#fundamentals

Una tecnica per migliorare la qualità dell'output del modello linguistico di grandi dimensioni (LLM), basandolo su fonti di conoscenza recuperate dopo l'addestramento del modello. RAG migliora l'accuratezza delle risposte LLM fornendo all'LLM addestrato l'accesso a informazioni recuperate da knowledge base o documenti attendibili.

Tra le motivazioni più comuni per utilizzare la generazione avanzata ci sono:

Aumento dell'accuratezza oggettiva delle risposte generate da un modello.
Concedere al modello l'accesso alle conoscenze su cui non è stato addestrato.
Modifica delle conoscenze utilizzate dal modello.
Attivazione della citazione delle fonti da parte del modello.

Ad esempio, supponi che un'app di chimica utilizzi l'API PaLM per generare riepiloghi relativi alle query degli utenti. Quando il backend dell'app riceve una query, il backend:

Cerca ("recupera") i dati pertinenti alla query dell'utente.
Aggiunge ("arricchisci") i dati chimici pertinenti alla query dell'utente.
Indica all'LLM di creare un riepilogo basato sui dati aggiunti.

return

#rl

Nell'apprendimento per rinforzo, in base a una determinata norma e a un certo stato, il ritorno è la somma di tutti i premi che l'agente si aspetta di ricevere quando segue le norme dallo stato alla fine della puntata. L'agente tiene conto della natura ritardata dei premi previsti scontando i premi in base alle transizioni di stato richieste per ottenere il premio.

Pertanto, se il fattore di sconto è $\gamma$e $r_0, \ldots, r_{N}$indica i premi fino alla fine della puntata, il calcolo del ritorno è il seguente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

premio

#rl

Nell'apprendimento per rinforzo, il risultato numerico dell'esecuzione di un'azione in uno stato, come definito dall'ambiente.

regolarizzazione della dorsale

Sinonimo di regolarizzazione L₂. Il termine regolarizzazione delle rilievi viene usato più spesso in contesti puramente statistici, mentre la regolazione L₂ viene utilizzata più spesso nel machine learning.

RNN

#seq

Abbreviazione di reti neurali ricorrenti.

Curva ROC (caratteristica operativa del ricevitore)

#fundamentals

Un grafico del tasso di veri positivi rispetto al tasso di falsi positivi per diverse soglie di classificazione nella classificazione binaria.

La forma di una curva ROC suggerisce la capacità di un modello di classificazione binaria di separare le classi positive da quelle negative. Supponiamo, ad esempio, che un modello di classificazione binaria separa perfettamente tutte le classi negative da tutte le classi positive:

Una riga numerica con 8 esempi positivi a destra e 7 esempi negativi a sinistra.

La curva ROC per il modello precedente appare come segue:

Una curva ROC. L'asse x indica il tasso di falsi positivi e l'asse y
è il tasso di veri positivi. La curva ha una forma a L invertita. La curva inizia da (0,0,0,0) e va direttamente fino a (0,0,1,0). Quindi la curva va da (0,0,1,0) a (1,0,1,0).

Al contrario, l'illustrazione seguente mostra i valori di regressione logistica non elaborata per un modello terribile che non è in grado di separare le classi negative dalle classi positive:

Una riga numerica con esempi positivi e classi negative
completamente mescolati.

La curva ROC per questo modello sarà la seguente:

Una curva ROC, che è in realtà una linea retta da (0.0,0.0)
a (1.0,1.0).

Nel mondo reale, la maggior parte dei modelli di classificazione binaria separa in qualche misura le classi positive e negative, ma di solito non perfettamente. Di conseguenza, una tipica curva ROC rientra tra i due estremi:

Una curva ROC. L'asse x indica il tasso di falsi positivi e l'asse y
è il tasso di veri positivi. La curva ROC si avvicina a un arco tremolante che attraversa i punti della bussola da ovest a nord.

Il punto su una curva ROC più vicina a (0,0,1,0) identifica in teoria la soglia di classificazione ideale. Tuttavia, molti altri problemi del mondo reale influenzano la scelta della soglia di classificazione ideale. Ad esempio, i falsi negativi forse sono più dolenti dei falsi positivi.

Una metrica numerica denominata AUC riassume la curva ROC in un singolo valore in virgola mobile.

prompt dei ruoli

#language

#IAgenerativa

Parte facoltativa di un prompt che identifica un pubblico di destinazione per la risposta di un modello di IA generativa. Senza un messaggio sul ruolo, un modello linguistico di grandi dimensioni (LLM) fornisce una risposta che potrebbe o meno essere utile per la persona che pone le domande. Con un prompt di ruolo, un modello linguistico di grandi dimensioni può rispondere nel modo più appropriato e utile per un pubblico di destinazione specifico. Ad esempio, la parte del prompt del ruolo delle seguenti richieste è in grassetto:

Riassumi questo articolo per un dottorato di ricerca in economia.
Descrivi come funzionano le maree per un bambino di dieci anni.
Spiegare la crisi finanziaria del 2008. Parla come potresti a un bambino o a un golden retriever.

root

#df

Il nodo iniziale (la prima condizione) in un albero decisionale. Per convenzione, i diagrammi mettono la radice in cima all'albero decisionale. Ad esempio:

Un albero decisionale con due condizioni e tre foglie. La
condizione iniziale (x > 2) è la condizione radice.

directory root

#TensorFlow

La directory specificata per l'hosting delle sottodirectory del checkpoint TensorFlow e dei file degli eventi di più modelli.

Errore quadratico medio della radice (RMSE, Root Mean Squared Error)

#fundamentals

La radice quadrata dell'errore quadratico medio.

invarianza rotazionale

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando cambia l'orientamento dell'immagine. Ad esempio, l'algoritmo è comunque in grado di identificare una racchetta da tennis se punta in alto, in posizione orizzontale o in basso. Tieni presente che l'invarianza rotazionale non è sempre desiderabile; ad esempio, un 9 capovolto non deve essere classificato come 9.

Vedi anche invarianza della traduzione e invarianza delle dimensioni.

R al quadrato

Una metrica di regressione che indica la variazione di un'etichetta dovuta a una singola funzionalità o a un insieme di funzionalità. R al quadrato è un valore compreso tra 0 e 1, che puoi interpretare come segue:

Un quadrato R pari a 0 indica che nessuna delle variazioni di un'etichetta è dovuta all'insieme di caratteristiche.
Il quadrato R pari a 1 indica che tutte le varianti di un'etichetta sono dovute all'insieme di caratteristiche.
Un quadrato R compreso tra 0 e 1 indica in quale misura è possibile prevedere la variazione dell'etichetta da una particolare caratteristica o dall'insieme di caratteristiche. Ad esempio, un R al quadrato di 0,10 indica che il 10% della varianza nell'etichetta è dovuto al set di caratteristiche, un R al quadrato di 0,20 indica che il 20% è dovuto al set di caratteristiche e così via.

Il quadrato R è il quadrato del coefficiente di correlazione di Pearson tra i valori previsti da un modello e i dati empirici reali.

S

bias di campionamento

#fairness

Consulta la sezione Bias di selezione.

campionamento con sostituzione

#df

Metodo per scegliere elementi da un insieme di elementi candidati in cui lo stesso elemento può essere selezionato più volte. La frase "con sostituzione" indica che, dopo ogni selezione, l'elemento selezionato viene restituito al pool di elementi candidati. Il metodo inverso, campionamento senza sostituzione, significa che un elemento candidato può essere scelto una sola volta.

Ad esempio, considera la seguente serie di frutta:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supponiamo che il sistema scelga in modo casuale fig come primo elemento. Se utilizzi il campionamento con la sostituzione, il sistema sceglie la seconda voce dall'insieme seguente:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sì, è lo stesso impostato di prima, quindi il sistema potrebbe scegliere di nuovo fig.

Se utilizzi il campionamento senza sostituzione, una volta scelto, non sarà più possibile scegliere un campione. Ad esempio, se il sistema sceglie in modo casuale fig come primo campione, allora fig non potrà essere scelto di nuovo. Di conseguenza, il sistema sceglie il secondo campione dal seguente insieme (ridotto):

fruit = {kiwi, apple, pear, cherry, lime, mango}

Fai clic sull'icona per le note aggiuntive.

La parola sostituzione nel campionamento con sostituzione confonde molte persone. In inglese, sostituzione significa "sostituzione". Tuttavia, per il campionamento con sostituzione viene utilizzata in realtà la definizione francese di sostituzione, che significa "reinserire qualcosa".

La parola inglese replacement si traduce in francese remplacement.

SavedModel

#TensorFlow

Formato consigliato per salvare e recuperare i modelli TensorFlow. SaveModel è un formato di serializzazione recuperabile e indipendente dal linguaggio, che consente a sistemi e strumenti di livello superiore di produrre, utilizzare e trasformare modelli di TensorFlow.

Per informazioni dettagliate, consulta il capitolo Salvataggio e ripristino della Guida per i programmatori di TensorFlow.

Economico

#TensorFlow

Un oggetto TensorFlow responsabile del salvataggio dei checkpoint del modello.

scalare

Un singolo numero o una singola stringa che può essere rappresentata come un tensore di ranking 0. Ad esempio, le seguenti righe di codice creano ciascuna uno scalare in TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

scalabilità

Qualsiasi trasformazione o tecnica matematica che sposti l'intervallo di un'etichetta e/o del valore di una caratteristica. Alcune forme di scalabilità sono molto utili per trasformazioni come la normalizzazione.

Le forme più comuni di scalabilità utili nel machine learning includono:

scala lineare, che in genere utilizza una combinazione di sottrazione e divisione per sostituire il valore originale con un numero compreso tra -1 e +1 o tra 0 e 1.
la scalabilità logaritmica, che sostituisce il valore originale con il suo logaritmo.
Normalizzazione del punteggio Z, che sostituisce il valore originale con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di questa caratteristica.

Scikit-learn

Una nota piattaforma di machine learning open source. Consulta scikit-learn.org.

calcolo punteggio

#recsystems

La parte di un sistema di consigli che fornisce un valore o un ranking per ogni elemento prodotto dalla fase di generazione di candidati.

bias di selezione

#fairness

Errori nelle conclusioni tratte dai dati campionati a causa di un processo di selezione che genera differenze sistematiche tra i campioni osservati nei dati e quelli non osservati. Esistono le seguenti forme di bias di selezione:

Bias di copertura: la popolazione rappresentata nel set di dati non corrisponde alla popolazione su cui il modello di machine learning fa previsioni.
Bias di campionamento: i dati non vengono raccolti in modo casuale dal gruppo target.
Bias di mancata risposta (chiamato anche bias di partecipazione): gli utenti di determinati gruppi disattivano i sondaggi a una frequenza diversa rispetto agli utenti di altri gruppi.

Ad esempio, supponiamo che tu stia creando un modello di machine learning che prevede l'intrattenimento che le persone apprezzano nei confronti di un film. Per raccogliere i dati di addestramento, distribuisci un sondaggio a tutte le persone che si trovano in prima fila in un cinema in cui viene proiettato il film. Ovviamente questo potrebbe sembrare un modo ragionevole per raccogliere un set di dati; tuttavia, questa forma di raccolta dei dati potrebbe introdurre le seguenti forme di bias di selezione:

bias di copertura: campionando i dati di una popolazione che ha scelto di vedere il film, le previsioni del modello potrebbero non essere generalizzate a persone che non hanno già espresso questo livello di interesse per il film.
bias di campionamento: anziché campionare in modo casuale la popolazione interessata (tutte le persone presenti nel film), hai campionato solo le persone in prima fila. È possibile che le persone in prima fila fossero più interessate al film che a quelle nelle altre.
bias di mancata risposta: in generale, le persone con opinioni forti tendono a rispondere ai sondaggi facoltativi più spesso delle persone con opinioni lievi. Poiché il sondaggio sui film è facoltativo, è più probabile che le risposte formino una distribuzione bimodale rispetto a una normale distribuzione (a campana).

auto-attenzione (detto anche strato di auto-attenzione)

#language

Un livello di rete neurale che trasforma una sequenza di incorporamenti (ad esempio incorporamenti token) in un'altra sequenza di incorporamenti. Ogni incorporamento nella sequenza di output viene costruita integrando le informazioni dagli elementi della sequenza di input tramite un meccanismo di attenzione.

La parte relativa all'auto-attenzione all'auto-attenzione si riferisce alla sequenza associata a se stessa e non ad altro contesto. L'auto-attenzione è uno dei componenti di base principali dei Transformer e utilizza la terminologia di ricerca del dizionario, ad esempio "query", "chiave" e "valore".

Un livello di auto-attenzione inizia con una sequenza di rappresentazioni di input, una per ogni parola. La rappresentazione di input per una parola può essere una semplice incorporamento. Per ogni parola in una sequenza di input, la rete assegna un punteggio alla pertinenza della parola rispetto a ogni elemento dell'intera sequenza di parole. I punteggi di pertinenza determinano in che misura la rappresentazione finale di una parola incorpora le rappresentazioni di altre parole.

Ad esempio, considera la seguente frase:

L'animale non ha attraversato la strada perché era troppo stanco.

L'illustrazione seguente (da Transformer: A Novel Neural Network Architecture for Language Understanding) mostra il modello di attenzione di un livello di auto-attenzione per il pronome it, con l'oscurità di ogni riga che indica in che misura ogni parola contribuisce alla rappresentazione:

La seguente frase appare due volte: L'animale non ha attraversato la strada perché era troppo stanco. Le righe collegano il pronome in una frase a cinque token (L'animale, la strada, questo e il punto) nell'altra frase. La linea tra il pronome e la parola "animale" è più incisiva.

Il livello di auto-attenzione mette in evidenza le parole che sono pertinenti al contesto. In questo caso, il livello Attention ha imparato a evidenziare le parole a cui potrebbe fare riferimento, assegnando il massimo peso ad animale.

Per una sequenza di n token, l'auto-attenzione trasforma una sequenza di incorporamenti n volte separate, una volta in ogni posizione della sequenza.

Fai riferimento anche ad attenzione e auto-attenzione a più persone.

apprendimento autonomo

Una famiglia di tecniche per convertire un problema di machine learning non supervisionato in un problema di machine learning supervisionato mediante la creazione di etichette surrogate da esempi non etichettati.

Alcuni modelli basati su Transformer, come BERT, utilizzano l'apprendimento autonomo.

L'addestramento autonomo è un approccio di apprendimento semi-supervisionato.

autoformazione

Una variante dell'apprendimento autonomo, particolarmente utile quando si verificano tutte le seguenti condizioni:

Il rapporto tra esempi non etichettati e esempi etichettati nel set di dati è elevato.
Questo è un problema di classificazione.

L'addestramento autonomo esegue l'iterazione dei due passaggi seguenti fino a quando il modello smette di migliorare:

Utilizza il machine learning supervisionato per addestrare un modello sugli esempi etichettati.
Utilizza il modello creato nel passaggio 1 per generare previsioni (etichette) sugli esempi senza etichetta, spostando quelli con un'elevata affidabilità negli esempi etichettati con l'etichetta prevista.

Tieni presente che a ogni iterazione del Passaggio 2 vengono aggiunti altri esempi etichettati per l'addestramento del Passaggio 1.

apprendimento semi-supervisionato

Addestramento di un modello su dati dove alcuni esempi di addestramento hanno etichette e altri no. Una tecnica per l'apprendimento semi-supervisionato è dedurre le etichette per gli esempi non etichettati e quindi eseguire l'addestramento sulle etichette dedotte per creare un nuovo modello. L'apprendimento semi-supervisionato può essere utile se le etichette sono costose da ottenere, ma gli esempi non etichettati sono numerosi.

L'addestramento autonomo è una tecnica per l'apprendimento semi-supervisionato.

attributo sensibile

#fairness

Una caratteristica umana a cui può essere data una particolare considerazione per motivi legali, etici, sociali o personali.

analisi del sentiment

#language

Utilizzo di algoritmi statistici o di machine learning per determinare l'atteggiamento complessivo di un gruppo (positivo o negativo) nei confronti di un servizio, un prodotto, un'organizzazione o un argomento. Ad esempio, utilizzando la comprensione del linguaggio naturale, un algoritmo potrebbe eseguire un'analisi del sentiment sul feedback testuale di un corso universitario per determinare il livello in cui gli studenti hanno generalmente apprezzato o meno il corso.

modello di sequenza

#seq

Un modello i cui input hanno una dipendenza sequenziale. Ad esempio, prevedere il video successivo guardato da una sequenza di video guardati in precedenza.

attività da sequenza a sequenza

#language

Un'attività che converte una sequenza di input di token in una sequenza di output di token. Ad esempio, due tipi popolari di attività da sequenza a sequenza sono:

Traduttori:
- Sequenza di input di esempio: "Ti amo".
- Sequenza di output di esempio: "Je t'aime".
Risposta alle domande:
- Esempio di sequenza di input: "Mi serve l'auto a New York?"
- Sequenza di output di esempio: "No. Tieni l'auto a casa".

del modello.

Il processo di rendere disponibile un modello addestrato per fornire previsioni tramite inferenza online o inferenza offline.

forma (Tensor)

Il numero di elementi in ogni dimensione di un tensore. La forma è rappresentata come un elenco di numeri interi. Ad esempio, il seguente tensore bidimensionale ha una forma di [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow utilizza il formato riga principale (stile C) per rappresentare l'ordine delle dimensioni, motivo per cui la forma in TensorFlow è [3,4] anziché [4,3]. In altre parole, in un TensorFlow Tensor bidimensionale, la forma è [numero di righe, numero di colonne].

shard

#TensorFlow

#GoogleCloud

Una divisione logica del set di addestramento o del modello. In genere, un processo crea shard dividendo gli esempi o i parametri in blocchi (di solito) di dimensioni uguali. Ogni shard viene quindi assegnato a una macchina diversa.

Lo sharding di un modello è chiamato Parallelismo del modello, mentre lo sharding dei dati è chiamato Parallelismo dei dati.

restringimento

#df

Un iperparametro in Boost gradienting che controlla il overfitting. La riduzione nell'incremento del gradiente è simile al tasso di apprendimento nella discesa del gradiente. La riduzione è un valore decimale compreso tra 0,0 e 1,0. Un valore di restringimento più basso riduce l'overfitting di più rispetto a un valore di restringimento maggiore.

funzione sigmoidea

#fundamentals

Una funzione matematica che "schiaccia" un valore di input in un intervallo vincolato, in genere da 0 a 1 o da -1 a +1. In altre parole, puoi passare qualsiasi numero (due, un milione, miliardi negativi o qualsiasi cosa) a una sigmoide e l'output rimarrà nell'intervallo vincolato. Un diagramma della funzione di attivazione sigmoidale ha il seguente aspetto:

La funzione sigmoide ha diversi usi nel machine learning, tra cui:

Conversione dell'output non elaborato di un modello di regressione logistica o di regressione multinomiale in una probabilità.
Agire come funzione di attivazione in alcune reti neurali.

Fai clic sull'icona per visualizzare il calcolo.

La funzione sigmoide su un numero di input x ha la seguente formula:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Nel machine learning, x rappresenta generalmente una somma ponderata.

misura di somiglianza

#clustering

Negli algoritmi di clustering, la metrica utilizzata per determinare la somiglianza (il grado di somiglianza) tra due esempi sono.

programma singolo / dati multipli (SPMD)

Una tecnica di parallelismo in cui lo stesso calcolo viene eseguito su diversi dati di input in parallelo su dispositivi diversi. L'obiettivo di SPMD è ottenere risultati più rapidamente. È lo stile più comune di programmazione parallela.

invarianza delle dimensioni

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando le dimensioni delle immagini cambiano. Ad esempio, l'algoritmo è comunque in grado di identificare un gatto se consuma 2 milioni di pixel o 200.000 pixel. Tieni presente che anche i migliori algoritmi di classificazione delle immagini hanno ancora limiti pratici di invarianza delle dimensioni. Ad esempio, è improbabile che un algoritmo (o un essere umano) classifichi correttamente un'immagine di gatto che consuma solo 20 pixel.

Vedi anche invarianza della traduzione e invarianza rotazionale.

disegnare

#clustering

Nel machine learning non supervisionato, una categoria di algoritmi che eseguono un'analisi preliminare della somiglianza su esempi. Gli algoritmi di schizzi utilizzano una funzione hash sensibile alla località per identificare i punti che potrebbero essere simili, quindi li raggruppano in bucket.

Lo schizzi riduce il calcolo necessario per i calcoli di somiglianza su grandi set di dati. Invece di calcolare la somiglianza per ogni singola paia di esempi nel set di dati, ne calcoliamo la somiglianza solo per ogni paia di punti all'interno di ogni bucket.

salta grammo

#language

Un elemento n-gram che può omettere (o "saltare") parole dal contesto originale, ossia le N parole potrebbero non essere state originariamente adiacenti. Più precisamente, "k-skip-n-gram" è un n-grammo per cui potrebbero essere state saltate fino a k parole.

Ad esempio, "the quick brown fox" ha i seguenti possibili 2 grammi:

"il rapido"
"marrone rapido"
"volpe marrone"

"1-skip-2-gram" è una coppia di parole tra le quali al massimo 1 parola. Pertanto, "the quick brown fox" ha il seguente 1-saltamento di 2 grammi:

"il marrone"
"volpe veloce"

Inoltre, tutti i 2 grammi sono anche di 1-salta-2-grammi, poiché meno di una parola può essere saltata.

L'opzione Salta-grammi è utile per comprendere meglio il contesto di una parola. Nell'esempio, "volpe" è stato associato direttamente a "veloce" nel set di 1-skip-2-grammi, ma non nel set di 2-grammi.

Questa funzionalità consente di addestrare i modelli di incorporamento delle parole.

softmax

#fundamentals

Una funzione che determina le probabilità per ogni possibile classe in un modello di classificazione multi-classe. La somma delle probabilità fino a esattamente 1,0. Ad esempio, la tabella seguente mostra in che modo la funzione softmax distribuisce diverse probabilità:

L'immagine è...	Probability
cane	0,85
gatto	0,13
cavallo	,02

La funzione Softmax è anche chiamata softmax completa.

Sono invece opposti al campionamento dei candidati.

Fai clic sull'icona per visualizzare il calcolo.

L'equazione softmax è la seguente:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

dove:

$\sigma_i$ è il vettore di output. Ogni elemento del vettore di output specifica la probabilità di questo elemento. La somma di tutti gli elementi nel vettore di output è 1,0. Il vettore di output contiene lo stesso numero di elementi del vettore di input, $z$.
$z$ è il vettore di input. Ogni elemento del vettore di input contiene un valore in virgola mobile.
$K$ è il numero di elementi nel vettore di input (e il vettore di output).

Ad esempio, supponiamo che il vettore di input sia:

[1.2, 2.5, 1.8]

Di conseguenza, la funzione softmax calcola il denominatore come segue:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Pertanto, la probabilità softmax di ogni elemento è pari a:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Quindi, il vettore di output è quindi:

$$\sigma = [0.154, 0.565, 0.281]$$

La somma dei tre elementi in $\sigma$ è 1,0. Finalmente.

ottimizzazione dei prompt software

#language

#IAgenerativa

Una tecnica per l'ottimizzazione di un modello linguistico di grandi dimensioni (LLM) per una determinata attività, senza perfezionamento intensivo di risorse. Anziché riaddestrare tutte le ponderazioni nel modello, l'ottimizzazione dei prompt software regola automaticamente un prompt per raggiungere lo stesso obiettivo.

Dato un prompt testuale, l'ottimizzazione dei prompt software in genere aggiunge ulteriori incorporamenti di token al prompt e utilizza la retropropagazione dell'input per ottimizzare l'input.

Un prompt "hard" contiene token effettivi invece di incorporamenti di token.

elemento sparso

#language

#fundamentals

Una feature i cui valori sono prevalentemente zero o vuoti. Ad esempio, una caratteristica che contiene un singolo valore 1 e un milione di valori 0 è scarsa. Al contrario, una caratteristica densa ha valori che non sono prevalentemente zero o vuoti.

Nel machine learning, un numero sorprendente di caratteristiche sono sparse. Le caratteristiche categoriche sono in genere caratteristiche sparse. Ad esempio, delle 300 possibili specie di alberi in una foresta, un singolo esempio potrebbe identificare solo un acero. Oppure, tra i milioni di video possibili in una raccolta video, un singolo esempio potrebbe identificare solo "Casablanca".

In un modello, in genere rappresenti caratteristiche sparse con codifica one-hot. Se la codifica one-hot è di grandi dimensioni, potresti aggiungere un livello di incorporamento oltre alla codifica one-hot per una maggiore efficienza.

rappresentazione sparsa

#language

#fundamentals

Memorizzazione solo delle posizioni degli elementi diversi da zero in una caratteristica sparsa.

Ad esempio, supponiamo che un elemento di categoria denominato species identifichi le 36 specie di alberi in una determinata foresta. Supponiamo inoltre che ogni esempio identifichi solo una singola specie.

Puoi utilizzare un vettore one-hot per rappresentare le specie degli alberi in ciascun esempio. Un vettore one-hot contiene un singolo elemento 1 (per rappresentare le specie di alberi in questione nell'esempio) e 35 0 (per rappresentare le 35 specie di alberi non presenti in quell'esempio). Di conseguenza, la rappresentazione one-hot di maple potrebbe avere il seguente aspetto:

Vettore in cui le posizioni da 0 a 23 contengono il valore 0, la posizione 24 contiene il valore 1 e le posizioni da 25 a 35 contengono il valore 0.

In alternativa, la rappresentazione sparsa identificherebbe semplicemente la posizione della specifica specie. Se maple si trova nella posizione 24, la rappresentazione sparsa di maple sarebbe semplicemente:

Nota che la rappresentazione sparsa è molto più compatta rispetto alla rappresentazione one-hot.

Fai clic sull'icona per un esempio leggermente più complesso.

Supponiamo che ogni esempio nel modello debba rappresentare le parole, ma non l'ordine di tali parole, in una frase inglese. L'inglese è composto da circa 170.000 parole, quindi è una funzionalità categorica con circa 170.000 elementi. La maggior parte delle frasi inglesi utilizza una porzione molto ridotta di queste 170.000 parole, quindi l'insieme di parole di un singolo esempio sarà quasi certamente dati sparsi.

Considera la seguente frase:

My dog is a great dog

Potresti utilizzare una variante del vettore one-hot per rappresentare le parole in questa frase. In questa variante, più celle del vettore possono contenere un valore diverso da zero. Inoltre, in questa variante, una cella può contenere un numero intero diverso da uno. Anche se le parole "mio", "è", "a" e "grande" compaiono solo una volta nella frase, la parola "cane" appare due volte. L'uso di questa variante dei vettori one-hot per rappresentare le parole in questa frase restituisce il seguente vettore di 170.000 elementi:

Una rappresentazione sparsa della stessa frase sarebbe semplicemente:

Fai clic sull'icona in caso di confusione.

Il termine "rappresentazione sparsa" confonde molte persone, perché la rappresentazione sparsa di per sé non è un vettore sparso. Piuttosto, la rappresentazione sparsa è in realtà una rappresentazione densa di un vettore sparso. Il sinonimo rappresentazione dell'indice è un po' più chiaro di "rappresentazione rara".

vettore sparso

#fundamentals

Un vettore i cui valori sono per lo più zeri. Vedi anche funzionalità scarse e sparsità.

sparsità

Il numero di elementi impostati su zero (o nulli) in un vettore o una matrice diviso per il numero totale di voci in tale vettore o matrice. Ad esempio, considera una matrice di 100 elementi in cui 98 celle contengono zero. Il calcolo della sparsità è il seguente:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La sparsità delle caratteristiche si riferisce alla sparsità di un vettore di caratteristiche; la sparsità del modello si riferisce alla sparsità delle ponderazioni del modello.

pooling spaziale

#image

Consulta la sezione pooling.

split

#df

In un albero decisionale, un altro nome per una condizione.

divisore

#df

Durante l'addestramento di un albero decisionale, la routine (e l'algoritmo) responsabili della ricerca della condizione migliore in ogni nodo.

SPMD

Abbreviazione di programma singolo / dati multipli.

perdita della cerniera quadrata

Il quadrato della perdita della cerniera. La perdita di cerniere quadrate penalizza le anomalie in modo più grave rispetto alla perdita di cardini standard.

perdita al quadrato

#fundamentals

Sinonimo di perdita L₂.

addestramento graduale

#language

Tattica di addestramento di un modello in una sequenza di fasi discrete. L'obiettivo può essere accelerare il processo di addestramento o ottenere una migliore qualità del modello.

Di seguito è riportata un'illustrazione dell'approccio di stack progressivo:

La fase 1 contiene 3 livelli nascosti, la fase 2 contiene 6 livelli nascosti e la fase 3 contiene 12 livelli nascosti.
La fase 2 inizia l'addestramento con i pesi appresi nei 3 livelli nascosti della fase 1. La fase 3 inizia l'addestramento con i pesi appresi nei 6 livelli nascosti della fase 2.

Tre fasi, etichettate come Fase 1, Fase 2 e Fase 3.
Ogni fase contiene un numero diverso di livelli: la fase 1 contiene 3 livelli, la fase 2 ha 6 livelli e la fase 3 ne contiene 12.
I 3 livelli della Fase 1 diventano i primi 3 strati della Fase 2.
Analogamente, i sei livelli della fase 2 diventano i primi sei della fase 3.

Vedi anche pipeline.

state

#fundamentals

Un algoritmo di discesa del gradiente in cui la dimensione del batch è uno. In altre parole, SGD si addestra su un singolo esempio scelto in modo uniforme a caso da un set di addestramento.

stride

#image

In un'operazione convoluzionale o un pooling, il delta in ogni dimensione della prossima serie di sezioni di input. Ad esempio, l'animazione seguente mostra un passo (1,1) durante un'operazione convoluzionale. Di conseguenza, la sezione di input successiva inizia una posizione a destra della sezione di input precedente. Quando l'operazione raggiunge il bordo destro, la sezione successiva è completamente a sinistra, ma una posizione verso il basso.

L'esempio precedente mostra un passo bidimensionale. Se la matrice di input è tridimensionale, anche il passo sarà tridimensionale.

minimizzazione del rischio strutturale (SRM)

Un algoritmo che bilancia due obiettivi:

La necessità di creare il modello più predittivo (ad esempio, la perdita più bassa).
La necessità di mantenere il modello il più semplice possibile (ad esempio, regolarizzazione efficace).

Ad esempio, una funzione che riduce al minimo la perdita e la regolarizzazione nel set di addestramento è un algoritmo di minimizzazione del rischio strutturale.

Sono invece al contrario della minimizzazione del rischio empirico.

sottocampionamento

#image

Consulta la sezione pooling.

token della sottoparola

#language

Nei modelli linguistici, un token costituito da una sottostringa di una parola, che può essere l'intera parola.

Ad esempio, una parola come "itemize" potrebbe essere scomposta nei pezzi "item" (una radice) e "ize" (un suffisso), ognuno dei quali è rappresentato da un proprio token. La suddivisione di parole insolite in tali parti, chiamate sottoparole, consente ai modelli linguistici di operare sulle parti più comuni della parola, come prefissi e suffissi.

Al contrario, parole comuni come "andare" potrebbero non essere suddivise e potrebbero essere rappresentate da un singolo token.

riassunto

#TensorFlow

In TensorFlow, un valore o un insieme di valori calcolato in un determinato passaggio, solitamente utilizzato per monitorare le metriche del modello durante l'addestramento.

machine learning supervisionato

#fundamentals

Addestramento di un model utilizzando le model e le relative model. Il machine learning supervisionato è analogo all'apprendimento di una materia mediante lo studio di una serie di domande e delle risposte corrispondenti. Dopo aver imparato la mappatura tra domande e risposte, uno studente può fornire risposte a nuove domande (mai viste prima) sullo stesso argomento.

Confronta con il machine learning non supervisionato.

funzionalità sintetica

#fundamentals

Una funzionalità non presente tra le caratteristiche di input, ma combinata da una o più di esse. I metodi per creare caratteristiche sintetiche includono quanto segue:

Bucket una funzionalità continua in fasce di intervalli.
Creazione di un incrocio di caratteristiche.
Moltiplicare (o dividere) un valore di ciascuna caratteristica per altri valori o per se stesso. Ad esempio, se a e b sono funzionalità di input, di seguito sono riportati alcuni esempi di funzionalità sintetiche:
- ab
- ²
Applicazione di una funzione trascendentale a un valore dell'elemento. Ad esempio, se c è una funzionalità di input, di seguito sono riportati alcuni esempi di caratteristiche sintetiche:
- sin(c)
- ln(c)

Le funzionalità create solo tramite la normalizzazione o la scalabilità non sono considerate funzionalità sintetiche.

T

T5

#language

Un modello di Transfer Learning da testo a testo introdotto dall' IA di Google nel 2020. T5 è un modello encoder-decoder basato sull'architettura Transformer, addestrato su un set di dati di dimensioni estremamente grandi. Si tratta di una soluzione efficace per varie attività di elaborazione del linguaggio naturale, come la generazione di testo, la traduzione di lingue e la risposta alle domande in modo conversazionale.

Il T5 prende il nome dalle cinque T di "Text-to-Text Transfer Transformer".

T5X

#language

Un framework di machine learning open source progettato per creare e addestrare modelli di elaborazione del linguaggio naturale (NLP) su larga scala. T5 è implementato sul codebase T5X (che è costruito su JAX e Flax).

Q-learning tabulare

#rl

Nell'apprendimento per rinforzo, l'implementazione di Q-learning mediante l'uso di una tabella per archiviare le funzioni Q per ogni combinazione di stato e azione.

target

Sinonimo di etichetta.

rete target

#rl

In Deep Q-learning, una rete neurale che rappresenta un'approssimazione stabile della rete neurale principale, in cui la rete neurale principale implementa una funzione Q o un criterio. Quindi, puoi addestrare la rete principale sui valori Q previsti dalla rete target. Di conseguenza, eviti il ciclo di feedback che si verifica quando la rete principale viene addestrata sui valori Q previsti da sé. Evitando questo feedback, la stabilità dell'addestramento aumenta.

attività

Un problema che può essere risolto utilizzando tecniche di machine learning, come ad esempio:

classificazione
regressione
clustering
rilevamento di anomalie

temperatura

#language

#image

#IAgenerativa

Un iperparametro che controlla il grado di casualità dell'output di un modello. Temperature più alte comportano output più casuali, mentre temperature più basse generano output meno casuali.

La scelta della temperatura migliore dipende dall'applicazione specifica e dalle proprietà preferite dell'output del modello. Ad esempio, probabilmente alzi la temperatura quando crei un'applicazione che genera un output di creatività. Al contrario, probabilmente abbassiresti la temperatura quando crei un modello che classifica immagini o testo per migliorarne accuratezza e coerenza.

#TensorFlow

Il numero totale di scalari contenuti in Tensor. Ad esempio, un Tensor [5, 10] ha una dimensione di 50.

TensorStore

Una libreria per leggere e scrivere in modo efficiente array multidimensionali.

condizione di risoluzione

#rl

Nell'apprendimento per rinforzo, le condizioni che determinano quando termina una puntata, ad esempio quando l'agente raggiunge un determinato stato o supera una determinata soglia di transizioni di stato. Ad esempio, in tris consecutivi, un episodio termina quando un giocatore segna tre spazi consecutivi o segna tutti gli spazi.

test

#df

In un albero decisionale, un altro nome per una condizione.

perdita di prova

#fundamentals

Una metrica che rappresenta la perdita di un modello rispetto al set di test. Quando si crea un model, di solito provi a ridurre al minimo la perdita di test. Questo perché una bassa perdita di test è un segnale di qualità più forte rispetto a una perdita di addestramento bassa o una perdita di convalida bassa.

Un ampio divario tra la perdita di test e la perdita di addestramento o la perdita di convalida a volte indica che è necessario aumentare il tasso di regolarizzazione.

set di test

Un sottoinsieme del set di dati riservato ai test di un modello addestrato.

Tradizionalmente, suddividi gli esempi nel set di dati nei seguenti tre sottoinsiemi distinti:

un set di addestramento
un insieme di convalida
un set di test

Ogni esempio in un set di dati deve appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di test.

Il set di addestramento e il set di convalida sono entrambi strettamente collegati all'addestramento di un modello. Poiché il set di test è associato solo indirettamente all'addestramento, la perdita del test è una metrica di qualità superiore e meno distorta rispetto alla perdita di addestramento o alla perdita di convalida.

intervallo di testo

#language

L'intervallo dell'indice dell'array associato a una sottosezione specifica di una stringa di testo. Ad esempio, la parola good nella stringa Python s="Be good now" occupa l'intervallo di testo da 3 a 6.

tf.Example

#TensorFlow

Un buffer di protocollo standard per descrivere i dati di input per l'addestramento o l'inferenza del modello di machine learning.

tf.keras

#TensorFlow

Un'implementazione di Keras integrato in TensorFlow.

soglia (per gli alberi decisionali)

#df

In una condizione allineata all'asse, il valore con cui viene confrontata una funzionalità. Ad esempio, 75 è il valore di soglia nella seguente condizione:

grade >= 75

analisi delle serie temporali

#clustering

Un campo secondario del machine learning e delle statistiche che analizza i dati temporali. Molti tipi di problemi di machine learning richiedono l'analisi di serie temporali, tra cui classificazione, clustering, previsione e rilevamento di anomalie. Ad esempio, puoi utilizzare l'analisi delle serie temporali per prevedere le vendite future di cappotti invernali per mese in base ai dati di vendita storici.

passo temporale

#seq

Una cella "srotolata" all'interno di una rete neurale ricorrente. Ad esempio, la figura seguente mostra tre passaggi temporali (etichettati con i pedici t-1, t e t+1):

Tre passaggi temporali in una rete neurale ricorrente. L'output del primo passo temporale diventa input per il secondo passo temporale. L'output del secondo passo temporale diventa input per il terzo passo temporale.

token

#language

In un modello linguistico, l'unità atomica su cui il modello viene addestrato e su cui esegue previsioni. Un token è in genere uno dei seguenti:

Una parola, ad esempio la frase "cani come i gatti" è composta da tre token di parola: "cani", "mi piace" e "gatti".
un carattere, ad esempio la frase "pesce bicicletta" è composta da nove token di caratteri. Tieni presente che lo spazio vuoto viene considerato come uno dei token.
in cui una singola parola può essere un singolo token o più token. Una sottoparola è composta da una parola radice, un prefisso o un suffisso. Ad esempio, un modello linguistico che utilizza parole secondarie come token potrebbe visualizzare la parola "cani" come due token (la parola radice "cane" e il suffisso plurale "s"). Lo stesso modello linguistico potrebbe considerare la singola parola "più alta" come due sottoparole (la parola radice "tall" e il suffisso "er").

#fundamentals

Il processo di determinazione dei parametri (ponderazioni e bias) ideali che comprendono un modello. Durante l'addestramento, un sistema legge gli esempi e regola gradualmente i parametri. L'addestramento utilizza ogni esempio da un paio di volte a miliardi di volte.

perdita di addestramento

#fundamentals

Una metrica che rappresenta la perdita di un modello durante una specifica iterazione di addestramento. Ad esempio, supponiamo che la funzione di perdita sia Errore quadratico medio. Forse la perdita di addestramento (errore quadratico medio) per la decima iterazione è 2,2, mentre la perdita di addestramento per la 100° iterazione è 1,9.

Una curva di perdita traccia la perdita di addestramento rispetto al numero di iterazioni. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:

Una pendenza verso il basso indica che il modello è in miglioramento.
Un'inclinazione verso l'alto indica che il modello sta peggiorando.
Una pendenza piatta implica che il modello ha raggiunto la convergenza.

Ad esempio, la seguente curva di perdita in qualche modo idealizzata mostra:

Una ripida pendenza verso il basso durante le iterazioni iniziali, il che implica un rapido miglioramento del modello.
Un pendenza che si appiattisce gradualmente (ma ancora verso il basso) fino alla fine dell'addestramento, il che implica un miglioramento continuo del modello a un ritmo leggermente più lento rispetto alle iterazioni iniziali.
Una pendenza piatta verso la fine dell'addestramento, che suggerisce una convergenza.

Il grafico della perdita di addestramento rispetto alle iterazioni. Questa curva di perdita inizia con una ripida pendenza. La pendenza si appiattisce gradualmente fino a quando non diventa zero.

Sebbene la perdita di addestramento sia importante, consulta anche la generalizzazione.

disallineamento addestramento/produzione

#fundamentals

La differenza tra le prestazioni di un modello durante l'addestramento e quelle dello stesso modello durante la pubblicazione.

set di addestramento

#fundamentals

Il sottoinsieme del set di dati utilizzato per addestrare un modello.

Tradizionalmente, gli esempi nel set di dati sono suddivisi nei seguenti tre sottoinsiemi distinti:

un set di addestramento
un insieme di convalida
Un set di test

Idealmente, ogni esempio nel set di dati dovrebbe appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere al set di addestramento e a quello di convalida.

traiettoria

#rl

Nell'apprendimento per rinforzo, una sequenza di tuple che rappresenta una sequenza di transizioni di stato dell'agente, in cui ogni tupla corrisponde allo stato, a azione, a ricompensa e allo stato successivo per una determinata transizione di stato.

Transfer Learning

Trasferimento di informazioni da un'attività di machine learning a un'altra. Ad esempio, nell'apprendimento multi-tasking, un singolo modello risolve più attività, come un modello profondo con nodi di output diversi per attività diverse. Transfer Learning può comportare il trasferimento di conoscenze dalla soluzione di un'attività più semplice a una più complessa oppure il trasferimento di conoscenze da un'attività in cui i dati sono più numerosi a una in cui ce ne sono meno.

La maggior parte dei sistemi di machine learning risolve una singola attività. Transfer Learning è un piccolo passo verso l'intelligenza artificiale in cui un singolo programma può risolvere più attività.

Transformer

#language

Un'architettura di rete neurale sviluppata da Google che si basa sui meccanismi di auto-attenzione per trasformare una sequenza di incorporamenti di input in una sequenza di incorporamenti di output senza fare affidamento su convoluzioni o reti neurali ricorrenti. Un Transformer può essere visto come una pila di livelli di auto-attenzione.

Un trasformatore può includere uno qualsiasi dei seguenti elementi:

un encoder
un decoder
sia encoder che decoder

Un encoder trasforma una sequenza di incorporamenti in una nuova sequenza della stessa lunghezza. Un encoder include N livelli identici, ognuno dei quali contiene due sottolivelli. Questi due sottolivelli vengono applicati in ciascuna posizione della sequenza di incorporamento dell'input, trasformando ogni elemento della sequenza in un nuovo processo di incorporamento. Il primo sottolivello dell'encoder aggrega informazioni provenienti da tutta la sequenza di input. Il secondo sottolivello dell'encoder trasforma le informazioni aggregate in un incorporamento di output.

Un decoder trasforma una sequenza di incorporamenti di input in una sequenza di incorporamenti di output, possibilmente con una lunghezza diversa. Un decoder include anche N livelli identici con tre sottolivelli, due dei quali sono simili ai sottolivelli dell'encoder. Il terzo sottolivello decoder prende l'output dell'encoder e applica il meccanismo di auto-attenzione per raccoglierne informazioni.

Il post del blog Transformer: una nuova architettura di rete neurale per la comprensione del linguaggio offre un'ottima introduzione ai trasformatori.

invarianza di traduzione

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando la posizione degli oggetti all'interno dell'immagine cambia. Ad esempio, l'algoritmo è in grado di identificare comunque un cane, sia che si trovi al centro del frame o all'estremità sinistra del frame.

Vedi anche invarianza delle dimensioni e invarianza rotazionale.

trigramma

#seq

#fundamentals

Generare un model con scarsa capacità predittiva perché il modello non ha acquisito completamente la complessità dei dati di addestramento. Molti problemi possono causare un overfitting, tra cui:

Addestramento sul set di funzionalità sbagliato.
Addestramento per un numero troppo basso di epoche o con un tasso di apprendimento troppo basso.
Formazione con un tasso di regolarizzazione troppo elevato.
Forniscono un numero insufficiente di livelli nascosti in una rete neurale profonda.

sottocampionamento

Rimozione di esempi dalla classe di maggioranza in un set di dati non bilanciato in base alla classe per creare un set di addestramento più bilanciato.

Ad esempio, considera un set di dati in cui il rapporto tra la classe maggioritaria e la classe di minoranza è 20:1. Per risolvere questo squilibrio della classe, puoi creare un set di addestramento composto da tutti gli esempi di classi di minoranza ma solo un decimo degli esempi di maggioranza, creando così un rapporto delle classi impostato su 2:1. Grazie al sottocampionamento, questo set di addestramento più bilanciato potrebbe produrre un modello migliore. In alternativa, questo set di addestramento più bilanciato potrebbe contenere esempi insufficienti per addestrare un modello efficace.

Sono invece opposti al campionamento eccessivo.

unidirezionale

#language

Un sistema che valuta solo il testo che precede una sezione di testo target. Al contrario, un sistema bidirezionale valuta sia il testo che precede e segue una sezione target del testo. Per ulteriori dettagli, consulta la sezione bidirezionale.

modello linguistico unidirezionale

#language

Un modello linguistico che basa le sue probabilità solo sui token che compaiono prima e non dopo i token di destinazione. Sono invece opposti al modello linguistico bidirezionale.

esempio senza etichetta

#fundamentals

Un esempio che contiene le funzionalità ma nessuna etichetta. Ad esempio, la tabella seguente mostra tre esempi senza etichetta di un modello di valutazione delle abitazioni, ciascuno con tre caratteristiche ma nessun valore della casa:

Numero di camere	Numero di bagni	Età della famiglia
3	2	15
2	1	72
4	2	34

Nel machine learning supervisionato, i modelli vengono addestrati sulla base di esempi etichettati ed eseguire previsioni su esempi non etichettati.

Nell'apprendimento semi-supervisionato e non supervisionato, vengono utilizzati esempi non etichettati durante l'addestramento.

Contrasta l'esempio senza etichetta con l'esempio etichettato.

machine learning non supervisionato

#clustering

#fundamentals

Addestramento di un model per trovare pattern in un set di dati, in genere un set di dati non etichettato.

L'uso più comune del machine learning non supervisionato è clustering i dati in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato è in grado di raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare un input per altri algoritmi di machine learning (ad esempio, per un servizio di suggerimenti musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini quali anti-abuso e attività fraudolenta, i cluster possono aiutare gli esseri umani a comprendere meglio i dati.

Sono invece a confronto con il machine learning con supervisione.

Fai clic sull'icona per le note aggiuntive.

Un altro esempio di machine learning non supervisionato è l'analisi delle componenti principali (PCA). Ad esempio, l'applicazione di PCA a un set di dati contenente il contenuto di milioni di carrelli degli acquisti potrebbe rivelare che i carrelli degli acquisti contenenti limoni spesso contengono anche antiacidi.

modellazione dell'incremento

Una tecnica di modellazione, comunemente utilizzata nel marketing, che modella l'"effetto causale" (noto anche come "impatto incrementale") di un "trattamento" su un "individuo". Ecco due esempi:

I medici possono utilizzare modelli di incremento per prevedere la diminuzione della mortalità (effetto causale) di una procedura medica (trattamento) a seconda dell'età e dell'anamnesi di un paziente (individuo).
I professionisti del marketing potrebbero utilizzare la modellazione dell'incremento per prevedere l'aumento della probabilità di un acquisto (effetto causale) dovuto a una pubblicità (sperimentale) su una persona (individuo).

La definizione del modello di incremento differisce dalla classificazione o dalla regressione per il fatto che alcune etichette (ad es. la metà dei trattamenti binari) mancano sempre nella definizione del modello di incremento. Ad esempio, un paziente può ricevere o non ricevere un trattamento; pertanto, possiamo solo osservare se il paziente guarirà o meno solo in una di queste due situazioni (ma mai in entrambe). Il vantaggio principale di un modello di incremento è che può generare previsioni per la situazione non osservata (quella controfattuale) e utilizzarla per calcolare l'effetto causale.

sollevamento pesi

Applicazione di una ponderazione alla classe sottocampionata uguale al fattore per cui hai eseguito il sottocampionamento.

matrice utente

#recsystems

Nei sistemi di suggerimenti, un vettore di incorporamento generato dalla fattorizzazione matriciale contenente indicatori latenti sulle preferenze dell'utente. Ogni riga della matrice utente contiene informazioni sulla potenza relativa di vari indicatori latenti per un singolo utente. Ad esempio, prendi in considerazione un sistema di consigli sui film. In questo sistema, gli indicatori latenti nella matrice utenti potrebbero rappresentare l'interesse di ciascun utente in determinati generi oppure essere indicatori più difficili da interpretare che implicano interazioni complesse tra più fattori.

La matrice utente ha una colonna per ogni funzionalità latente e una riga per ogni utente. In altre parole, la matrice utente ha lo stesso numero di righe della matrice target che viene fattorizzata. Ad esempio, se viene fornito un sistema di suggerimenti sui film per 1.000.000 di utenti, la matrice utente avrà 1.000.000 di righe.

V

validation

#fundamentals

La valutazione iniziale della qualità di un modello. La convalida verifica la qualità delle previsioni di un modello in base al set di convalida.

Poiché il set di convalida è diverso dal set di addestramento, la convalida aiuta a evitare l'overfitting.

Potrebbe essere considerata la valutazione del modello in base al set di convalida come prima fase di test e la valutazione del modello in base al set di test come seconda fase di test.

perdita di convalida

#fundamentals

Una metrica che rappresenta la perdita di un modello nel set di convalida durante una particolare iterazione di addestramento.

Vedi anche curva di generalizzazione.

set di convalida

#fundamentals

Il sottoinsieme del set di dati che esegue la valutazione iniziale rispetto a un modello addestrato. In genere, il modello addestrato viene valutato diverse volte rispetto al set di convalida prima di valutare il modello in base al set di test.

Tradizionalmente, dividi gli esempi nel set di dati nei seguenti tre sottoinsiemi distinti:

un set di addestramento
un set di convalida
Un set di test

assegnazione del valore

Il processo di sostituzione di un valore mancante con un sostituto accettabile. Quando manca un valore, puoi ignorare l'intero esempio o utilizzare l'attribuzione del valore per salvare l'esempio.

Ad esempio, considera un set di dati contenente una funzionalità temperature che dovrebbe essere registrata ogni ora. Tuttavia, la lettura della temperatura non era disponibile per un'ora specifica. Ecco una sezione del set di dati:

Timestamp	Temperatura
1680561000	10
1680564600	12
1680568200	mancante
1680571800	20
1680575400	21
1680579000	21

Un sistema potrebbe eliminare l'esempio mancante o attribuire la temperatura mancante a 12, 16, 18 o 20, a seconda dell'algoritmo di assegnazione.

problema di gradiente che svanisce

#seq

La tendenza a rendere sorprendentemente piatta (bassa) i gradienti dei primi livelli nascosti di alcune reti neurali profonde. Gradienti sempre più bassi comportano modifiche sempre più piccole delle ponderazioni sui nodi di una rete neurale profonda, con conseguente basso o nessun apprendimento. I modelli con problemi di gradiente diminuito diventano difficili o impossibili da addestrare. Le celle della memoria a breve termine risolvono questo problema.

Confrontalo con il problema di gradiente che esplode.

importanza delle variabili

#df

Un insieme di punteggi che indica l'importanza relativa di ogni funzionalità per il modello.

Ad esempio, prendiamo in considerazione un albero decisionale che stima i prezzi delle case. Supponiamo che questo albero decisionale utilizzi tre caratteristiche: dimensione, età e stile. Se si calcola che un insieme di importanza delle variabili per le tre caratteristiche sia {size=5.8, age=2.5, style=4.7}, la dimensione è più importante per l'albero decisionale dell'età o dello stile.

Esistono metriche di importanza variabile diverse, che possono informare gli esperti di ML sui diversi aspetti dei modelli.

Autoencoder variazionale (VAE)

#language

Un tipo di encoder automatico che sfrutta la discrepanza tra input e output per generare versioni modificate degli input. Gli autoencoder variazionali sono utili per l'IA generativa.

Le VAE si basano sull'inferenza variazionale, una tecnica per stimare i parametri di un modello di probabilità.

vettoriale

Termine molto sovraccarico il cui significato varia a seconda di campi matematici e scientifici. Nel machine learning, un vettore ha due proprietà:

Tipo di dati: i vettori nel machine learning di solito contengono numeri in virgola mobile.
Numero di elementi: indica la lunghezza del vettore o la sua dimensione.

Ad esempio, considera un vettore di caratteristiche contenente otto numeri in virgola mobile. Questo vettore di caratteristiche ha una lunghezza o una dimensione di otto. Tieni presente che i vettori del machine learning hanno spesso un numero elevato di dimensioni.

Puoi rappresentare molti tipi diversi di informazioni come vettore. Ad esempio:

Qualsiasi posizione sulla superficie della Terra può essere rappresentata come un vettore bidimensionale, dove una dimensione è la latitudine e l'altra la longitudine.
I prezzi attuali di ciascuna delle 500 azioni possono essere rappresentati come un vettore di 500 dimensioni.
Una distribuzione di probabilità su un numero finito di classi può essere rappresentata come vettore. Ad esempio, un sistema di classificazione multiclasse che prevede uno dei tre colori di output (rosso, verde o giallo) potrebbe restituire il vettore (0.3, 0.2, 0.5) nel significato di P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

I vettori possono essere concatenati, pertanto una varietà di media diversi può essere rappresentata come un singolo vettore. Alcuni modelli operano direttamente sulla concatenazione di molte codifiche one-hot.

Processori specializzati come le TPU sono ottimizzati per eseguire operazioni matematiche sui vettori.

Un vettore è un tensore di ranking 1.

M

Perdita Wasserstein

Una delle funzioni di perdita comunemente utilizzate nelle reti generative avversarie, basata sulla distanza dei traslocatori terrestri tra la distribuzione dei dati generati e quelli reali.

weight

#fundamentals

Il valore che un modello moltiplica per un altro valore. L'addestramento è il processo di determinazione dei pesi ideali di un modello; l'inferenza è il processo di utilizzo dei pesi appresi per fare previsioni.

Fai clic sull'icona per visualizzare un esempio di ponderazioni in un modello lineare.

Immagina un modello lineare con due caratteristiche. Supponiamo che l'addestramento determini i seguenti pesi (e bias):

La bias (b) ha un valore pari a 2,2.
La ponderazione (w₁) associata a una funzionalità è 1, 5.
La ponderazione, w₂ associata all'altra funzionalità, è 0,4.

Ora immagina un esempio con i seguenti valori delle caratteristiche:

Il valore di una caratteristica, x₁, è 6.
Il valore dell'altra caratteristica, x₂, è 10.

Questo modello lineare utilizza la seguente formula per generare una previsione, y':

$$y' = b + w_1x_1 + w_2x_2$$

Pertanto, la previsione è:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Se una ponderazione è pari a 0, la caratteristica corrispondente non contribuisce al modello. Ad esempio, se w₁ è 0, il valore di x₁ non è pertinente.

Minimo quadrati alternati ponderati (WALS)

#recsystems

Un algoritmo per ridurre al minimo la funzione obiettivo durante la scomposizione matriciale nei sistemi di suggerimenti, che consente una riduzione della ponderazione degli esempi mancanti. WALS riduce al minimo l'errore quadrato ponderato tra la matrice originale e la ricostruzione alternando la correzione della fattorizzazione delle righe e la fattorizzazione della colonna. Ognuna di queste ottimizzazioni può essere risolta mediante l'ottimizzazione convessa dei minimi quadrati. Per maggiori dettagli, consulta il corso sui sistemi di suggerimenti.

somma ponderata

#fundamentals

La somma di tutti i valori di input pertinenti moltiplicata per le ponderazioni corrispondenti. Ad esempio, supponiamo che gli input pertinenti siano i seguenti:

valore di input	peso inserito
2	-1,3
-1	0.6
3	0.4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una somma ponderata è l'argomento di input di una funzione di attivazione.

modello largo

Un modello lineare che in genere ha molte caratteristiche di input scarse. Lo definiamo "wide" poiché un modello di questo tipo è un tipo speciale di rete neurale con un numero elevato di input che si connettono direttamente al nodo di output. Spesso il debug e l'ispezione dei modelli larghi sono più semplici rispetto ai modelli avanzati. Sebbene i modelli larghi non possano esprimere non linearità tramite livelli nascosti, i modelli ampi possono utilizzare trasformazioni come l'incrocio di caratteristiche e la bucketizzazione per modellare le non linearità in modi diversi.

Sono in contrasto con il modello profondo.

larghezza

Il numero di neuroni in un determinato livello di una rete neurale.

saggezza della folla

#df

L'idea che la media delle opinioni o delle stime di un grande gruppo di persone ("la folla") spesso produce risultati sorprendentemente positivi. Ad esempio, un gioco consiste nel indovinare il numero di caramelle gommose in un barattolo grande. Anche se la maggior parte delle singole supposizioni non sarà accurata, è stato dimostrato empiricamente che la media di tutte le ipotesi è sorprendentemente vicina al numero effettivo di jelly bean nel barattolo.

Gli ensemble sono un analogo software della saggezza del pubblico. Anche se i singoli modelli fanno previsioni molto imprecise, la media delle previsioni di molti modelli genera spesso previsioni sorprendentemente valide. Ad esempio, anche se un singolo albero decisionale potrebbe generare previsioni scadenti, un bosco decisionale spesso è in grado di fornire previsioni molto efficaci.

incorporamento di parole

#language

Rappresentare ogni parola in un insieme di parole all'interno di un vettore di incorporamento, ovvero rappresentare ogni parola come un vettore di valori in virgola mobile compresi tra 0,0 e 1,0. Le parole con significati simili hanno rappresentazioni più simili rispetto a parole con significati diversi. Ad esempio, carote, sedali e cetrioli avranno tutte rappresentazioni relativamente simili, molto diverse da quelle di aeroplano, occhiali da sole e dentifricio.

X

XLA (Accelerated Linear Algebra)

Un compilatore di machine learning open source per GPU, CPU e acceleratori ML.

Il compilatore XLA prende modelli da framework ML popolari come PyTorch, TensorFlow e JAX e li ottimizza per l'esecuzione ad alte prestazioni su diverse piattaforme hardware, tra cui GPU, CPU e acceleratori ML.

Z

apprendimento zero-shot

Un tipo di addestramento di machine learning in cui il modello deduce una previsione per un'attività per la quale non è stato specificamente addestrato. In altre parole, al modello non vengono forniti esempi di addestramento specifici per l'attività, ma viene chiesto di eseguire un'inferenza per quell'attività.

prompt zero-shot

#language

#IAgenerativa

Un messaggio che non fornisce un esempio di come vuoi che risponda il modello linguistico di grandi dimensioni (LLM). Ad esempio:

Parti di un prompt	Note
`Qual è la valuta ufficiale del paese specificato?`	La domanda a cui vuoi che l'LLM risponda.
`India:`	La query effettiva.

Il modello linguistico di grandi dimensioni (LLM) potrebbe rispondere con una delle seguenti risposte:

Rupia
INR
₹
Rupia indiana
La rupia
Rupia indiana

Tutte le risposte sono corrette, anche se potresti preferire un formato particolare.

Confronta i prompt zero-shot con i seguenti termini:

Prompt one-shot
Prompt few-shot

Normalizzazione dello Z-Score

#fundamentals

Una tecnica di scalabilità che sostituisce un valore non elaborato di feature con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di questa caratteristica. Ad esempio, considera una caratteristica la cui media è 800 e la cui deviazione standard è 100. La tabella seguente mostra in che modo la normalizzazione del punteggio Z mapperebbe il valore non elaborato al relativo punteggio Z:

Valore non elaborato	Punteggio Z
800	0
950	+1,5
575	-2,25

Il modello di machine learning addestra quindi in base al punteggio Z per quella caratteristica, anziché ai valori non elaborati.