Glossario del machine learning: valutazione del linguaggio

Questa pagina contiene i termini del glossario di valutazione del linguaggio. Per tutti i termini del glossario, fai clic qui.

R

Attention,

#language

Meccanismo utilizzato in una rete neurale che indica l'importanza di una determinata parola o di una parte di una parola. L'attenzione comprime la quantità di informazioni di cui un modello ha bisogno per prevedere il token/la parola successiva. Un tipico meccanismo di attenzione potrebbe consistere in una somma ponderata su un insieme di input, in cui la peso per ogni input viene calcolata da un'altra parte della rete neurale.

Fai riferimento anche all'auto-attenzione e all'auto-attenzione multi-testa, che sono i componenti di base dei Transformer.

autoencoder

#language
#image

Un sistema che impara a estrarre le informazioni più importanti dall'input. Gli autoencoder sono una combinazione di un encoder e un decoder. Gli autoencoder si basano sulla seguente procedura in due passaggi:

  1. L'encoder mappa l'input a un formato (in genere) con perdita di dimensioni inferiori (intermedie).
  2. Il decoder crea una versione con perdita dell'input originale mappando il formato a dimensione inferiore al formato originale con dimensioni superiori.

Gli autoencoder vengono addestrati end-to-end facendo in modo che il decoder tenti di ricostruire il più possibile l'input originale dal formato intermedio del codificatore. Poiché il formato intermedio è più piccolo (dimensione inferiore) rispetto al formato originale, l'autoencoder è costretto ad apprendere quali informazioni nell'input sono essenziali e l'output non sarà perfettamente identico all'input.

Ad esempio:

  • Se i dati di input sono grafici, la copia non esatta sarebbe simile all'immagine originale, ma leggermente modificata. Forse la copia non esatta rimuove il rumore dalla grafica originale o riempie alcuni pixel mancanti.
  • Se i dati di input sono testo, un autoencoder genererà un nuovo testo che imita (ma non è identico) il testo originale.

Vedi anche autoencoder variabili.

modello autoregressivo

#language
#image
#generativaAI

Un model che deduce una previsione in base alle proprie previsioni precedenti. Ad esempio, i modelli linguistici autoregressivi prevedono il token successivo in base a quelli previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono autoregressivi.

Al contrario, i modelli di immagine basati su GAN di solito non sono autoregressivi poiché generano un'immagine in un singolo passaggio in avanti e non in passaggi iterativi. Tuttavia, alcuni modelli di generazione di immagini sono regressivi perché generano un'immagine in passaggi.

B

borsa di parole

#language

Una rappresentazione delle parole in una frase o in un passaggio, indipendentemente dall'ordine. Ad esempio, "bag of words" rappresenta le seguenti tre frasi in modo identico:

  • il cane che salta
  • salta il cane
  • cane che salta

Ogni parola è mappata a un indice in un vettore sparso, dove il vettore ha un indice per ogni parola del vocabolario. Ad esempio, la frase il cane che salta è mappata in un vettore di caratteristiche con valori diversi da zero nei tre indici corrispondenti alle parole the, cane e salti. Il valore diverso da zero può essere uno dei seguenti:

  • Il valore 1 per indicare la presenza di una parola.
  • Conteggio del numero di volte in cui una parola viene visualizzata nel sacchetto. Ad esempio, se la frase fosse il cane bordeaux è un cane con la pelliccia bordeaux, sia marrone che cane sarebbero rappresentati come 2, mentre le altre parole sarebbero rappresentate come 1.
  • Un altro valore, ad esempio il logaritmo del conteggio del numero di volte in cui una parola compare nel sacchetto.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Un'architettura del modello per la rappresentazione del testo. Un modello BERT addestrato può agire come parte di un modello più ampio per la classificazione del testo o altre attività di ML.

BERT ha le seguenti caratteristiche:

Le varianti di BERT includono:

Per una panoramica di BERT, consulta il documento Open Sourcing BERT: formazione preliminare all'avanguardia per l'elaborazione del linguaggio naturale.

bidirezionale

#language

Termine utilizzato per descrivere un sistema che valuta il testo che precede e segue una sezione di testo target. Al contrario, un sistema unidirezionale valuta solo il testo che precede una sezione di testo di destinazione.

Ad esempio, considera un modello linguistico mascherato che deve determinare le probabilità della parola o delle parole che rappresentano la sottolineatura nella seguente domanda:

Che cos'è _____ con te?

Un modello linguistico unidirezionale dovrebbe basare le sue probabilità solo sul contesto fornito dalle parole "Cosa", "è" e "il". Al contrario, un modello linguistico bidirezionale potrebbe anche ricavare contesto da "con" e "tu", il che potrebbe aiutare il modello a generare previsioni migliori.

modello linguistico bidirezionale

#language

Un modello linguistico che determina la probabilità che un determinato token sia presente in una determinata posizione in un estratto di testo in base al testo precedente e successivo.

bigram

#seq
#language

Un N-grammo in cui N=2.

BLEU (Bilingual Evaluation Understudy)

#language

Un punteggio compreso tra 0,0 e 1,0 inclusi, che indica la qualità di una traduzione tra due lingue umane (ad esempio, tra inglese e russo). Un punteggio BLEU pari a 1,0 indica una traduzione perfetta, mentre un punteggio BLEU pari a 0,0 indica una traduzione pessima.

C

modello linguistico causale

#language

Sinonimo di modello linguistico unidirezionale.

Consulta il modello linguistico bidirezionale per confrontare diversi approcci direzionali nella modellazione del linguaggio.

prompt di catena di pensiero

#language
#generativaAI

Una tecnica di ingegneria dei messaggi che incoraggia un modello linguistico di grandi dimensioni (LLM) a spiegarne il ragionamento passo dopo passo. Ad esempio, considera il seguente prompt, prestando particolare attenzione alla seconda frase:

Quante forze g un conducente sperimenterebbe in un'auto che va da 0 a 96 km orari in 7 secondi? Nella risposta, mostra tutti i calcoli pertinenti.

Probabilmente la risposta dell'LLM:

  • Mostra una sequenza di formule di fisica, inserendo i valori 0, 60 e 7 nei punti appropriati.
  • Spiega perché ha scelto queste formule e il significato delle varie variabili.

I prompt della catena di pensiero costringono l'LLM a eseguire tutti i calcoli, il che potrebbe portare a una risposta più corretta. Inoltre, la richiesta di informazioni a catena di pensiero consente all'utente di esaminare i passaggi dell'LLM per determinare se la risposta ha senso o meno.

analisi della circoscrizione

#language

Divisione di una frase in strutture grammaticali più piccole ("componenti"). Una parte successiva del sistema di ML, ad esempio un modello di comprensione del linguaggio naturale, può analizzare i componenti più facilmente rispetto alla frase originale. Ad esempio, considera la seguente frase:

Una mia amica ha adottato due gatti.

Un analizzatore sintattico di elettori può dividere questa frase in due componenti:

  • Il mio amico è una frase sostantiva.
  • adottato due gatti è una frase verbale.

Questi componenti possono essere ulteriormente suddivisi in componenti più piccoli. Ad esempio, la frase verbale

adottato due gatti

può essere ulteriormente suddiviso come:

  • adopted è un verbo.
  • due gatti è un'altra frase sostantiva.

Crash Blossom

#language

Una frase con un significato ambiguo. La fioritura degli arresti anomali rappresenta un problema significativo per la comprensione del linguaggio naturale. Ad esempio, il titolo Red Tape Holds Up Skyscraper è un fiore in fiore perché un modello NLU potrebbe interpretare il titolo alla lettera o in senso figurato.

D

decoder

#language

In generale, qualsiasi sistema di ML che converte da una rappresentazione elaborata, densa o interna a una rappresentazione più non elaborata, sparsa o esterna.

I decoder sono spesso componenti di un modello più grande, in cui sono spesso accoppiati a un encoder.

Nelle attività da sequenza a sequenza, un decoder inizia con lo stato interno generato dall'encoder per prevedere la sequenza successiva.

Consulta Transformer per la definizione di un decoder nell'architettura Transformer.

riduzione del rumore

#language

Un approccio comune all'apprendimento autonomo in cui:

  1. Il rumore viene aggiunto artificialmente al set di dati.
  2. Il model tenta di rimuovere il rumore.

La riduzione del rumore consente di apprendere da esempi senza etichetta. Il set di dati originale serve come target o etichetta e i dati disomogenei come input.

Alcuni modelli linguistici mascherati utilizzano la riduzione del rumore come segue:

  1. Il rumore viene aggiunto artificialmente a una frase senza etichetta mascherando alcuni token.
  2. Il modello tenta di prevedere i token originali.

prompt diretti

#language
#generativaAI

Sinonimo di zero-shot prompting.

E

modifica distanza

#language

Una misurazione del livello di somiglianza di due stringhe di testo. Nel machine learning, la modifica della distanza è utile perché è semplice e intuitivo da calcolare, nonché un modo efficace per confrontare due stringhe note per essere simili o per trovare stringhe simili a una determinata stringa.

Esistono diverse definizioni di modifica della distanza, ognuna delle quali utilizza operazioni delle stringhe diverse. Ad esempio, la distanza Levenshtein prende in considerazione il minor numero di operazioni di eliminazione, inserimento e sostituzione.

Ad esempio, la distanza in Levenshtein tra le parole "cuore" e "dardi" è pari a 3 perché le tre modifiche seguenti sono il minor numero di modifiche per trasformare una parola nell'altra:

  1. cuore → deart (sostituisci "h" con "d")
  2. deart → dart (elimina "e")
  3. dart → freccette (inserire "s")

strato di incorporamento

#language
#fundamentals

Uno speciale livello nascosto che si addestra su una funzionalità categorica ad alta dimensione per apprendere gradualmente un vettore di incorporamento di dimensioni inferiori. Un livello di incorporamento consente a una rete neurale di eseguire l'addestramento in modo molto più efficiente rispetto all'addestramento categorico ad alta dimensione.

Ad esempio, attualmente la Terra supporta circa 73.000 specie di alberi. Supponiamo che le specie di albero siano una funzionalità nel modello, quindi il livello di input del modello includa un vettore a caldo di 73.000 elementi. Ad esempio, baobab potrebbe essere rappresentato in modo simile al seguente:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore 0. L'elemento successivo contiene il valore 1. Gli ultimi 66.767 elementi contengono
     il valore zero.

Un array di 73.000 elementi è molto lungo. Se non aggiungi un livello di incorporamento al modello, l'addestramento richiederà molto tempo a causa della moltiplicazione di 72.999 zeri. Magari scegliete il livello di incorporamento in 12 dimensioni. Di conseguenza, lo strato di incorporamento apprenderà gradualmente un nuovo vettore di incorporamento per ogni specie di alberi.

In alcune situazioni, l'hashing è un'alternativa ragionevole a un livello di incorporamento.

spazio di incorporamento

#language

Lo spazio vettoriale d-dimensionale che compare in uno spazio vettoriale con una dimensione superiore viene mappato. Idealmente, lo spazio di incorporamento contiene una struttura che genera risultati matematici significativi; ad esempio, in uno spazio di incorporamento ideale, l'aggiunta e la sottrazione di incorporamenti possono risolvere attività di analogia delle parole.

Il prodotto punti di due incorporamenti è una misura della loro somiglianza.

vettore di incorporamento

#language

In generale, un array di numeri con virgola mobile tratti da qualsiasi livello nascosto che descrive gli input di quel livello nascosto. Spesso, un vettore di incorporamento è l'array di numeri a virgola mobile addestrati in uno strato di incorporamento. Ad esempio, supponiamo che un livello di incorporamento debba imparare un vettore di incorporamento per ognuna delle 73.000 specie di alberi sulla Terra. Forse il seguente array è il vettore di incorporamento per un baobab:

Un array di 12 elementi, ciascuno contenente un numero a virgola mobile compreso tra 0,0 e 1,0.

Un vettore di incorporamento non è un gruppo di numeri casuali. Un livello di incorporamento determina questi valori tramite l'addestramento, in modo simile al modo in cui una rete neurale apprende altri pesi durante l'addestramento. Ogni elemento dell'array è una valutazione lungo alcune caratteristiche di una specie di albero. Quale elemento rappresenta le caratteristiche di quale specie di alberi? È molto difficile da stabilire per gli esseri umani.

La parte matematicamente notevole di un vettore di incorporamento è che elementi simili hanno insiemi simili di numeri in virgola mobile. Ad esempio, le specie di alberi simili hanno un insieme più simile di numeri in virgola mobile rispetto a specie di alberi diverse. Le sequoie e le sequoie sono specie di alberi affini, quindi hanno una serie di numeri con estremità più simile a quella delle sequoie e delle palme da cocco. I numeri nel vettore di incorporamento cambieranno ogni volta che riaddestra il modello, anche se riaddestra il modello con un input identico.

codificatore

#language

In generale, qualsiasi sistema di ML che effettua la conversione da una rappresentazione non elaborata, sparsa o esterna a una rappresentazione più elaborata, più densa o interna.

Gli encoder sono spesso componenti di un modello più grande, in cui sono spesso accoppiati a un decoder. Alcuni Transformer accoppiano i codificatori ai decoder, mentre altri utilizzano solo l'encoder o solo il decoder.

Alcuni sistemi utilizzano l'output dell'encoder come input per una rete di classificazione o regressione.

Nelle attività da sequenza a sequenza, un codificatore prende una sequenza di input e restituisce uno stato interno (un vettore). Quindi, il decoder utilizza questo stato interno per prevedere la sequenza successiva.

Per la definizione di un encoder nell'architettura Transformer, consulta Transformer.

F

prompt few-shot

#language
#generativaAI

Una richiesta contenente più di un esempio (solo alcuni) che mostra come dovrebbe rispondere il modello linguistico di grandi dimensioni (Large Language Model). La seguente lunga richiesta contiene due esempi che mostrano come rispondere a una query in un modello linguistico di grandi dimensioni (LLM).

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
Francia: EUR Ecco un esempio.
Regno Unito: GBP Un altro esempio.
India: La query effettiva.

I prompt few-shot in genere producono risultati più desiderabili rispetto ai prompt zero-shot e ai prompt one-shot. Tuttavia, i prompt few-shot richiedono un prompt più lungo.

I prompt few-shot sono una forma di apprendimento few-shot applicata all'apprendimento basato su prompt.

Violino

#language

Una libreria di configurazione incentrata su Python che imposta i valori di funzioni e classi senza codice o infrastruttura invasivi. Nel caso di Pax e di altri codebase ML, queste funzioni e classi rappresentano gli modelli e gli iperparametri di addestramento .

Fiddle presuppone che i codebase del machine learning siano generalmente suddivisi in:

  • Codice libreria, che definisce i livelli e gli ottimizzatori.
  • Il codice "colla" del set di dati, che chiama le librerie e cabla tutto.

Fiddle acquisisce la struttura della chiamata del codice glue in una forma non valutata e modificabile.

messa a punto

#language
#image
#generativaAI

Un secondo pass per l'addestramento specifico per le attività eseguito su un modello preaddestrato per affinarne i parametri per un caso d'uso specifico. Ad esempio, la sequenza completa di addestramento per alcuni modelli linguistici di grandi dimensioni è la seguente:

  1. Pre-addestramento: addestra un modello linguistico di grandi dimensioni (LLM) su un vasto set di dati generale, ad esempio tutte le pagine di Wikipedia in lingua inglese.
  2. Perfezionamento: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio rispondere a domande mediche. Il perfezionamento richiede in genere centinaia o migliaia di esempi incentrati sull'attività specifica.

Come un altro esempio, la sequenza completa di addestramento per un modello con immagini di grandi dimensioni è la seguente:

  1. Pre-addestramento: addestra un modello di immagine di grandi dimensioni su un vasto set di dati di immagini generali, come tutte le immagini in Wikimedia Commons.
  2. Perfezionamento: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio la generazione di immagini di orche.

Il perfezionamento può prevedere qualsiasi combinazione delle seguenti strategie:

  • Modifica di tutti i parametri esistenti del modello preaddestrato. Questa operazione viene a volte chiamata ottimizzazione completa.
  • Modificare solo alcuni dei parametri esistenti del modello preaddestrato (in genere i livelli più vicini al livello di output), mantenendo invariati gli altri parametri esistenti (in genere i livelli più vicini al livello di input). Consulta la sezione Ottimizzazione efficiente dei parametri.
  • Aggiunta di più livelli, in genere sopra quelli esistenti più vicini al livello di output.

Il perfezionamento è una forma di apprendimento trasferito. Di conseguenza, il perfezionamento potrebbe utilizzare una funzione di perdita diversa o un tipo di modello diverso rispetto a quelli utilizzati per addestrare il modello preaddestrato. Ad esempio, potresti ottimizzare un modello di immagine di grandi dimensioni preaddestrato per produrre un modello di regressione che restituisce il numero di uccelli in un'immagine di input.

Confronta il perfezionamento con i seguenti termini:

Lino

#language

Una libreria open source ad alte prestazioni per il deep learning basata su JAX. Flax fornisce funzioni per l'addestramento delle reti neurali, nonché metodi per valutarne le prestazioni.

Flaxformer

#language

Una libreria Transformer open source, basata su Flax, progettata principalmente per l'elaborazione del linguaggio naturale e la ricerca multimodale.

G

l'IA generativa

#language
#image
#generativaAI

Un campo trasformativo emergente senza una definizione formale. Detto questo, la maggior parte degli esperti concorda sul fatto che i modelli di AI generativa possono creare ("generare") contenuti che soddisfano tutti i seguenti requisiti:

  • complesso
  • coerente
  • originale

Ad esempio, un modello di AI generativa può creare saggi o immagini sofisticati.

Anche alcune tecnologie precedenti, tra cui LSTM e RNN, possono generare contenuti originali e coerenti. Alcuni esperti considerano queste tecnologie precedenti come AI generativa, mentre altri ritengono che la vera AI generativa richieda risultati più complessi di quanto non sia possibile produrre con le tecnologie precedenti.

Contrasto con il ML predittivo.

GPT (trasformatore preaddestrato generativo)

#language

Una famiglia di Large Language Model basati su Transformer sviluppati da OpenAI.

Le varianti GPT possono essere applicate a più modalità, tra cui:

  • Generazione di immagini (ad es. ImageGPT)
  • da testo a immagine (ad esempio, DALL-E).

V

allucinazione

#language

La produzione di output plausibili ma di fatto errati da parte di un modello di AI generativa che dichiara di fare un'affermazione sul mondo reale. Ad esempio, un modello di AI generativa che sostiene che Barack Obama è morto nel 1865 è allucinante.

I

apprendimento contestuale

#language
#generativaAI

Sinonimo di few-shot prompting.

L

LaMDA (Language Model for Dialogue Applications)

#language

Un modello linguistico di grandi dimensioni basato su Transformer, sviluppato da Google e addestrato su un ampio set di dati delle conversazioni in grado di generare risposte di conversazione realistiche.

LaMDA: la nostra innovativa tecnologia di conversazione offre una panoramica.

modello linguistico

#language

Un model che stima la probabilità che un model o una sequenza di token si verifichino in una sequenza più lunga.

LLM (Large Language Model)

#language

Un termine informale senza una definizione rigorosa che di solito indica un modello linguistico con un numero elevato di parametri. Alcuni modelli linguistici di grandi dimensioni contengono oltre 100 miliardi di parametri.

L

con mascheramento linguistico

#language

Un modello linguistico che prevede la probabilità che i token dei candidati riempiano gli spazi vuoti in una sequenza. Ad esempio, un modello linguistico mascherato può calcolare le probabilità di una o più parole candidati per sostituire la sottolineatura nella seguente frase:

Il ____ nel cappello è tornato.

In letteratura viene utilizzata la stringa "MASK" invece di una sottolineatura. Ad esempio:

La "MASCHERA" nel cappello è tornata.

La maggior parte dei modelli linguistici mascherati moderni è bidirezionale.

meta-apprendimento

#language

Un sottoinsieme di machine learning che rileva o migliora un algoritmo di apprendimento. Un sistema di meta-apprendimento può anche mirare ad addestrare un modello per apprendere rapidamente una nuova attività da una piccola quantità di dati o dall'esperienza acquisita nelle attività precedenti. In genere, gli algoritmi di meta-apprendimento cercano di raggiungere i seguenti obiettivi:

  • Migliorare/apprendere funzionalità progettate manualmente (come un inizializzatore o un ottimizzatore).
  • Maggiore efficienza dei dati e del calcolo.
  • Migliora la generalizzazione.

Il meta-apprendimento è correlato all'apprendimento few-shot.

modalità

#language

Una categoria di dati di alto livello. Ad esempio, numeri, testo, immagini, video e audio sono cinque diverse modalità.

parallelismo dei modelli

#language

Un modo per scalare l'addestramento o l'inferenza che inserisce parti diverse di un model su diversi model. Il parallelismo dei modelli consente i modelli troppo grandi per adattarsi a un singolo dispositivo.

Per implementare il parallelismo del modello, un sistema in genere:

  1. Consente di suddividere (suddividendo) il modello in parti più piccole.
  2. Distribuisce l'addestramento di queste parti più piccole su più processori. Ogni processore addestra la propria parte del modello.
  3. Combina i risultati per creare un singolo modello.

Il parallelismo dei modelli rallenta l'addestramento.

Vedi anche Parallelismo dei dati.

auto-attenzione multi-testa

#language

Un'estensione dell'auto-attenzione che applica il meccanismo di auto-attenzione più volte per ogni posizione nella sequenza di input.

I Transformer hanno introdotto l'auto-attenzione multi-testa.

modello multimodale

#language

Un modello i cui input e/o output includono più di una modalità. Ad esempio, considera un modello che prende sia un'immagine che una didascalia di testo (due modalità) come features e restituisce un punteggio che indica l'adeguatezza della didascalia di testo per l'immagine. Pertanto, gli input di questo modello sono multimodali e l'output è unimodale.

No

comprensione del linguaggio naturale

#language

Determinazione delle intenzioni di un utente in base a ciò che ha digitato o detto. Ad esempio, un motore di ricerca utilizza la comprensione del linguaggio naturale per determinare ciò che l'utente sta cercando in base a ciò che ha digitato o detto.

N grammi

#seq
#language

Una sequenza ordinata di N parole. Ad esempio, davvero folle è un 2 grammi. Dato che l'ordine è importante, purtroppo è un 2 grammi diverso da veramente folle.

No Nomi per questo tipo di n-grammi Esempi
2 bigram o 2 grammi vai, andare a, pranzare, cenare
3 trigramma o 3 grammi mangiare troppo, tre topi ciechi, la campana suona
4 4 grammi camminare nel parco, polvere nel vento, il bambino mangiava le lenticchie

Molti modelli di comprensione del linguaggio naturale si basano su N-grammi per prevedere la parola successiva che l'utente digiti o dirà. Ad esempio, supponi che un utente abbia digitato 3 ciechi. Un modello NLU basato sui trigrammi potrebbe prevedere che l'utente digiterà poi mopi.

Contrasta gli N-grammi con sacchetto di parole, ovvero insiemi di parole non ordinati.

NLU

#language

Abbreviazione per comprensione del linguaggio naturale.

O

prompt one-shot

#language
#generativaAI

Una richiesta contenente un esempio che mostra come dovrebbe rispondere il modello LLM. Ad esempio, il seguente prompt contiene un esempio che mostra un modello linguistico di grandi dimensioni (LLM) come dovrebbe rispondere a una query.

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
Francia: EUR Ecco un esempio.
India: La query effettiva.

Confronta i prompt one-shot con i seguenti termini:

P

ottimizzazione efficiente dei parametri

#language
#generativaAI

Un insieme di tecniche per perfezionare un modello linguistico preaddestrato (PLM) di grandi dimensioni in modo più efficiente rispetto al perfezionamento completo. L'ottimizzazione efficiente in base ai parametri in genere perfeziona molti meno parametri rispetto all'ottimizzazione completa, ma generalmente produce un modello linguistico di grandi dimensioni che ha le stesse prestazioni (o quasi lo stesso) di un modello LLM realizzato con un'ottimizzazione completa.

Confronta l'ottimizzazione efficiente dei parametri con:

L'ottimizzazione efficiente dei parametri è nota anche come ottimizzazione efficiente dei parametri.

pipeline

#language

Una forma di parallelismo del modello in cui l'elaborazione di un modello viene suddivisa in fasi consecutive e ogni fase viene eseguita su un dispositivo diverso. Mentre una fase elabora un batch, la fase precedente può lavorare sul batch successivo.

Vedi anche l'addestramento graduale.

PLM

#language
#generativaAI

Abbreviazione di modello linguistico preaddestrato.

codifica posizionale

#language

Una tecnica per aggiungere informazioni sulla posizione di un token in una sequenza all'incorporamento del token. I modelli Transformer utilizzano la codifica posizionale per comprendere meglio la relazione tra le diverse parti della sequenza.

Un'implementazione comune della codifica posizionale utilizza una funzione sinusoidale. In particolare, la frequenza e l'ampiezza della funzione sinusoidale sono determinate dalla posizione del token nella sequenza. Questa tecnica consente a un modello Transformer di imparare a prestare attenzione a diverse parti della sequenza in base alla loro posizione.

modello preaddestrato

#language
#image
#generativaAI

Modelli o componenti del modello (come un vettore di incorporamento) già addestrati. A volte, invii vettori di incorporamento preaddestrati in una rete neurale. Altre volte, il modello addestrerà autonomamente i vettori di incorporamento, invece di affidarsi agli incorporamenti preaddestrati.

Il termine modello linguistico preaddestrato si riferisce a un modello linguistico di grandi dimensioni che è stato sottoposto a pre-addestramento.

pre-addestramento

#language
#image
#generativaAI

L'addestramento iniziale di un modello su un set di dati di grandi dimensioni. Alcuni modelli preaddestrati sono giganti goffi e in genere devono essere perfezionati tramite addestramento aggiuntivo. Ad esempio, gli esperti di ML potrebbero preaddestrare un modello linguistico di grandi dimensioni su un ampio set di dati di testo, come tutte le pagine in inglese di Wikipedia. In seguito all'addestramento, il modello risultante potrebbe essere ulteriormente perfezionato tramite una delle seguenti tecniche:

prompt

#language
#generativaAI

Qualsiasi testo inserito come input a un modello linguistico di grandi dimensioni per condizionare il modello affinché si comporti in un determinato modo. I prompt possono essere brevi come una frase o arbitrariamente lunghi (ad esempio l'intero testo di un romanzo). I prompt ricadono in più categorie, tra cui quelle mostrate nella seguente tabella:

Categoria della richiesta Esempio Note
Domanda Quanto veloce può volare un piccione?
Istruzione Scrivi una poesia divertente sull'arbitraggio. Un prompt che chiede al modello LLM di fare qualcosa.
Esempio Traduci il codice di Markdown in HTML. Ad esempio:
Markdown: * voce elenco
HTML: <ul> <li>elemento dell'elenco</li> </ul>
La prima frase di questo prompt di esempio è un'istruzione. Il resto della richiesta è l'esempio.
Ruolo Spiega perché la discesa del gradiente viene utilizzata nell'addestramento del machine learning per un dottorato in fisica. La prima parte della frase è un'istruzione; la parte relativa al ruolo è la frase "per un dottorato di ricerca in fisica".
Input parziale per il modello da completare Il Primo ministro del Regno Unito vive a Un prompt di input parziale può terminare bruscamente (come in questo esempio) o terminare con un trattino basso.

Un modello di AI generativa può rispondere a un prompt con testo, codice, immagini, incorporamenti, video... quasi qualsiasi cosa.

apprendimento basato su prompt

#language
#generativaAI

Una funzionalità di alcuni modelli che consente loro di adattare il loro comportamento in risposta a un input di testo arbitrario (richieste). In un tipico paradigma di apprendimento basato su prompt, un modello LLM risponde a un prompt generando testo. Ad esempio, supponiamo che un utente inserisca il seguente prompt:

Riassumi la terza legge del moto di Newton.

Un modello in grado di eseguire l'apprendimento basato su prompt non è addestrato in modo specifico per rispondere alla richiesta precedente. Piuttosto, il modello "conosce" molte informazioni sulla fisica, molto sulle regole generali del linguaggio e molto su ciò che costituisce risposte generalmente utili. Queste conoscenze sono sufficienti per fornire (si spera) una risposta utile. Il feedback aggiuntivo da parte di persone fisiche ("Questa risposta era troppo complicata" o "Che cos'è una reazione?") consente ad alcuni sistemi di apprendimento basati sul prompt di migliorare gradualmente l'utilità delle loro risposte.

progettazione di prompt

#language
#generativaAI

Sinonimo di prompt engineering.

ingegneria del prompt

#language
#generativaAI

L'arte di creare messaggi in grado di generare le risposte desiderate da un modello linguistico di grandi dimensioni. Gli esseri umani svolgono l'ingegneria del prompt. Scrivere prompt ben strutturati è una parte essenziale per garantire risposte utili da un modello linguistico di grandi dimensioni (LLM). Il prompt engineering dipende da molti fattori, tra cui:

  • Il set di dati utilizzato per preaddestrare e possibilmente ottimizzare il modello LLM.
  • La temperatura e gli altri parametri di decodifica che il modello utilizza per generare le risposte.

Consulta Introduzione alla progettazione dei prompt per ulteriori dettagli su come scrivere prompt utili.

Progettazione del prompt è un sinonimo di ingegneria del prompt.

ottimizzazione dei prompt

#language
#generativaAI

Un meccanismo di ottimizzazione efficiente dei parametri che apprende un "prefisso" che il sistema antepone al messaggio effettivo.

Una variante dell'ottimizzazione dei prompt, a volte chiamata ottimizzazione del prefisso, consiste nell'anteporre il prefisso a ogni livello. Al contrario, la maggior parte dell'ottimizzazione dei prompt aggiunge un prefisso solo al livello di input.

R

suggerimenti di ruolo

#language
#generativaAI

Una parte facoltativa di una richiesta che identifica un pubblico di destinazione per la risposta di un modello di AI generativa. In assenza di una richiesta di ruolo, un modello linguistico di grandi dimensioni (LLM) fornisce una risposta che potrebbe essere o meno utile per la persona che pone le domande. Con un prompt di ruolo, un modello linguistico di grandi dimensioni può rispondere in un modo più appropriato e più utile per un pubblico di destinazione specifico. Ad esempio, la parte relativa al prompt del ruolo delle seguenti richieste è in grassetto:

  • Riassumi questo articolo per un dottorato di ricerca in economia.
  • Descrivi come funzionano le maree per un bambino di dieci anni.
  • Spiegare la crisi finanziaria del 2008. Parla come faresti a un bambino o a un golden retriever.

S

auto-attenzione (detto anche strato di auto-attenzione)

#language

Un livello di rete neurale che trasforma una sequenza di incorporamenti (ad esempio, incorporamenti token) in un'altra sequenza di incorporamenti. Ogni incorporamento nella sequenza di output viene costruita integrando le informazioni provenienti dagli elementi della sequenza di input tramite un meccanismo di attenzione.

La parte relativa a dell'auto-attenzione si riferisce alla sequenza che si attende a se stessa piuttosto che a un altro contesto. L'auto-attenzione è uno dei componenti di base principali dei Transformer e utilizza la terminologia di ricerca del dizionario, ad esempio "query", "chiave" e "valore".

Uno strato di auto-attenzione inizia con una sequenza di rappresentazioni di input, una per ogni parola. La rappresentazione di input per una parola può essere un semplice incorporamento. Per ogni parola in una sequenza di input, la rete assegna un punteggio alla pertinenza della parola rispetto a ogni elemento dell'intera sequenza di parole. I punteggi di pertinenza determinano in che misura la rappresentazione finale della parola incorpora le rappresentazioni di altre parole.

Ad esempio, considera la seguente frase:

L'animale non ha attraversato la strada perché era troppo stanco.

La seguente illustrazione (da Transformer: A Novel Neural Network Architecture for Language Understanding) mostra il modello di attenzione di un livello di auto-attenzione per il pronome it, con l'oscurità di ogni riga che indica in che misura ogni parola contribuisce alla rappresentazione:

La seguente frase appare due volte: &quot;L&#39;animale non ha attraversato la strada perché era troppo stanco&quot;.  Le righe collegano la parola &quot;it&quot; in una frase a cinque token (&quot;The&quot;, &quot;animal&quot;, &quot;street&quot;, &quot;it&quot; e il punto) nell&#39;altra frase.  La linea tra &quot;it&quot; e &quot;animal&quot; è la più netta.

Il livello di auto-attenzione mette in evidenza le parole pertinenti. In questo caso, il livello Attenzione ha imparato a evidenziare le parole a cui potrebbe fare riferimento, assegnando il peso più alto ad animale.

Per una sequenza di n token, l'auto-attenzione trasforma una sequenza di incorporamenti n volte separate, una volta in ogni posizione della sequenza.

Fai riferimento anche ad attenzione e auto-attenzione a più teste.

analisi del sentiment

#language

Utilizzare algoritmi statistici o di machine learning per determinare l'atteggiamento complessivo di un gruppo (positivo o negativo) nei confronti di un servizio, un prodotto, un'organizzazione o un argomento. Ad esempio, utilizzando la comprensione del linguaggio naturale, un algoritmo potrebbe eseguire un'analisi del sentiment sul feedback testuale di un corso universitario per determinare il grado di apprezzamento o meno del corso da parte degli studenti.

attività da sequenza a sequenza

#language

Un'attività che converte una sequenza di token di input in una sequenza di output di token. Ad esempio, due tipi comuni di attività da sequenza a sequenza sono:

  • Traduttori:
    • Esempio di sequenza di input: "Ti amo".
    • Sequenza di output di esempio: "Je t'aime".
  • Risposte alle domande:
    • Esempio di sequenza di input: "Ho bisogno della mia auto a New York City?"
    • Esempio di sequenza di output: "No. Tieni l'auto a casa".

funzionalità sparsa

#language
#fundamentals

Una funzionalità i cui valori sono prevalentemente zero o vuoti. Ad esempio, una caratteristica contenente un singolo valore 1 e un milione di valori 0 è scarsa. Al contrario, una funzionalità densa ha valori che principalmente non sono zero o vuoti.

Nel machine learning, un numero sorprendente di funzionalità sono sparse. Le caratteristiche categoriche sono in genere sparse. Tra le 300 possibili specie di alberi in una foresta, un singolo esempio potrebbe identificare solo un acero. Oppure, dei milioni di possibili video in una raccolta video, un solo esempio potrebbe identificare solo "Casablanca".

In un modello, in genere rappresenti caratteristiche sparse con la codifica one-hot. Se la codifica one-hot è di grandi dimensioni, puoi aggiungere un livello di incorporamento sopra la codifica one-hot per una maggiore efficienza.

rappresentazione sparsa

#language
#fundamentals

Memorizzazione solo delle posizioni degli elementi diversi da zero in un elemento sparso.

Ad esempio, supponiamo che un elemento categorico denominato species identifichi le 36 specie di alberi in una particolare foresta. Supponiamo inoltre che ogni esempio identifichi solo una singola specie.

Potresti utilizzare un vettore a caldo per rappresentare le specie di alberi in ciascun esempio. Un vettore a caldo conterrebbe un singolo 1 (per rappresentare la particolare specie di alberi nell'esempio) e 35 0 (per rappresentare le 35 specie di alberi non in questo esempio). Quindi, la rappresentazione one-hot di maple potrebbe avere il seguente aspetto:

Un vettore in cui le posizioni da 0 a 23 contengono il valore 0, la posizione 24 contiene il valore 1 e le posizioni da 25 a 35 contengono il valore 0.

In alternativa, una rappresentazione sparsa identificherebbe semplicemente la posizione della particolare specie. Se maple si trova alla posizione 24, la rappresentazione sparsa di maple sarebbe semplicemente:

24

Nota che la rappresentazione sparsa è molto più compatta rispetto alla rappresentazione one-hot.

addestramento graduale

#language

Tattica di addestramento di un modello in una sequenza di fasi discrete. L'obiettivo può essere accelerare il processo di addestramento o ottenere una migliore qualità del modello.

Di seguito è riportata un'illustrazione dell'approccio di stack progressivo:

  • La fase 1 contiene 3 livelli nascosti, la fase 2 contiene 6 livelli nascosti e la fase 3 contiene 12 livelli nascosti.
  • La Fase 2 inizia l'allenamento con i pesi appresi nei 3 livelli nascosti della Fase 1. La Fase 3 inizia l'allenamento con i pesi appresi nei 6 strati nascosti della Fase 2.

Tre fasi, etichettate come &quot;Fase 1&quot;, &quot;Fase 2&quot; e &quot;Fase 3&quot;.
          Ogni fase contiene un numero diverso di livelli: la fase 1 contiene 3 livelli, la fase 2 contiene 6 livelli e la fase 3 contiene 12 livelli.
          I 3 strati della Fase 1 diventano i primi 3 della Fase 2.
          Allo stesso modo, i sei livelli della fase 2 diventano i primi sei della fase 3.

Vedi anche pipeline.

T

T5

#language

Un modello di apprendimento da testo in testo introdotto dall' AI di Google nel 2020. T5 è un modello encoder-decoder, basato sull'architettura Transformer, addestrato su un set di dati estremamente grande. È efficace per una serie di attività di elaborazione del linguaggio naturale, ad esempio la generazione di testo, la traduzione delle lingue e la risposta alle domande in modo colloquiale.

Il T5 prende il nome dalle cinque T di "Text-to-Text Transfer Transformer".

T5X

#language

Un framework di machine learning open source progettato per creare e addestrare modelli di elaborazione del linguaggio naturale (NLP) su larga scala. T5 è implementato sul codebase T5X (realizzato su JAX e Flax).

temperatura

#language
#image
#generativaAI

Un iperparametro che controlla il grado di casualità dell'output di un modello. Le temperature più alte generano un output più casuale, mentre le temperature più basse generano un output meno casuale.

La scelta della temperatura migliore dipende dall'applicazione specifica e dalle proprietà desiderate dell'output del modello. Ad esempio, probabilmente aumenteresti la temperatura durante la creazione di un'applicazione che genera un output di creatività. Al contrario, è probabile che abbassi la temperatura quando crei un modello che classifica immagini o testo per migliorarne l'accuratezza e la coerenza.

La temperatura viene spesso utilizzata con softmax.

intervallo di testo

#language

L'intervallo dell'indice dell'array associato a una sottosezione specifica di una stringa di testo. Ad esempio, la parola good nella stringa Python s="Be good now" occupa l'intervallo di testo da 3 a 6.

token

#language

In un modello linguistico, l'unità atomica su cui il modello si sta addestrando e su cui fa previsioni. Un token è in genere uno dei seguenti:

  • di una parola, ad esempio la frase "cani come i gatti" è composta da tre token: "cani", "mi piace" e "gatti".
  • un carattere, ad esempio la frase "pesce bicicletta" è composta da nove token di carattere. Tieni presente che lo spazio vuoto viene conteggiato come uno dei token.
  • sottoparole, in cui una singola parola può essere un singolo token o più token. Una sottoparola è composta da una parola radice, un prefisso o un suffisso. Ad esempio, un modello linguistico che utilizza parole secondarie come token potrebbe visualizzare la parola "cani" come due token (la parola radice "cane" e il suffisso plurale "s"). Lo stesso modello linguistico potrebbe visualizzare la singola parola "più alta" come due sottoparole (la parola radice "alto" e il suffisso "er").

Nei domini esterni ai modelli linguistici, i token possono rappresentare altri tipi di unità atomiche. Ad esempio, nella visione artificiale, un token può essere un sottoinsieme di un'immagine.

Transformer

#language

Un'architettura di rete neurale sviluppata in Google che si basa su meccanismi di auto-attenzione per trasformare una sequenza di incorporamenti di input in una sequenza di incorporamenti di output senza fare affidamento su convoluzioni o reti neurali ricorrenti. Un Transformer può essere visto come una pila di livelli di auto-attenzione.

Un Transformer può includere uno qualsiasi dei seguenti elementi:

Un encoder trasforma una sequenza di incorporamenti in una nuova sequenza della stessa lunghezza. Un encoder include N livelli identici, ciascuno dei quali contiene due sottolivelli. Questi due sottolivelli vengono applicati a ciascuna posizione della sequenza di incorporamento di input, trasformando ogni elemento della sequenza in un nuovo incorporamento. Il primo sottolivello dell'encoder aggrega informazioni provenienti da tutta la sequenza di input. Il secondo sottolivello dell'encoder trasforma le informazioni aggregate in un'incorporamento dell'output.

Un decoder trasforma una sequenza di incorporamenti di input in una sequenza di incorporamenti di output, possibilmente con una lunghezza diversa. Un decoder include anche N livelli identici con tre sottolivelli, due dei quali sono simili ai sottolivelli dell'encoder. Il terzo sottolivello del decoder prende l'output dell'encoder e applica il meccanismo di auto-attenzione per raccogliere informazioni da quest'ultimo.

Il post del blog Transformer: A Novel Neural Network Architecture for Language Understanding offre un'ottima introduzione ai Transformer.

trigramma

#seq
#language

Un N-grammo in cui N=3.

U

unidirezionale

#language

Un sistema che valuta solo il testo che precede una sezione target di testo. Al contrario, un sistema bidirezionale valuta sia il testo che precede e segue una sezione di testo target. Consulta la sezione bidirezionale per ulteriori dettagli.

modello linguistico unidirezionale

#language

Un modello linguistico che basa le sue probabilità solo sui token che appaiono prima e non dopo i token di destinazione. Sono in contrasto con il modello linguistico bidirezionale.

V

Autoencoder Variazionale (VAE)

#language

Un tipo di encoder automatico che sfrutta la discrepanza tra input e output per generare versioni modificate degli input. Gli autoencoder variazionali sono utili per l'AI generativa.

Le VAE si basano sull'inferenza variazionale, una tecnica per stimare i parametri di un modello di probabilità.

W

incorporamento di parole

#language

Rappresentare ogni parola in un set di parole all'interno di un vettore di incorporamento, ovvero rappresentare ogni parola come un vettore di valori a virgola mobile compresi tra 0,0 e 1,0. Le parole con significati simili hanno rappresentazioni più simili rispetto a parole con significati diversi. Ad esempio, carote, sedano e cetrioli hanno rappresentazioni relativamente simili, che sono molto diverse dalle rappresentazioni di aeroplano, occhiali da sole e dentifricio.

Z

prompt zero-shot

#language
#generativaAI

Una richiesta che non fornisce un esempio di come vuoi che il modello LLM risponda. Ad esempio:

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
India: La query effettiva.

Il modello linguistico di grandi dimensioni (LLM) potrebbe rispondere con una delle seguenti opzioni:

  • Rupia
  • INR
  • Rupia indiana
  • La rupia
  • La rupia indiana

Tutte le risposte sono corrette, anche se potresti preferire un formato particolare.

Confronta i prompt zero-shot e confrontali con i seguenti termini: