Glossario del machine learning: AI generativa

Questa pagina contiene i termini del glossario dell'IA generativa. Per tutti i termini del glossario, fai clic qui.

A

modello autoregressivo

#language
#image
#IAgenerativa

Un model che deduce una previsione in base alle proprie previsioni precedenti. Ad esempio, i modelli linguistici autoregressivi prevedono il token successivo in base ai token previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono regressivi.

Al contrario, i modelli di immagine basati su GAN di solito non sono autoregressivi poiché generano un'immagine in un singolo passaggio in avanti e non in modo iterativo. Tuttavia, alcuni modelli di generazione di immagini sono regressivi perché generano un'immagine in passaggi.

C

Chain-of-Thought Prompting

#language
#IAgenerativa

Una tecnica di prompt engineering che incoraggia un modello linguistico di grandi dimensioni (LLM) a spiegarne il ragionamento, passo dopo. Ad esempio, considera il seguente prompt, prestando particolare attenzione alla seconda frase:

Quante forze g può affrontare un conducente su un'auto che va da 0 a 96 km orari in 7 secondi? Nella risposta, mostra tutti i calcoli pertinenti.

Probabilmente la risposta dell'LLM:

  • Mostra una sequenza di formule fisiche, inserendo i valori 0, 60 e 7 nei punti appropriati.
  • Spiega il motivo per cui ha scelto queste formule e il significato delle varie variabili.

Prompt Chain-of-Thought obbliga l'LLM a eseguire tutti i calcoli, che potrebbe portare a una risposta più corretta. Inoltre, la richiesta di Chain-of-Thought consente all'utente di esaminare i passaggi dell'LLM per determinare se la risposta ha senso o meno.

chat

#language
#IAgenerativa

I contenuti di un dialogo avanti e indietro con un sistema di ML, in genere un modello linguistico di grandi dimensioni (LLM). L'interazione precedente in una chat (il testo digitato e la risposta del modello LLM) diventa il contesto per le parti successive della chat.

Un chatbot è un'applicazione di un modello linguistico di grandi dimensioni (LLM).

incorporamento nel linguaggio contestualizzato

#language
#IAgenerativa

Un incorporamento che si avvicina al "comprendere" parole e frasi nei modi in cui ciò può fare i madrelingua. L'incorporamento del linguaggio contestuale è in grado di comprendere sintassi, semantica e contesto complessi.

Ad esempio, considera gli incorporamenti della parola inglese cow. Incorporamenti meno recenti come word2vec possono rappresentare parole inglesi, in modo che la distanza nello spazio di incorporamento tra mucca e toro sia simile alla distanza tra ewe (pecora femmina) e montone (pecora maschio) o tra femmina e maschile. L'incorporamento di lingue contestuali può fare un ulteriore passo in avanti, poiché gli utenti anglofoni a volte usano la parola mucca per significare: mucca o toro.

finestra di contesto

#language
#IAgenerativa

Il numero di token che un modello può elaborare in un determinato messaggio. Più ampia è la finestra di contesto, maggiori sono le informazioni che il modello può utilizzare per fornire risposte coerenti e coerenti al prompt.

D

prompt diretti

#language
#IAgenerativa

Sinonimo di prompt zero-shot.

distillazione

#IAgenerativa

Il processo di riduzione delle dimensioni di un model (noto come model) in un modello più piccolo (noto come model) che emula le previsioni del modello originale nel modo più fedele possibile. La distillazione è utile perché il modello più piccolo ha due vantaggi chiave rispetto al modello più grande (l'insegnante):

  • Tempi di inferenza più rapidi
  • Consumo di memoria e energia ridotto

Tuttavia, in genere le previsioni dello studente non sono buone come quelle dell'insegnante.

La distillazione addestra il modello studente per ridurre al minimo una funzione di perdita in base alla differenza tra gli output delle previsioni dei modelli studente e insegnante.

Confronta la distillazione con i seguenti termini e illustrane le differenze:

F

prompt few-shot

#language
#IAgenerativa

Un prompt che contiene più di un esempio (solo "pochi") che mostra come deve rispondere il modello linguistico di grandi dimensioni (LLM). Ad esempio, il seguente lungo prompt contiene due esempi che mostrano come rispondere a una query con un modello linguistico di grandi dimensioni.

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
Francia: EUR Ecco un esempio.
Regno Unito: GBP Un altro esempio.
India: La query effettiva.

I prompt few-shot in genere producono risultati più desiderabili rispetto ai Prompt zero-shot e ai Prompt one-shot. Tuttavia, i prompt few-shot richiedono un prompt più lungo.

Prompt few-shot è una forma di apprendimento few-shot applicata all'apprendimento basato su prompt.

messa a punto

#language
#image
#IAgenerativa

Un secondo pass di addestramento specifico per l'attività eseguito su un modello preaddestrato per perfezionare i parametri in base a un caso d'uso specifico. Ad esempio, la sequenza completa di addestramento per alcuni modelli linguistici di grandi dimensioni è la seguente:

  1. Preaddestramento: addestra un modello linguistico di grandi dimensioni (LLM) su un ampio set di dati generale, ad esempio tutte le pagine di Wikipedia in lingua inglese.
  2. Ottimizzazione: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio rispondere a domande mediche. Il perfezionamento comporta in genere centinaia o migliaia di esempi incentrati sull'attività specifica.

Ecco un altro esempio: la sequenza completa di addestramento per un modello con immagini di grandi dimensioni è la seguente:

  1. Preaddestramento: addestra un modello di immagini di grandi dimensioni su un vasto set di dati di immagini generali, come tutte le immagini in Wikimedia Commons.
  2. Perfezionamento: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio la generazione di immagini di orche.

Il perfezionamento può comportare una combinazione delle seguenti strategie:

  • Modifica di tutti i parametri esistenti del modello preaddestrato. Questa procedura è a volte chiamata ottimizzazione completa.
  • Modificare solo alcuni dei parametri esistenti del modello preaddestrato (in genere, i livelli più vicini al livello di output), senza modificare gli altri parametri esistenti (in genere quelli più vicini al livello di input). Consulta l'ottimizzazione efficiente dei parametri.
  • Aggiunta di altri livelli, in genere sopra quelli esistenti più vicini al livello di output.

Il perfezionamento è una forma di Transfer Learning. Di conseguenza, l'ottimizzazione potrebbe utilizzare una funzione di perdita o un tipo di modello diverso rispetto a quelli utilizzati per addestrare il modello preaddestrato. Ad esempio, potresti perfezionare un modello di immagini di grandi dimensioni preaddestrato per produrre un modello di regressione che restituisca il numero di uccelli in un'immagine di input.

Metti a confronto i seguenti termini di messa a punto:

G

IA generativa

#language
#image
#IAgenerativa

Un campo rivoluzionario emergente senza una definizione formale. Detto questo, la maggior parte degli esperti concorda sul fatto che i modelli di IA generativa possono creare ("generare") contenuti che corrispondono a quanto segue:

  • complesso
  • coerente
  • originale

Ad esempio, un modello di IA generativa può creare immagini o saggi.

Anche alcune tecnologie precedenti, tra cui gli LSTM e gli RNN, possono generare contenuti originali e coerenti. Alcuni esperti considerano queste tecnologie precedenti come IA generativa, mentre altri ritengono che la vera IA generativa richieda risultati più complessi rispetto a quelli prodotti dalle tecnologie precedenti.

Sono invece opposti al ML predittivo.

I

apprendimento contestuale

#language
#IAgenerativa

Sinonimo di prompt few-shot.

ottimizzazione delle istruzioni

#IAgenerativa

Una forma di ottimizzazione che migliora la capacità di un modello di IA generativa di seguire le istruzioni. L'ottimizzazione delle istruzioni comporta l'addestramento di un modello sulla base di una serie di prompt di istruzione, che in genere coprono un'ampia serie di attività. Il modello ottimizzato per l'istruzione risultante tende quindi a generare risposte utili ai richieste zero-shot in una serie di attività.

Confronta con:

L

LoRA

#language
#IAgenerativa

Abbreviazione di Low-Rank Adjustability.

Adattabilità a basso ranking (LoRA)

#language
#IAgenerativa

Un algoritmo per eseguire l'ottimizzazione efficiente dei parametri che perfeziona solo un sottoinsieme dei parametri di un modello linguistico di grandi dimensioni (LLM). LoRA offre i seguenti vantaggi:

  • Perfeziona più velocemente rispetto alle tecniche che richiedono l'ottimizzazione di tutti i parametri di un modello.
  • Riduce il costo di calcolo dell'inferenza nel modello ottimizzato.

Un modello ottimizzato con LoRA mantiene o migliora la qualità delle sue previsioni.

LoRA consente più versioni specializzate di un modello.

L

modello a cascata

#IAgenerativa

Un sistema che sceglie il model ideale per una query di inferenza specifica.

Immagina un gruppo di modelli, che va da molto grande (molti parametri) a molto più piccoli (molto meno parametri). I modelli molto grandi consumano più risorse di calcolo al momento dell'inferenza rispetto ai modelli più piccoli. Tuttavia, i modelli molto grandi possono in genere dedurre richieste più complesse rispetto ai modelli più piccoli. La distribuzione a cascata dei modelli determina la complessità della query di inferenza, quindi seleziona il modello appropriato per eseguire l'inferenza. La motivazione principale per la creazione a cascata dei modelli è la riduzione dei costi di inferenza, generalmente selezionando modelli più piccoli e scegliendo solo un modello più grande per query più complesse.

Immagina che un modello piccolo venga eseguito su un telefono e una versione più grande del modello venga eseguita su un server remoto. Un buon modello a cascata riduce i costi e la latenza consentendo al modello più piccolo di gestire richieste semplici e chiamando solo il modello remoto per gestire richieste complesse.

Vedi anche modello di router.

modello di router

#IAgenerativa

L'algoritmo che determina il model ideale per l'model nella model. Un modello di router è di solito un modello di machine learning che gradualmente impara a scegliere il modello migliore per un determinato input. Tuttavia, a volte un modello di router è un algoritmo più semplice, non di machine learning.

O

prompt one-shot

#language
#IAgenerativa

Un messaggio contenente un esempio che mostra come deve rispondere il modello linguistico di grandi dimensioni (LLM). Ad esempio, il seguente prompt contiene un esempio che mostra come un modello linguistico di grandi dimensioni (LLM) dovrebbe rispondere a una query.

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
Francia: EUR Ecco un esempio.
India: La query effettiva.

Confronta i prompt one-shot con i seguenti termini:

P

ottimizzazione efficiente dei parametri

#language
#IAgenerativa

Un insieme di tecniche per mettere a punto un modello linguistico preaddestrato (PLM) di grandi dimensioni in modo più efficiente rispetto all'ottimizzazione completa. Un'ottimizzazione efficiente in base ai parametri in genere ottimizza molti meno parametri rispetto all'ottimizzazione completa, ma in genere produce un modello linguistico di grandi dimensioni che ha le stesse prestazioni (o quasi) di un modello linguistico di grandi dimensioni (LLM) creato con un'ottimizzazione completa.

Confronta e contrapponi l'ottimizzazione efficiente dai parametri con:

L'ottimizzazione efficiente dei parametri è nota anche come ottimizzazione efficiente dei parametri.

PLM

#language
#IAgenerativa

Abbreviazione di modello linguistico preaddestrato.

modello preaddestrato

#language
#image
#IAgenerativa

Modelli o componenti del modello (come un vettore di incorporamento) già addestrati. A volte, invii vettori di incorporamento preaddestrati in una rete neurale. Altre volte, il modello addestrerà i vettori di incorporamento in sé, invece di affidarsi agli incorporamenti preaddestrati.

Il termine modello linguistico preaddestrato fa riferimento a un modello linguistico di grandi dimensioni (LLM) che è stato sottoposto a preaddestramento.

preaddestramento

#language
#image
#IAgenerativa

L'addestramento iniziale di un modello su un grande set di dati. Alcuni modelli preaddestrati sono giganti e in genere devono essere perfezionati mediante addestramento aggiuntivo. Ad esempio, gli esperti di ML potrebbero preaddestrare un modello linguistico di grandi dimensioni (LLM) su un vasto set di dati di testo, come tutte le pagine in inglese su Wikipedia. Dopo il pre-addestramento, il modello risultante potrebbe essere ulteriormente perfezionato tramite una delle seguenti tecniche:

richiesta

#language
#IAgenerativa

Qualsiasi testo inserito come input in un modello linguistico di grandi dimensioni (LLM) per condizionare il modello in modo che si comporti in un determinato modo. I prompt possono essere brevi come una frase o arbitrariamente lunghi (ad esempio l'intero testo di un romanzo). I prompt rientrano in più categorie, incluse quelle mostrate nella seguente tabella:

Categoria del prompt Esempio Note
Domanda Quanto è veloce un piccione a volare?
Istruzione Scrivi una poesia divertente sull'arbitraggio. Un prompt che chiede al modello LLM di fare qualcosa.
Esempio Traduci il codice Markdown in HTML. Ad esempio:
Markdown: * voce elenco
HTML: <ul> <li>elemento dell'elenco</li> </ul>
La prima frase di questo prompt di esempio è un'istruzione. Il resto del prompt è l'esempio.
Ruolo Spiega perché la discesa del gradiente viene utilizzata nell'addestramento tramite machine learning per un dottorato di ricerca in fisica. La prima parte della frase è un'istruzione; la frase "per un dottorato in fisica" è la parte relativa al ruolo.
Input parziale per il completamento del modello Il Primo Ministro del Regno Unito vive presso Un prompt di input parziale può terminare improvvisamente (come in questo esempio) o terminare con un trattino basso.

Un modello di IA generativa è in grado di rispondere a un prompt con testo, codice, immagini, incorporamenti, video... praticamente qualsiasi cosa.

apprendimento basato su prompt

#language
#IAgenerativa

La funzionalità di alcuni modelli che consente loro di adattare il proprio comportamento in risposta a un input di testo arbitrario (richieste). In un tipico paradigma di apprendimento basato su prompt, un modello linguistico di grandi dimensioni (LLM) risponde a un prompt generando del testo. Ad esempio, supponiamo che un utente inserisca il seguente prompt:

Riassumi il terzo principio della dinamica di Newton.

Un modello in grado di apprendimento basato su prompt non è addestrato specificamente per rispondere al prompt precedente. Piuttosto, il modello "conosce" molte informazioni sulla fisica, molto sulle regole generali del linguaggio e molto su ciò che costituisce risposte generalmente utili. Queste conoscenze sono sufficienti per fornire una risposta (si spera) utile. Il feedback umano aggiuntivo ("Questa risposta era troppo complicata." o "Che cos'è una reazione?") consente ad alcuni sistemi di apprendimento basati su prompt di migliorare gradualmente l'utilità delle loro risposte.

progettazione dei prompt

#language
#IAgenerativa

Sinonimo di prompt engineering.

ingegneria del prompt

#language
#IAgenerativa

L'arte di creare messaggi che generino le risposte desiderate da un modello linguistico di grandi dimensioni (LLM). Gli esseri umani svolgono l'ingegneria del prompt. Scrivere prompt ben strutturati è essenziale per garantire risposte utili da un modello linguistico di grandi dimensioni (LLM). Il prompt engineering dipende da molti fattori, tra cui:

Consulta Introduzione alla progettazione dei prompt per ulteriori dettagli sulla scrittura di prompt utili.

Progettazione di prompt è un sinonimo di prompt engineering.

ottimizzazione dei prompt

#language
#IAgenerativa

Un meccanismo di ottimizzazione efficiente dei parametri che apprende un "prefisso" che il sistema antepone al prompt effettivo.

Una variante dell'ottimizzazione dei prompt, a volte chiamata ottimizzazione del prefisso, consiste nell'anteporre il prefisso a ogni livello. Al contrario, la maggior parte dell'ottimizzazione dei prompt aggiunge solo un prefisso al livello di input.

R

Apprendimento per rinforzo con feedback umano (RLHF)

#IAgenerativa
#rl

Utilizzo del feedback di revisori umani per migliorare la qualità delle risposte di un modello. Ad esempio, un meccanismo RLHF può chiedere agli utenti di valutare la qualità della risposta di un modello con un'emoji 👍 o 👎. Il sistema può quindi modificare le risposte future in base a quel feedback.

prompt dei ruoli

#language
#IAgenerativa

Parte facoltativa di un prompt che identifica un pubblico di destinazione per la risposta di un modello di IA generativa. Senza un messaggio sul ruolo, un modello linguistico di grandi dimensioni (LLM) fornisce una risposta che potrebbe o meno essere utile per la persona che pone le domande. Con un prompt di ruolo, un modello linguistico di grandi dimensioni può rispondere nel modo più appropriato e utile per un pubblico di destinazione specifico. Ad esempio, la parte del prompt del ruolo delle seguenti richieste è in grassetto:

  • Riassumi questo articolo per un dottorato di ricerca in economia.
  • Descrivi come funzionano le maree per un bambino di dieci anni.
  • Spiegare la crisi finanziaria del 2008. Parla come potresti a un bambino o a un golden retriever.

S

ottimizzazione dei prompt software

#language
#IAgenerativa

Una tecnica per l'ottimizzazione di un modello linguistico di grandi dimensioni (LLM) per una determinata attività, senza perfezionamento intensivo di risorse. Anziché riaddestrare tutte le ponderazioni nel modello, l'ottimizzazione dei prompt software regola automaticamente un prompt per raggiungere lo stesso obiettivo.

Dato un prompt testuale, l'ottimizzazione dei prompt software in genere aggiunge ulteriori incorporamenti di token al prompt e utilizza la retropropagazione dell'input per ottimizzare l'input.

Un prompt "hard" contiene token effettivi invece di incorporamenti di token.

T

temperatura

#language
#image
#IAgenerativa

Un iperparametro che controlla il grado di casualità dell'output di un modello. Temperature più alte comportano output più casuali, mentre temperature più basse generano output meno casuali.

La scelta della temperatura migliore dipende dall'applicazione specifica e dalle proprietà preferite dell'output del modello. Ad esempio, probabilmente alzi la temperatura quando crei un'applicazione che genera un output di creatività. Al contrario, probabilmente abbassiresti la temperatura quando crei un modello che classifica immagini o testo per migliorarne accuratezza e coerenza.

La temperatura viene spesso utilizzata con softmax.

Z

prompt zero-shot

#language
#IAgenerativa

Un messaggio che non fornisce un esempio di come vuoi che risponda il modello linguistico di grandi dimensioni (LLM). Ad esempio:

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
India: La query effettiva.

Il modello linguistico di grandi dimensioni (LLM) potrebbe rispondere con una delle seguenti risposte:

  • Rupia
  • INR
  • Rupia indiana
  • La rupia
  • Rupia indiana

Tutte le risposte sono corrette, anche se potresti preferire un formato particolare.

Confronta i prompt zero-shot con i seguenti termini: