LLM: messa a punto, distillazione e prompt engineering

L'unità precedente descriveva gli LLM per uso generico, varie noto come:

  • LLM di base
  • LLM di base
  • LLM preaddestrati

Un LLM di base è addestrato su un linguaggio naturale sufficiente per "sapere" un notevole grammatica, parole ed espressioni idiomatiche. Un modello linguistico di base può generare frasi utili sugli argomenti su cui viene addestrato. Inoltre, un LLM di base può eseguire determinate attività chiamate tradizionalmente "creativi", come scrivere poesie. Tuttavia, il testo generativo di un LLM di base l'output non è una soluzione per altri tipi di problemi di ML comuni, come regressione o classificazione. Per questi casi d'uso, un LLM di base può come piattaforma e non come soluzione.

Trasformare un LLM di base in una soluzione che soddisfa le richiede un processo chiamato ottimizzazione. Un processo secondario chiamato distillation genera una versione più piccola (meno parametri) della versione un modello di machine learning.

Ottimizzazione

La ricerca dimostra che le capacità di riconoscimento di schemi linguistici di grandi dimensioni sono così potenti che a volte richiedono formazione aggiuntiva per apprendere attività specifiche. L'addestramento aggiuntivo aiuta il modello a fare previsioni migliori di un'attività specifica. Questo corso di formazione aggiuntivo, perfezionamenti, sblocca il lato pratico di un LLM.

Il perfezionamento consente l'addestramento su esempi specifici per l'attività della tua applicazione l'efficienza. A volte gli ingegneri possono perfezionare un LLM di base centinaia o alcune migliaia di esempi di addestramento.

Nonostante il numero relativamente ridotto di esempi di addestramento, il perfezionamento standard spesso richiede molte risorse di calcolo. Questo perché il perfezionamento standard implica aggiornare la ponderazione e il bias di ogni parametro su iterazione della backpropagation. Fortunatamente, un processo più intelligente chiamato efficiente in termini di parametri dell'ottimizzazione può ottimizzare un LLM regolando solo un sottoinsieme di parametri su ogni la retropropagazione dell'errore.

Le previsioni di un modello perfezionato sono di solito migliori rispetto a quelle degli LLM di base per le previsioni. Tuttavia, un modello perfezionato contiene lo stesso numero di come l'LLM di base. Quindi, se un LLM di base contiene dieci miliardi parametri, la versione perfezionata conterrà anche dieci miliardi parametri.

Distillazione

La maggior parte degli LLM ottimizzati contiene un numero enorme di parametri. Di conseguenza, gli LLM di base richiedono enormi risorse di calcolo e ambientali per generare previsioni. Tieni presente che ampie larghezze di questi parametri di solito non pertinenti per un'applicazione specifica.

Distillazione crea una versione più piccola di un LLM. L'LLM distillato genera previsioni molto più velocemente e richiede meno risorse di calcolo e ambientali rispetto l'LLM completo. Tuttavia, le previsioni del modello distillato di solito non sono tanto buone quanto le previsioni dell'LLM originale. Ricorda che gli LLM con più generano quasi sempre previsioni migliori rispetto agli LLM con meno parametri parametri.

Prompt engineering

Ingegneria del prompt consente agli utenti finali di un LLM di personalizzare l'output del modello. In altre parole, gli utenti finali chiariscono come l'LLM deve rispondere al prompt.

Gli esseri umani imparano bene dagli esempi. così come gli LLM. Visualizzazione di un esempio per un LLM è chiamato prompt one-shot. Ad esempio, supponiamo che tu voglia che un modello utilizzi il seguente formato per l'output la famiglia di un frutto:

L'utente inserisce il nome di un frutto: l'LLM restituisce la classe di quel frutto.

Un prompt one-shot mostra all'LLM un singolo esempio del formato precedente e poi chiede all'LLM di completare una query basata su questo esempio. Ad esempio:

peach: drupe
apple: ______

A volte è sufficiente un solo esempio. In tal caso, l'LLM restituisce un utile la previsione. Ad esempio:

apple: pome

In altre situazioni, un singolo esempio non è sufficiente. Ciò significa che l'utente deve mostrano più esempi di modelli LLM. Ad esempio, il seguente prompt contiene due esempi:

plum: drupe
pear: pome
lemon: ____

La fornitura di più esempi è chiamata prompt few-shot. Puoi considerare le prime due righe del prompt precedente come esempi.

Un LLM può fornire previsioni utili senza esempi (zero-shot )? A volte, ma agli LLM come contesto. In assenza di contesto, il seguente prompt zero-shot potrebbe restituire informazioni sull'azienda tecnologica e non sul frutto:

apple: _______

Inferenza offline

Il numero di parametri in un LLM è talvolta così grande che l'inferenza online è troppo lento per essere pratico per attività reali come la regressione o per la classificazione. Di conseguenza, molti team di tecnici si affidano inferenza offline (anche nota come inferenza collettiva o inferenza statica). In altre parole, anziché rispondere alle query al momento della pubblicazione, addestrato esegue le previsioni in anticipo e poi le memorizza nella cache.

Non è importante se un LLM impiega molto tempo per completare la sua attività se l'LLM deve eseguire l'attività una volta alla settimana o una volta al mese.

Ad esempio, Ricerca Google è stato usato un LLM eseguire l'inferenza offline per memorizzare nella cache un elenco di oltre 800 sinonimi per i vaccini contro il COVID-19 in più di 50 lingue. La Ricerca Google ha poi utilizzato memorizzato nella cache per identificare le query sui vaccini nel traffico in tempo reale.

Utilizzare gli LLM in modo responsabile

Come ogni forma di machine learning, gli LLM di solito condividono i bias di:

  • I dati utilizzati per l'addestramento.
  • I dati su cui sono stati distillati.

Utilizza gli LLM in modo equo e responsabile in base alle lezioni presentate in precedenza in questo corso.

Allenamento: verifica le tue conoscenze

Quale delle seguenti affermazioni sugli LLM è vera?
Un LLM distillato contiene meno parametri rispetto agli elementi di base modello linguistico da cui è scaturito.
Sì, la distillazione riduce il numero di parametri.
Un LLM ottimizzato contiene meno parametri rispetto agli elementi di base linguistico di grandi dimensioni.
Un modello perfezionato contiene lo stesso numero di parametri di il modello linguistico di base originale.
Man mano che gli utenti eseguono una maggiore ingegneria del prompt, il numero di parametri in un LLM.
Il prompt engineering non aggiunge (o rimuove o modifica) i modelli LLM parametri.