Introduzione ai modelli linguistici di grandi dimensioni (LLM)

Non hai mai utilizzato i modelli linguistici o gli LLM? Consulta le risorse di seguito.

Che cos'è un modello linguistico?

Un modello linguistico è una macchina modello che mira a prevedere e generare un linguaggio plausibile. Il completamento automatico è un modello linguistico, ad esempio.

Questi modelli funzionano stimando la probabilità di un token o di token che si verificano all'interno di una sequenza più lunga di token. Considera la seguente frase:

When I hear rain on my roof, I _______ in my kitchen.

Se presupponi che un token sia una parola, un modello linguistico determina la probabilità di parole diverse o sequenze di parole per sostituirle il trattino basso. Ad esempio, un modello linguistico potrebbe determinare quanto segue: probabilità:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

Una "sequenza di token" può essere un'intera frase o una serie di frasi. In altre parole, un modello linguistico potrebbe calcolare la probabilità di frasi o blocchi di testo.

La stima della probabilità di ciò che segue in una sequenza è utile per moltissime cose: generazione di testo, traduzione di lingue e risposta a domande, solo per citarne alcune.

Cos'è un modello linguistico di grandi dimensioni (LLM)?

La modellazione del linguaggio umano su larga scala è un'impresa molto complessa e che richiede molte risorse. Il percorso per raggiungere le attuali capacità dei modelli linguistici e gli LLM hanno abbracciato diversi decenni.

Man mano che i modelli vengono creati, la loro complessità ed efficacia aumentano. I primi modelli linguistici potevano prevedere la probabilità di una singola parola; moderno linguistici di grandi dimensioni (LLM) possono prevedere la probabilità di frasi, paragrafi o persino interi documenti.

Le dimensioni e le funzionalità dei modelli linguistici sono aumentate notevolmente negli ultimi anni con l'aumento della memoria del computer, delle dimensioni dei set di dati e della potenza di elaborazione e con lo sviluppo di tecniche più efficaci per la definizione di sequenze di testo più lunghe.

Quali sono le dimensioni?

La definizione è confusa, ma "ampia" è stato usato per descrivere il BERT (110 M parametri) e PaLM 2 (fino a 340B parametri).

I parametri sono i pesi appresi dal modello durante l'addestramento, utilizzati per prevedere il token successivo nella sequenza. "Grande" può riferirsi al numero di parametri nel modello o talvolta al numero di parole nel set di dati.

Trasformatori

Un importante sviluppo nella modellazione del linguaggio è stata l'introduzione nel 2017 dei Transformer, un'architettura progettata attorno all'idea di attenzione. In questo modo è stato possibile elaborare sequenze più lunghe concentrandosi sui parte importante dell'input, risolvendo i problemi di memoria riscontrati di grandi dimensioni.

I Transformer sono l'architettura all'avanguardia per un'ampia gamma di applicazioni di modelli linguistici, come i traduttori.

Se l'input è "Sono un bravo cane", un traduttore basato su Transformer trasforma quell'input nell'output "Je suis un bon chien.", che è il la stessa frase tradotta in francese.

I Transformer completi sono costituiti encoder e un decoder. Un codificatore converte il testo di input in una rappresentazione intermedia e un decodificatore la trasforma in testo utile.

Auto-attenzione

I Transformer si basano molto su un concetto chiamato auto-attenzione. La parte self dell'auto-attenzione si riferisce all'attenzione "egocentrica" di ciascun token in un corpus. In pratica, per conto di ogni token di input, l'autoattenzione chiede: "Quanto ha importanza per me ogni altro token di input?" Per semplificare, assumiamo che ogni token sia una parola e che il contesto completo sia una singola frase. Prendi in considerazione la seguente frase:

L'animale non ha attraversato la strada perché era troppo stanco.

Ci sono 11 parole nella frase precedente, quindi ognuna delle 11 parole paga alle altre dieci, chiedendosi quanto conta ognuna di queste dieci parole. a loro. Ad esempio, nota che la frase contiene il pronome it. I pronomi sono spesso ambigui. Il pronome it si riferisce sempre a un nome recente, ma nella frase di esempio, che di recente fa riferimento a: l'animale, o per strada?

Il meccanismo di auto-attenzione determina la pertinenza di ogni parola vicina al pronome esso.

Quali sono alcuni casi d'uso per gli LLM?

Gli LLM sono molto efficaci per l'attività per cui sono stati creati, ovvero generare il testo più plausibile in risposta a un input. Iniziano a essere mostrati anche forti prestazioni su altre attività; ad esempio riassunto, domanda risposte e classificazione del testo. Questi vengono chiamati abilità emergenze. Gli LLM possono anche risolvere alcuni problemi matematici e scrivere codice (sebbene sia consigliabile controllare la loro lavoro).

I modelli LLM sono eccellenti nell'imitare i modelli di linguaggio umano. Tra le altre cose, sono bravi a combinare informazioni con stili e toni diversi.

Tuttavia, gli LLM possono essere componenti di modelli che fanno molto di più generare testo. Per creare rilevatori del sentiment sono stati utilizzati degli LLM recenti, classificatori di tossicità e generare didascalie delle immagini.

Considerazioni sull'LLM

I modelli così grandi non sono privi di svantaggi.

I modelli LLM più grandi sono costosi. Possono richiedere mesi di addestramento e, di conseguenza, consumano molte risorse.

In genere, possono anche essere riutilizzati per altre attività e questo è un aspetto positivo.

Addestramento di modelli con un massimo di trilioni di parametri crea sfide ingegneristiche. Infrastruttura e programmazione speciali tecniche necessarie per coordinare il flusso verso i chip e viceversa.

Esistono modi per ridurre i costi di questi modelli di grandi dimensioni. Due approcci sono l'inferenza offline e la distillazione.

Il bias può essere un problema nei modelli di grandi dimensioni e deve essere preso in considerazione durante l'addestramento e il deployment.

Poiché questi modelli vengono addestrati sul linguaggio umano, possono presentare numerosi potenziali problemi etici, tra cui l'uso improprio del linguaggio e i pregiudizi in base a etnia, genere, religione e altro ancora.

Dovrebbe essere chiaro che man mano che questi modelli continuano a crescere e a funzionare meglio, occorre continuare a essere diligenti nella comprensione e e minimizzarne gli svantaggi. Scopri di più sull'approccio di Google a l'IA responsabile.

Scopri di più sugli LLM

Ti interessa un'introduzione più approfondita ai modelli linguistici di grandi dimensioni? Consulta il nuovo modulo Modelli linguistici di grandi dimensioni nel Machine Learning Crash Course.