Introduzione ai modelli linguistici di grandi dimensioni (LLM)

Non hai mai utilizzato modelli linguistici o modelli linguistici di grandi dimensioni? Consulta le risorse di seguito.

Che cos'è un modello linguistico?

Un modello linguistico è un modello di machine learning che ha lo scopo di prevedere e generare un linguaggio plausibile. Ad esempio, il completamento automatico è un modello linguistico.

I modelli funzionano stimando la probabilità di un token o una sequenza di token che si verificano all'interno di una sequenza di token più lunga. Considera la seguente frase:

When I hear rain on my roof, I _______ in my kitchen.

Se supponiamo che un token sia una parola, un modello linguistico determina le probabilità di parole o sequenze di parole diverse di sostituire il trattino basso. Ad esempio, un modello linguistico potrebbe determinare le seguenti probabilità:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

Una "sequenza di token" può essere un'intera frase o una serie di frasi. In altre parole, un modello linguistico potrebbe calcolare la probabilità di diverse frasi o blocchi di testo diversi.

Stimare la probabilità di ciò che segue in una sequenza è utile per ogni genere di cose: generare testo, tradurre le lingue e rispondere alle domande, solo per citarne alcuni.

Cos'è un modello linguistico di grandi dimensioni?

La modellazione del linguaggio umano su larga scala è un approccio estremamente complesso e ad alta intensità di risorse. Il percorso per raggiungere le capacità attuali dei modelli linguistici e dei modelli linguistici di grandi dimensioni si è evoluto in vari decenni.

Man mano che i modelli diventano più grandi, la complessità e l'efficacia aumentano. I modelli linguistici iniziali potrebbero prevedere la probabilità di una singola parola, mentre i modelli linguistici moderni di grandi dimensioni possono prevedere la probabilità di frasi, paragrafi o persino interi documenti.

La dimensione e la capacità dei modelli linguistici sono esplose negli ultimi anni con l'aumento della memoria, delle dimensioni del set di dati e della potenza di elaborazione del computer e di sviluppo di tecniche più efficaci per creare sequenze di testo più lunghe.

Quanto è grande?

La definizione è sfocata, ma "large" è stato utilizzato per descrivere BERT (parametri 110 M) e PaLM 2 (fino a 340 miliardi di parametri).

I parametri sono le ponderazioni del modello apprese durante l'addestramento, utilizzate per prevedere il token successivo nella sequenza. "Grande" può fare riferimento al numero di parametri del modello o, a volte, al numero di parole nel set di dati.

Trasformatori

Uno sviluppo chiave nella modellazione del linguaggio è stato l'introduzione nel 2017 di Transformers, un'architettura progettata sull'idea dell'attenzione. In questo modo è stato possibile elaborare sequenze più lunghe concentrandosi sulla parte più importante dell'input, risolvendo i problemi di memoria riscontrati nei modelli precedenti.

I trasformatori sono l'architettura all'avanguardia per un'ampia varietà di applicazioni di modelli linguistici, come i traduttori.

Se l'input è "I'm a Good dog.", un traduttore trasformatore trasforma quell'input nell'output "Je suis un bon chien.", che è la stessa frase tradotta in francese.

I trasformatori completi sono costituiti da un encoder e da un decoder. Un codificatore converte il testo di input in una rappresentazione intermedia e un decodificatore lo converte in testo utile.

Autoattenzione

I trasformatori fanno molto affidamento su un concetto chiamato autoconsapevolezza. L'auto-attenzione si riferisce all'attenzione "egocentrica" di ciascun token in un corpus. Di fatto, per conto di ciascun token di input, l'autoattenzione chiede: "Quanto è importante ogni altro token di input per io?" Per semplificare le cose, supponiamo che ogni token sia una parola e che il contesto completo sia una singola frase. Considera la seguente frase:

L'animale non ha attraversato la strada perché era troppo stanco.

Ci sono 11 parole nella frase precedente, quindi ognuna delle 11 parole presta attenzione all'altra dieci, chiedendoti quanto sia importante per ognuna di queste 10 parole. Ad esempio, tieni presente che la frase contiene il pronome it. I pronomi sono spesso ambigui. Il pronome it si riferisce sempre a un nome recente, ma nell'esempio viene citato il nome recente: l'animale o la strada?

Il meccanismo di autoattenzione determina la pertinenza di ogni parola vicina al pronome corrispondente.

Quali sono alcuni dei casi d'uso delle LLM?

Gli LLM sono molto efficaci nell'attività per cui sono stati creati, generando il testo più plausibile in risposta a un input. e hanno anche iniziato a mostrare un rendimento elevato per altre attività, ad esempio riepilogo, risposta a domande e classificazione del testo. Questi sono chiamati funzionalità emergenti. Le LLM possono persino risolvere alcuni problemi di matematica e scrivere codice (anche se è consigliabile controllarne il lavoro).

Le LLM sono eccellenti per imitare le espressioni del linguaggio umano. Tra le altre cose, sono perfetti per combinare informazioni con stili e toni diversi.

Tuttavia, le soluzioni LLM possono essere componenti di modelli che non si limitano a generare testo. Le LLM recenti sono state utilizzate per creare rilevatori di sentiment, classificatori di tossicità e generare didascalie delle immagini.

Considerazioni LLM

I modelli così grandi non sono privi di svantaggi.

I LLM più grandi sono costosi. Potrebbero essere necessari mesi per l'addestramento e, di conseguenza, utilizzano molte risorse.

Possono anche essere riadattati per altre attività, un prezioso rivestimento argentato.

L'addestramento di modelli con più di un trilione di parametri crea sfide di progettazione. Sono necessarie tecniche speciali di infrastruttura e programmazione per coordinare il flusso ai chip e tornare indietro.

Esistono modi per mitigare i costi di questi modelli di grandi dimensioni. Due approcci sono l'inferenza offline e la distillazione.

Il bias può essere un problema nei modelli molto grandi e dovrebbe essere preso in considerazione durante l'addestramento e il deployment.

Poiché questi modelli sono addestrati sul linguaggio umano, questo può introdurre numerosi potenziali problemi etici, incluso l'uso improprio del linguaggio e il bias in termini di gruppo etnico, genere, religione e altro ancora.

Dovrebbe essere chiaro che, man mano che questi modelli continuano a crescere e ad avere un rendimento migliore, è necessario continuare a fare attenzione a comprendere e smentire i loro svantaggi. Scopri di più sull'approccio di Google all'AI responsabile.