Modelli linguistici di grandi dimensioni

Che cos'è un modello linguistico?

Un modello linguistico stima la probabilità di un token o sequenza di token che si verificano all'interno di una sequenza più lunga di token. Un token può essere una parola, una sottoparola (un sottoinsieme di una parola) o persino un singolo carattere.

Considera la seguente frase e il token o i token che potrebbero completarla:

When I hear rain on my roof, I _______ in my kitchen.

Un modello linguistico determina le probabilità di diversi token o sequenze di token per completare il vuoto. Ad esempio, la tabella delle probabilità identifica alcuni token possibili e le relative probabilità:

Probabilità Token
9,4% cucina la zuppa
5,2% riscalda un bollitore
3,6% accovacciato
2,5% pisolino
2,2% relax

In alcune situazioni, la sequenza di token può essere un'intera frase, un paragrafo o perfino un intero saggio.

Un'applicazione può usare la tabella delle probabilità per fare previsioni. La previsione potrebbe essere la probabilità più alta (ad es. "zuppa di cottura") o una selezione casuale tra token con una probabilità maggiore di una certa soglia.

Stimare la probabilità di ciò che riempie lo spazio vuoto in una sequenza di testo può può essere esteso ad attività più complesse, tra cui:

  • Generazione del testo in corso...
  • Traduzione di testo da una lingua a un'altra.
  • Riassunto dei documenti.

Modellando i pattern statistici dei token, i modelli linguistici moderni sviluppano rappresentazioni interne del linguaggio estremamente potenti e possono generare linguaggio plausibile.

Modelli linguistici n-grammi

Gli n-grammi sono sequenze ordinate di parole utilizzato per creare modelli linguistici, dove N è il numero di parole nella sequenza. Ad esempio, quando N è 2, l'N-grammo è chiamato 2 grammi (o una bigram); quando N è 5, l'N-grammo è chiamato 5 grammi. Data la seguente frase in un documento di addestramento:

you are very nice

I 2 grammi risultanti sono i seguenti:

  • sei
  • sono molto
  • ottimo

Quando N è 3, l'N-grammo è chiamato 3 grammi (o un trigramma). Considerata la stessa frase, 3 grammi risultanti sono:

  • sei molto
  • sono molto gentili

Dati due parole come input, un modello linguistico basato su 3 grammi può prevedere la probabilità della terza parola. Ad esempio, date le seguenti due parole:

orange is

Un modello linguistico esamina tutti i vari grammi che derivano dall'addestramento che iniziano con orange is per determinare la terza parola più probabile. Centinaia di 3 grammi potrebbero iniziare con le due parole orange is, ma puoi concentrarsi esclusivamente sulle seguenti due possibilità:

orange is ripe
orange is cheerful

La prima possibilità (orange is ripe) riguarda il frutto arancione, mentre la seconda possibilità (orange is cheerful) riguarda il colore arancione.

Contesto

Gli esseri umani possono mantenere contesti relativamente lunghi. Mentre guardi l'atto 3 di uno spettacolo, mantengano conoscenza dei personaggi introdotti nell'Atto 1. Analogamente, la battuta finale di una lunga barzelletta ti fa ridere perché ricordi il contesto dall'impostazione della barzelletta.

Nei modelli linguistici, il contesto è un'informazione utile che precede o segue token di destinazione. Il contesto può aiutare un modello linguistico a determinare se il valore "arancione" si riferisce a un agrume o a un colore.

Il contesto può aiutare un modello linguistico a fare previsioni migliori, ma 3 grammi di testo? Sfortunatamente, l'unico contesto è sono le prime due parole. Ad esempio, le due parole orange is non fornire un contesto sufficiente affinché il modello linguistico possa prevedere la terza parola. A causa della mancanza di contesto, i modelli linguistici basati su 3 grammi commettono molti errori.

N-grammi più lunghi fornirebbero certamente più contesto rispetto a N-grammi più brevi. Tuttavia, con l'aumento di N, l'occorrenza relativa di ogni istanza diminuisce. Quando N diventa molto grande, il modello linguistico di solito ha un solo di ogni occorrenza di N token, il che non è molto utile prevedendo il token di destinazione.

Reti neurali ricorrenti

Neural ricorrente reti forniscono più contesto degli n-grammi. Una rete neurale ricorrente è un tipo di rete neurale che si addestra una sequenza di token. Ad esempio, una rete neurale ricorrente Può apprendere gradualmente (e imparare a ignorare) il contesto selezionato da ogni parola in una frase, un po' come quando si ascolta una persona parlare. Una grande rete neurale ricorrente può acquisire contesto da un passaggio di diversi frasi.

Sebbene le reti neurali ricorrenti apprendano più contesto degli n-grammi, la quantità di contesto utile che le reti neurali ricorrenti possono intuitare è ancora relativamente limitato. Le reti neurali ricorrenti valutano le informazioni "token per token". Al contrario, i modelli linguistici di grandi dimensioni (LLM), l'argomento del prossimo consente di valutare l'intero contesto contemporaneamente.

Tieni presente che l'addestramento di reti neurali ricorrenti per contesti lunghi è vincolato da il gradiente di scomparsa del prodotto.

Allenamento: verifica le tue conoscenze

Quale modello linguistico genera previsioni migliori per il testo in inglese?
  • un modello linguistico basato su 6 grammi
  • un modello linguistico basato su 5 grammi
La risposta dipende dalla grandezza e dalla diversità della formazione per iniziare.
Se il set di addestramento comprende milioni di documenti diversi, il modello basato su 6 grammi avrà probabilmente prestazioni superiori sulla base di 5 grammi.
Il modello linguistico basato su 6 grammi.
Questo modello linguistico ha più contesto, ma se questo modello addestrato su molti documenti, la maggior parte dei 6 grammi essere rari.
Il modello linguistico basato su 5 grammi.
Questo modello linguistico ha meno contesto, perciò è improbabile che sono superiori rispetto al modello linguistico in base ai 6 grammi.