Che cos'è un modello linguistico?
Un modello linguistico stima la probabilità di un token o sequenza di token che si verificano all'interno di una sequenza più lunga di token. Un token può essere una parola, una sottoparola (un sottoinsieme di una parola) o persino un singolo carattere.
Considera la seguente frase e il token o i token che potrebbero completarla:
When I hear rain on my roof, I _______ in my kitchen.
Un modello linguistico determina le probabilità di diversi token o sequenze di token per completare il vuoto. Ad esempio, la tabella delle probabilità identifica alcuni token possibili e le relative probabilità:
Probabilità | Token |
---|---|
9,4% | cucina la zuppa |
5,2% | riscalda un bollitore |
3,6% | accovacciato |
2,5% | pisolino |
2,2% | relax |
In alcune situazioni, la sequenza di token può essere un'intera frase, un paragrafo o perfino un intero saggio.
Un'applicazione può usare la tabella delle probabilità per fare previsioni. La previsione potrebbe essere la probabilità più alta (ad es. "zuppa di cottura") o una selezione casuale tra token con una probabilità maggiore di una certa soglia.
Stimare la probabilità di ciò che riempie lo spazio vuoto in una sequenza di testo può può essere esteso ad attività più complesse, tra cui:
- Generazione del testo in corso...
- Traduzione di testo da una lingua a un'altra.
- Riassunto dei documenti.
Modellando i pattern statistici dei token, i modelli linguistici moderni sviluppano rappresentazioni interne del linguaggio estremamente potenti e possono generare linguaggio plausibile.
Modelli linguistici n-grammi
Gli n-grammi sono sequenze ordinate di parole utilizzato per creare modelli linguistici, dove N è il numero di parole nella sequenza. Ad esempio, quando N è 2, l'N-grammo è chiamato 2 grammi (o una bigram); quando N è 5, l'N-grammo è chiamato 5 grammi. Data la seguente frase in un documento di addestramento:
you are very nice
I 2 grammi risultanti sono i seguenti:
- sei
- sono molto
- ottimo
Quando N è 3, l'N-grammo è chiamato 3 grammi (o un trigramma). Considerata la stessa frase, 3 grammi risultanti sono:
- sei molto
- sono molto gentili
Dati due parole come input, un modello linguistico basato su 3 grammi può prevedere la probabilità della terza parola. Ad esempio, date le seguenti due parole:
orange is
Un modello linguistico esamina tutti i vari grammi che derivano dall'addestramento
che iniziano con orange is
per determinare la terza parola più probabile.
Centinaia di 3 grammi potrebbero iniziare con le due parole orange is
, ma puoi
concentrarsi esclusivamente sulle seguenti due possibilità:
orange is ripe orange is cheerful
La prima possibilità (orange is ripe
) riguarda il frutto arancione,
mentre la seconda possibilità (orange is cheerful
) riguarda il colore
arancione.
Contesto
Gli esseri umani possono mantenere contesti relativamente lunghi. Mentre guardi l'atto 3 di uno spettacolo, mantengano conoscenza dei personaggi introdotti nell'Atto 1. Analogamente, la battuta finale di una lunga barzelletta ti fa ridere perché ricordi il contesto dall'impostazione della barzelletta.
Nei modelli linguistici, il contesto è un'informazione utile che precede o segue token di destinazione. Il contesto può aiutare un modello linguistico a determinare se il valore "arancione" si riferisce a un agrume o a un colore.
Il contesto può aiutare un modello linguistico a fare previsioni migliori, ma
3 grammi di testo? Sfortunatamente, l'unico contesto è
sono le prime due parole. Ad esempio, le due parole orange is
non
fornire un contesto sufficiente affinché il modello linguistico possa prevedere la terza parola.
A causa della mancanza di contesto, i modelli linguistici basati su 3 grammi commettono molti errori.
N-grammi più lunghi fornirebbero certamente più contesto rispetto a N-grammi più brevi. Tuttavia, con l'aumento di N, l'occorrenza relativa di ogni istanza diminuisce. Quando N diventa molto grande, il modello linguistico di solito ha un solo di ogni occorrenza di N token, il che non è molto utile prevedendo il token di destinazione.
Reti neurali ricorrenti
Neural ricorrente reti forniscono più contesto degli n-grammi. Una rete neurale ricorrente è un tipo di rete neurale che si addestra una sequenza di token. Ad esempio, una rete neurale ricorrente Può apprendere gradualmente (e imparare a ignorare) il contesto selezionato da ogni parola in una frase, un po' come quando si ascolta una persona parlare. Una grande rete neurale ricorrente può acquisire contesto da un passaggio di diversi frasi.
Sebbene le reti neurali ricorrenti apprendano più contesto degli n-grammi, la quantità di contesto utile che le reti neurali ricorrenti possono intuitare è ancora relativamente limitato. Le reti neurali ricorrenti valutano le informazioni "token per token". Al contrario, i modelli linguistici di grandi dimensioni (LLM), l'argomento del prossimo consente di valutare l'intero contesto contemporaneamente.
Tieni presente che l'addestramento di reti neurali ricorrenti per contesti lunghi è vincolato da il gradiente di scomparsa del prodotto.
Allenamento: verifica le tue conoscenze
- un modello linguistico basato su 6 grammi
- un modello linguistico basato su 5 grammi