Glossario del machine learning

Questo glossario definisce i termini generali di machine learning, specifici di TensorFlow.

A

ablazione

Una tecnica per valutare l'importanza di una caratteristica o un componente rimuovendo temporaneamente da un modello. Poi riaddestrare il modello senza questa funzionalità o quel componente e se il modello riaddestrato ha un rendimento decisamente peggiore, la funzionalità o il componente rimosso sono stati probabilmente importanti.

Ad esempio, supponiamo che tu addestra modello di classificazione su 10 caratteristiche e raggiunge una precisione dell'88% set di test. Per verificare l'importanza della prima caratteristica, è possibile addestrare nuovamente il modello utilizzando solo le altre nove le funzionalità di machine learning. Se il modello riaddestrato ha prestazioni decisamente peggiori (ad esempio, una precisione del 55%), la caratteristica rimossa probabilmente era importante. Al contrario, se il modello riaddestrato ha prestazioni altrettanto buone, allora quella caratteristica è probabilmente non è poi così importante.

L'ablazione può anche aiutare a determinare l'importanza di:

  • Componenti più grandi, ad esempio un intero sottosistema di un sistema ML più grande
  • Processi o tecniche, come le fasi di pre-elaborazione dei dati

In entrambi i casi, osserverai come cambiano le prestazioni del sistema (o non cambia) dopo aver rimosso il componente.

Test A/B

Un modo statistico per confrontare due (o più) tecniche: la A e la B. In genere, A è una tecnica esistente, mentre B è una nuova tecnica. Il test A/B non solo determina quale tecnica ha il rendimento migliore ma anche se la differenza è statisticamente significativa.

In genere, i test A/B confrontano una singola metrica su due tecniche: Ad esempio, come si può confrontare l'accuratezza del modello tecniche di machine learning? Tuttavia, il test A/B può confrontare anche qualsiasi numero finito di metriche di valutazione.

chip dell'acceleratore

#GoogleCloud

Una categoria di componenti hardware specializzati progettati per eseguire per gli algoritmi di deep learning.

I chip dell'acceleratore (o semplicemente gli acceleratori) possono significativamente aumenta la velocità e l'efficienza delle attività di addestramento e inferenza rispetto a una CPU per uso generico. Sono ideali per l'addestramento neurali profonde e attività simili con elevata intensità di calcolo.

Esempi di chip di acceleratori includono:

  • Tensor Processing Unit di Google (TPU) con hardware dedicato per il deep learning.
  • Le GPU NVIDIA che, sebbene inizialmente progettate per l'elaborazione grafica, sono progettate per consentire l'elaborazione parallela, che può significativamente aumenta la velocità di elaborazione.

accuracy

#fundamentals

Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 errate le previsioni avrebbero un'accuratezza di:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Quindi, la formula dell'accuratezza per la classificazione binaria è il seguente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dove:

Confrontare e contrapporre l'accuratezza con precision e richiamo:

Consulta la sezione Classificazione: accuratezza, richiamo, precisione e relativi metriche in Machine Learning Crash Course.

azione

#rl

Nel apprendimento per rinforzo, il meccanismo mediante il quale l'agente transizioni tra gli stati del ambiente. L'agente sceglie l'azione utilizzando un norme.

funzione di attivazione

#fundamentals

Una funzione che consente alle reti neurali di apprendere Relazioni nonlinear (complesse) tra le caratteristiche e l'etichetta.

Le funzioni di attivazione più comuni includono:

I grafici delle funzioni di attivazione non sono mai linee rette singole. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:

Un grafico cartesiano di due linee. La prima riga ha una costante
          valore y pari a 0, lungo l'asse x da -infinito,0 a 0,-0.
          La seconda riga inizia da 0,0. Questa linea ha una pendenza di +1, quindi
          va da 0,0 a +infinito,+infinito.

Un grafico della funzione di attivazione sigmoidea ha il seguente aspetto:

Un grafico curvo bidimensionale con valori x che coprono il dominio
          da infinito a +positivo, mentre i valori di y coprono l'intervallo da quasi 0 a +positivo
          quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre
          positiva, con la pendenza più alta a 0,0.5 e che diminuisce gradualmente
          pendenze all'aumento del valore assoluto di x.

Consulta Reti neurali: attivazione in Machine Learning Crash Course.

apprendimento attivo

Un approccio di formazione in cui algoritmo sceglie alcuni dei dati da cui apprende. Apprendimento attivo è particolarmente utile quando gli esempi etichettati scarse o costose da ottenere. Invece di cercare alla cieca un'esperienza di esempi etichettati, un algoritmo di apprendimento attivo cerca selettivamente gli esempi specifici di cui hanno bisogno per l'apprendimento.

AdaGrad

Un sofisticato algoritmo di discesa del gradiente che scala di ogni parametro, assegnando efficacemente ogni parametro un tasso di apprendimento indipendente. Per una spiegazione completa, vedi questo articolo di AdaGrad.

agente

#rl

Nel apprendimento per rinforzo, l'entità che utilizza policy per massimizzare il ritorno atteso ottenuto dalla la transizione tra gli stati ambiente.

Più in generale, un agente è un software che pianifica ed esegue autonomamente serie di azioni per perseguire un obiettivo, con la capacità di adattarsi ai cambiamenti nel proprio ambiente. Ad esempio, un agente basato su LLM potrebbe utilizzare un un modello LLM per generare un piano, anziché applicare un criterio di apprendimento per rinforzo.

clustering agglomerativo

#clustering

Consulta il clustering gerarchico.

rilevamento di anomalie

Il processo di identificazione degli outlier. Ad esempio, se la media per una determinata caratteristica è 100 con una deviazione standard di 10, il rilevamento di anomalie dovrebbe segnalare un valore pari a 200 come sospetto.

AR

Abbreviazione di realtà aumentata.

area sotto la curva PR

Consulta la sezione AUC PR (area sotto la curva PR).

area sotto la curva ROC

Consulta la sezione AUC (area sotto la curva ROC).

intelligenza artificiale generale

Un meccanismo non umano che dimostra una vasta gamma di capacità di risoluzione dei problemi, creatività e adattabilità. Ad esempio, un programma che mostra contenuti l'intelligenza generale era in grado di tradurre testi, comporre sinfonie ed eccellere in giochi non ancora inventati.

intelligenza artificiale

#fundamentals

Un programma o un modello generato da strumenti automatici in grado di risolvere attività sofisticate. Ad esempio, un programma o modello che traduce un testo, oppure un programma o modello che identifica le malattie dalle immagini radiologiche entrambi esibiscono intelligenza artificiale.

formalmente, il machine learning è un campo secondario dell'intelligenza l'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.

Attention,

#language

Meccanismo utilizzato in una rete neurale che indica l'importanza di una particolare parola o parte di una parola. L'attenzione si comprime la quantità di informazioni di cui un modello ha bisogno per prevedere il token/la parola successiva. Un tipico meccanismo di attenzione può essere costituito somma ponderata in un insieme di input, in cui la La ponderazione di ogni input viene calcolata da un'altra parte del neurali profonde.

Fai riferimento anche all'auto-attenzione e l'auto-attenzione multi-testa, che sono i componenti di base dei Transformer.

Vedi LLM: che cos'è una grande lingua modello? in Machine Learning Crash Course per ulteriori informazioni sull'auto-attenzione.

attributo

#fairness

Sinonimo di feature.

Nell'equità del machine learning, gli attributi spesso fanno riferimento caratteristiche degli individui.

campionamento degli attributi

#df

Una tattica per addestrare una foresta decisionale in cui ogni L'albero decisionale prende in considerazione solo un sottoinsieme casuale di possibili features durante l'apprendimento della condizione. Di solito, viene campionato un sottoinsieme diverso di caratteristiche per node. Al contrario, quando addestra un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le possibili caratteristiche per ciascun nodo.

AUC (area sotto la curva ROC)

#fundamentals

Un numero compreso tra 0,0 e 1,0 che rappresenta un del modello di classificazione binaria capacità di separare i classi positivi da classi escluse. Più l'AUC è vicina a 1,0, migliore è la capacità del modello di separare classi l'uno dall'altro.

Ad esempio, l'illustrazione seguente mostra un modello di classificazione che separa le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello non realisticamente perfetto ha una AUC di 1,0:

Una linea dei numeri con 8 esempi positivi su un lato e
          9 esempi negativi dall'altro lato.

Al contrario, l'illustrazione seguente mostra i risultati per un classificatore modello che ha generato risultati casuali. Questo modello ha un'AUC di 0,5:

Una linea dei numeri con 6 esempi positivi e 6 esempi negativi.
          La sequenza di esempi è positiva, negativa
          positivo, negativo, positivo, negativo, positivo, negativo, positivo
          negative, positive, negative.

Sì, il modello precedente ha un'AUC di 0,5, non di 0,0.

La maggior parte dei modelli si trova a metà tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi e i negativi, quindi ha un'AUC compresa tra 0,5 e 1,0:

Una linea dei numeri con 6 esempi positivi e 6 esempi negativi.
          La sequenza di esempi è negativa, negativa, negativa, negativa,
          positivo, negativo, positivo, positivo, negativo, positivo,
          positivo.

L'AUC ignora qualsiasi valore impostato soglia di classificazione. Invece, l'AUC prende in considerazione tutte le possibili soglie di classificazione.

Consulta la sezione Classificazione: ROC e AUC in Machine Learning Crash Course.

realtà aumentata

#image

Una tecnologia che sovrappone un'immagine generata dal computer alla vista dell'utente del del mondo reale, fornendo così una vista composita.

autoencoder

#language
#image

Un sistema che impara a estrarre le informazioni più importanti di testo. I codificatori automatici sono una combinazione di un encoder e decoder. I codificatori automatici si basano sul seguente processo in due passaggi:

  1. L'encoder mappa l'input a una dimensione (solitamente) con perdita di dati (intermedio).
  2. Il decoder crea una versione con perdita dell'input originale mappando dal formato inferiore all'originale formato di input.

Gli autoencoder vengono addestrati end-to-end facendo in modo che il decoder provi a ricostruisci l'input originale a partire dal formato intermedio dell'encoder il più vicino possibile. Poiché il formato intermedio è più piccolo (dimensioni inferiori) rispetto al formato originale, l'autoencoder viene forzato per capire quali informazioni nell'input sono essenziali e l'output non perfettamente identica all'input.

Ad esempio:

  • Se i dati di input sono grafici, la copia non esatta sarà simile a la grafica originale, ma in qualche modo modificata. Forse la copia non esatta rimuove rumore dall'immagine originale o riempie alcuni pixel mancanti.
  • Se i dati di input sono testo, un autoencoder genera un nuovo testo che imitano (ma non sono identiche) al testo originale.

Vedi anche Autoencoder variazionali.

bias di automazione

#fairness

Quando un responsabile delle decisioni umano favorisce i consigli forniti da un decisionale basato sulle informazioni ottenute senza automazione, quando il sistema decisionale automatizzato commette errori.

Consulta la sezione Equità: tipi di pregiudizi in Machine Learning Crash Course.

AutoML

Qualsiasi processo automatizzato per la creazione del machine learning modelli. AutoML può eseguire automaticamente attività come le seguenti:

  • Cercare il modello più appropriato.
  • Ottimizza gli iperparametri.
  • Preparare i dati (tra cui eseguire feature engineering).
  • Eseguire il deployment del modello risultante.

AutoML è utile per i data scientist perché consente loro di risparmiare tempo impegno nello sviluppo di pipeline di machine learning e nel miglioramento delle previsioni la precisione. È utile anche per i non esperti, rendendo complicata le attività di machine learning più accessibili per loro.

Vedi Automatizzazione Apprendimento (AutoML) in Machine Learning Crash Course.

modello autoregressivo

#language
#image
#generativeAI

Un modello che deduce una previsione in base al proprio modello precedente per le previsioni. Ad esempio, i modelli linguistici autoregressivi prevedono la risposta token in base ai token previsti in precedenza. Tutte basate su Transformer I modelli linguistici di grandi dimensioni sono autoregressivi.

Al contrario, i modelli di immagine basati su GAN di solito non sono autoregressivi poiché generano un'immagine in un singolo progresso in avanti e non iterativamente passaggi. Tuttavia, alcuni modelli di generazione delle immagini sono autoregressivi in quanto generano un'immagine in passaggi.

perdita ausiliaria

Una funzione di perdita, utilizzata insieme a una Principale della rete neurale del modello funzione di perdita, che consente di accelerare l'addestramento durante le prime iterazioni quando le ponderazioni vengono inizializzate in modo casuale.

Le funzioni di perdita ausiliaria spingono gradienti efficaci ai livelli precedenti. Questo facilita convergenza durante l'addestramento affrontando il problema di scomparsa del gradiente.

precisione media

Una metrica per riepilogare il rendimento di una sequenza di risultati classificata. La precisione media viene calcolata prendendo la media del i valori di precision per ogni risultato pertinente (ciascuno ha come risultato l'elenco classificato in cui il richiamo aumenta rispetto al risultato precedente).

Vedi anche Area sotto la curva PR.

condizione allineata all'asse

#df

In un albero decisionale, una condizione che riguarda una sola caratteristica. Ad esempio, se l'area è una caratteristica, la seguente è una condizione allineata all'asse:

area > 200

Contrasta la condizione obliqua.

B

retropropagazione dell'errore

#fundamentals

L'algoritmo che implementa discesa del gradiente in reti neurali.

L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:

  1. Durante il passaggio in avanti, il sistema elabora un batch di esempi per ottenere previsioni. Il sistema confronta ogni la previsione per ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite per tutti gli esempi per calcolare il totale per il batch corrente.
  2. Durante il passaggio a ritroso (retropropagazione dell'errore), il sistema riduce la perdita regolando le ponderazioni di tutti i neuroni in tutte le strati nascosti.

Le reti neurali spesso contengono molti neuroni in molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione dell'errore determina se aumentare o diminuire le ponderazioni applicati a particolari neuroni.

Il tasso di apprendimento è un moltiplicatore che controlla il grado in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenta o diminuisce ogni peso di più di una un tasso di apprendimento ridotto.

In termini di calcolo, la retropropagazione implementa la regola della catena. dal calcolo. Ciò significa che la retropropagazione dell'errore calcola derivata parziale dell'errore con rispetto a ogni parametro.

Anni fa, i professionisti del ML dovevano scrivere codice per implementare la retropropagazione dell'errore. Le API ML moderne come Keras ora implementano la retropropagazione dell'errore per te. Finalmente.

Vedi Reti neurali in Machine Learning Crash Course.

insaccare

#df

Un metodo per addestrare un ensemble in cui ogni il modello del componente viene addestrato su un sottoinsieme casuale di esempi campionati con sostituzione. Ad esempio, una foresta casuale è una raccolta di alberi decisionali addestrati con il bagging.

Il termine bagging è l'abbreviazione di bootstrap aggregating.

Vedi Forestelle casuali nel corso sulle foreste decisionali per ulteriori informazioni.

sacchetto di parole

#language

Una rappresentazione delle parole in una frase o in un passaggio, a prescindere dall'ordine. Ad esempio, il sacchetto di parole rappresenta tre frasi identiche:

  • il cane salta
  • fa saltare il cane
  • cane salta

Ogni parola è mappata a un indice di un vettore sparso, dove il vettore ha un indice per ogni parola del vocabolario. Ad esempio: la frase il cane salta è mappata in un vettore di caratteristiche con valore diverso da zero ai tre indici corrispondenti alle parole the, dog e salti. Il valore diverso da zero può essere:

  • Un 1 per indicare la presenza di una parola.
  • Un conteggio del numero di volte in cui una parola compare nella borsa. Ad esempio: se la frase fosse il cane granata è un cane con la pelliccia granata, allora entrambi marrone rossiccio e cane sarebbero rappresentati come 2, mentre le altre parole essere rappresentato come 1.
  • Un altro valore, come il logaritmo del conteggio del numero di volte in cui compare una parola nella borsa.

base di riferimento

Un modello usato come punto di riferimento per confrontare la capacità di un altro del modello (in genere, uno più complesso). Ad esempio, un modello di regressione logistica potrebbe essere utile come una buona base di riferimento per un modello profondo.

Per un problema specifico, la base aiuta gli sviluppatori di modelli a quantificare le prestazioni minime previste che un nuovo modello deve raggiungere perché sia utile.

batch

#fundamentals

L'insieme di esempi utilizzati in un addestramento iterazione. La dimensione del batch determina il numero di esempi in un batch.

Consulta la sezione epoch per una spiegazione della relazione tra un batch e l'altro un'epoca.

Consulta Regressione lineare: Iperparametri in Machine Learning Crash Course.

inferenza batch

#TensorFlow
#GoogleCloud

Il processo di deduzione di previsioni su più esempi non etichettati suddivisi in più piccoli sottoinsiemi ("batch").

L'inferenza batch può sfruttare le funzionalità di parallelizzazione chip dell'acceleratore. cioè più acceleratori possono dedurre contemporaneamente previsioni su diversi batch di degli esempi, aumentando drasticamente il numero di inferenze al secondo.

Consulta Sistemi di ML di produzione: statico e dinamico inferenza in Machine Learning Crash Course.

normalizzazione batch

Normalizzando l'input o l'output del funzioni di attivazione in un strato nascosto. La normalizzazione batch offrono i seguenti vantaggi:

dimensione del batch

#fundamentals

Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.

Di seguito sono riportate alcune strategie molto comuni per la dimensione dei batch:

  • Stochastic Gradient Descent (SGD), con dimensione del batch pari a 1.
  • Batch completo, in cui la dimensione del batch corrisponde al numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch sarà un milione esempi. Generalmente, l'intero batch è una strategia inefficiente.
  • mini-batch in cui la dimensione del batch di solito è compresa 10 e 1000. Il mini-batch è in genere la strategia più efficiente.

Per ulteriori informazioni, vedi quanto segue:

Rete neurale bayesiana

Una rete neurale probabilistica che spiega di incertezza nelle ponderazioni e negli output. Una rete neurale standard il modello di regressione in genere prevede un valore scalare; Ad esempio, un modello standard prevede il prezzo di una casa di 853.000. Al contrario, una rete neurale bayesiana prevede una distribuzione di valori; Ad esempio, un modello bayesiano prevede un prezzo di una casa di 853.000 una deviazione standard di 67.200.

Una rete neurale bayesiana si basa su Bayes Teorema per calcolare le incertezze nelle ponderazioni e nelle previsioni. Un modello neurale bayesiano di rete può essere utile quando è importante quantificare l'incertezza, ad esempio modelli correlati al settore farmaceutico. Anche le reti neurali bayesiche sono utili evitare l'overfitting.

Ottimizzazione bayesiana

Un modello di regressione probabilistica per l'ottimizzazione dei costi di calcolo funzioni oggettive mediante l'ottimizzazione di un surrogato che quantifica l'incertezza con una tecnica di apprendimento bayesiana. Dal giorno L'ottimizzazione bayesiana è di per sé molto costosa. Di solito viene utilizzata per ottimizzare attività costose da valutare e con un piccolo numero di parametri, come selezionando gli iperparametri.

Equazione di Bellman

#rl

Nell'apprendimento per rinforzo, la seguente identità è soddisfatta dalla definizione Funzione Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Gli algoritmi di apprendimento per rinforzo applicano questo identità per creare il Q-learning tramite la seguente regola di aggiornamento:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Oltre all'apprendimento per rinforzo, l'equazione di Bellman ha applicazioni programmazione dinamica. Consulta le Voce di Wikipedia relativa all'equazione di Bellman.

BERT (Bidirectional Encoder rappresentazioni dei trasformatori)

#language

Un'architettura modello per la rappresentazione del testo. Un modello Il modello BERT può agire come parte di un modello più grande per la classificazione del testo ad altre attività ML.

BERT ha le seguenti caratteristiche:

Le varianti di BERT includono:

di Gemini Advanced.

Consulta il documento BERT Open Sourcing: Preaddestramento all'avanguardia per il linguaggio naturale Elaborazione per una panoramica di BERT.

pregiudizi (etica/equità)

#fairness
#fundamentals

1. Stereotipi, pregiudizi o pregiudizi nei confronti di alcune cose, persone o gruppi rispetto ad altri. Questi pregiudizi possono influenzare la raccolta interpretazione dei dati, la progettazione di un sistema e il modo in cui gli utenti interagiscono con un sistema. Le forme di questo tipo di bias includono:

2. Errore sistematico introdotto da una procedura di campionamento o di reporting. Le forme di questo tipo di bias includono:

Da non confondere con il termine di bias nei modelli di machine learning o bias di previsione.

Consulta la sezione Equità: tipi di pregiudizi Machine Learning Crash Course per ulteriori informazioni.

bias (matematico) o termine bias

#fundamentals

Un'intercetta o un offset da un'origine. Il bias è un parametro di machine learning, che è simboleggiato da uno dei seguenti:

  • B
  • s0

Ad esempio, la parzialità è la b nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In una semplice linea bidimensionale, il bias significa semplicemente "intercetta y". Ad esempio, la parzialità della linea nell'illustrazione seguente è 2.

Traccia di una retta con pendenza pari a 0,5 e bias (intercetta y) pari a 2.

Il bias esiste perché non tutti i modelli partono dall'origine (0,0). Ad esempio: supponiamo che l'ingresso a un parco divertimenti costi 2 euro e una 0,5 € per ogni ora di soggiorno del cliente. Di conseguenza, un modello che mappa il costo totale è di 2 perché il costo più basso è di 2 euro.

I pregiudizi non devono essere confusi con i pregiudizi etici e corretti o bias di previsione.

Vedi Regressione lineare in Machine Learning Crash Course.

bidirezionale

#language

Termine utilizzato per descrivere un sistema che valuta il testo che precede e segue una sezione di testo target. Al contrario, un solo sistema unidirezionale valuta il testo che precede una sezione di testo di destinazione.

Ad esempio, considera un modello linguistico mascherato che deve determinare le probabilità per la parola o le parole che rappresentano la sottolineatura in la seguente domanda:

Cosa _____ con te?

Un modello linguistico unidirezionale dovrebbe basare solo le sue probabilità sul contesto fornito dalle parole "Che cos'è", "è" e "il". Al contrario, un modello linguistico bidirezionale potrebbe ricavare contesto anche da "con" e "tu", che possono aiutare il modello a generare previsioni migliori.

modello linguistico bidirezionale

#language

Un modello linguistico che determina la probabilità che un un determinato token sia presente in una determinata posizione in un estratto di testo basato su il testo precedente e successivo.

bigram

#seq
#language

Un N-gram in cui N=2.

classificazione binaria

#fundamentals

Un tipo di attività di classificazione che prevede una delle due classi che si escludono a vicenda:

Ad esempio, ognuno dei due modelli di machine learning seguenti per la classificazione binaria:

  • Un modello che determina se i messaggi email vengono spam (classe positiva) o non spam (classe esclusa).
  • Un modello che valuta i sintomi medici per determinare se una persona ha una particolare malattia (la classe positiva) o non ha questa patologia malattia (la classe negativa).

Confrontare con la classificazione multi-classe.

Vedi anche regressione logistica e soglia di classificazione.

Consulta la sezione Classificazione in Machine Learning Crash Course.

condizione binaria

#df

In un albero decisionale, una condizione che ha solo due possibili risultati, in genere o no. Ad esempio, la seguente è una condizione binaria:

temperature >= 100

Confrontare con condizione non binaria.

Vedi Tipi di condizioni nel corso sulle foreste decisionali per ulteriori informazioni.

Binning

Sinonimo di bucket.

BLEU (Bilingual Evaluation Understudy)

#language

Un punteggio compreso tra 0,0 e 1,0 inclusi, che indica la qualità di una traduzione tra due lingue umane (ad esempio tra inglese e russo). BLEU un punteggio pari a 1,0 indica una traduzione perfetta; un punteggio BLEU pari a 0,0 indica una traduzione terribile.

potenziamento

È una tecnica di machine learning che combina iterativamente un insieme di caratteristiche classificatori non molto precisi (indicati come classificatori "deboli") in un un classificatore ad alta precisione (un classificatore "forte") applicare l'upweighting agli esempi attuali del modello classificazione errata.

Vedi Gradient Boosted Decision Alberi? nel corso sulle foreste decisionali per ulteriori informazioni.

riquadro di delimitazione

#image

In un'immagine, le coordinate (x, y) di un rettangolo intorno a un'area di come il cane nell'immagine qui sotto.

Fotografia di un cane seduto su un divano. Un riquadro di delimitazione verde
          con coordinate in alto a sinistra di (275, 1271) e in basso a destra
          coordinate di (2954, 2761) circoscrive il corpo del cane

trasmissione

Espansione della forma di un operando in un'operazione matematica matriciale in dimensioni compatibili per l'operazione. Ad esempio: algebra lineare richiede che i due operandi in un'operazione di addizione matriciale devono avere le stesse dimensioni. Di conseguenza non puoi aggiungere una matrice di forma (m, n) a un vettore di lunghezza n. La trasmissione abilita questa operazione espandere virtualmente il vettore di lunghezza n a una matrice di forma (m, n) di replicando gli stessi valori in ogni colonna.

Ad esempio, date le definizioni seguenti, l'algebra lineare vieta A+B perché A e B hanno dimensioni diverse:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Tuttavia, la trasmissione consente l'operazione A+B espandendo virtualmente B in:

 [[2, 2, 2],
  [2, 2, 2]]

Pertanto, A+B è ora un'operazione valida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Vedi la seguente descrizione trasmissione in NumPy per ulteriori dettagli.

il bucketing

#fundamentals

Conversione di una singola caratteristica in più caratteristiche binarie chiamati bucket o bin, di solito in base a un intervallo di valori. La caratteristica suddivisa è in genere una funzionalità continua.

Ad esempio, invece di rappresentare la temperatura come un singolo funzione rappresentazione in virgola mobile continua, potresti tagliare intervalli di temperature in bucket discreti come:

  • <= 10 gradi Celsius corrisponde alla temperatura "freddo" di sincronizzare la directory di una VM con un bucket.
  • 11-24 gradi Celsius sarebbe la temperatura "temperata" di sincronizzare la directory di una VM con un bucket.
  • >= 25 gradi Celsius è la temperatura "calda" di sincronizzare la directory di una VM con un bucket.

Il modello tratterà in modo identico tutti i valori nello stesso bucket. Per Ad esempio, i valori 13 e 22 si trovano entrambi nel bucket temperato, quindi tratta i due valori in modo identico.

Consulta la sezione Dati numerici: Binning in Machine Learning Crash Course.

C

livello di calibrazione

Un aggiustamento post-previsione, di solito per tenere conto bias di previsione. Le previsioni rettificate le probabilità devono corrispondere alla distribuzione di un insieme di etichette osservato.

generazione di candidati

#recsystems

L'insieme iniziale di consigli scelto da un sistema di consigli. Ad esempio, considera un libreria che offre 100.000 titoli. La fase di generazione dei candidati un elenco molto più ridotto di libri adatti a un determinato utente, ad esempio 500. Ma anche 500 libri sono troppi per poterli consigliare a un utente. In seguito, più costoso, fasi di un sistema di suggerimenti (come il punteggio e riclassificazione) riduci a molto meno questi 500, insieme di consigli più utili.

Consulta la sezione Generazione di candidati panoramica nel corso Recommendation Systems per saperne di più.

campionamento dei candidati

Un'ottimizzazione dei tempi di addestramento che calcola una probabilità per tutte le Etichette positive, utilizzando, ad esempio, softmax, ma solo per un intervallo campione di etichette negative. Ad esempio, dato un esempio etichettato come beagle e dog, il campionamento dei candidati calcola le probabilità previste e i relativi termini di perdita per:

  • beagle
  • cane
  • un sottoinsieme casuale delle restanti classi negative (ad esempio, cat, lecca lecca, recinzione).

L'idea è che Le classi escluse possono apprendere da una frequenza meno frequente rinforzo negativo purché Le classi positive ricevono sempre un numero positivo adeguato il rafforzamento, che è effettivamente osservato empiricamente.

Il campionamento dei candidati è più efficiente dal punto di vista computazionale rispetto agli algoritmi di addestramento che calcolano previsioni per tutte le classi negative, in particolare quando di classi negative è molto elevato.

dati categorici

#fundamentals

Caratteristiche con un insieme specifico di valori possibili. Ad esempio: prendi in considerazione una caratteristica categorica denominata traffic-light-state, che può solo avere uno dei seguenti tre valori possibili:

  • red
  • yellow
  • green

Rappresentando traffic-light-state come caratteristica categorica, un modello può apprendere impatti diversi di red, green e yellow sul comportamento del conducente.

Le caratteristiche categoriche vengono a volte chiamate caratteristiche discrete.

Confrontare con i dati numerici.

Consulta l'articolo sull'utilizzo di etichette dati in Machine Learning Crash Course.

modello linguistico causale

#language

Sinonimo di modello linguistico unidirezionale.

Consulta il modello linguistico bidirezionale per i diversi approcci direzionali nella modellazione linguistica.

baricentro

#clustering

Il centro di un cluster come determinato da una metrica K-means Algoritmo k-median. Ad esempio, se k è 3, l'algoritmo k-means o k-median trova tre centroidi.

Vedi Algoritmi di clustering disponibili nel corso Clustering per ulteriori informazioni.

clustering basato su centroide

#clustering

Una categoria di algoritmi di clustering che organizza i dati in cluster non gerarchici. K-means è il metodo più utilizzato è stato utilizzato un algoritmo di clustering basato sul centroide.

Contrastare il clustering gerarchico degli algoritmi.

Vedi Algoritmi di clustering disponibili nel corso Clustering per ulteriori informazioni.

Chain-of-Thought Prompting

#language
#generativeAI

Una tecnica di prompt engineering che incoraggia un modello linguistico di grandi dimensioni (LLM) per spiegare la sua il ragionamento, passo dopo passo. Ad esempio, considera il seguente prompt: particolare attenzione alla seconda frase:

Quante forze g farebbe un conducente in un'auto che va da 0 a 60 miglia orarie in 7 secondi? Nella risposta, mostra tutti i calcoli pertinenti.

La risposta dell'LLM sarebbe probabilmente:

  • Mostra una sequenza di formule di fisica, inserendo i valori 0, 60 e 7 in luoghi appropriati.
  • Spiega perché ha scelto queste formule e il significato delle varie variabili.

La Chain-of-Thought Prompting obbliga l'LLM a eseguire tutti i calcoli, il che potrebbe portare a una risposta più corretta. Inoltre, la "catena di pensiero" consente all'utente di esaminare i passaggi dell'LLM per determinare se o meno la risposta abbia senso.

chat

#language
#generativeAI

I contenuti di un dialogo continuo con un sistema di ML, in genere modello linguistico di grandi dimensioni (LLM). L'interazione precedente in una chat (il testo digitato e il modo in cui il modello linguistico di grandi dimensioni ha risposto) diventa il contesto per le parti successive della chat.

Un chatbot è un'applicazione di un modello linguistico di grandi dimensioni (LLM).

posto di blocco

Dati che acquisiscono lo stato dei parametri di un modello durante l'addestramento o al termine dell'addestramento. Ad esempio, durante l'addestramento, puoi:

  1. Interrompere l'addestramento, magari intenzionalmente o forse in seguito a alcuni errori.
  2. Acquisisci il checkpoint.
  3. In seguito ricarica il checkpoint, possibilmente su hardware diverso.
  4. Riavvia addestramento.
di Gemini Advanced.

classe

#fundamentals

Una categoria a cui può appartenere un'etichetta. Ad esempio:

  • In un modello di classificazione binaria che rileva spam, le due classi potrebbero essere spam e non spam.
  • In un modello di classificazione multi-classe che identificano le razze canine, le classi possono essere barboncini, beagle, carlini, e così via.

Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero piuttosto che una classe.

Consulta la sezione Classificazione in Machine Learning Crash Course.

modello di classificazione

#fundamentals

Un modello la cui previsione è una classe. Ad esempio, di seguito sono riportati tutti i modelli di classificazione:

  • Un modello che prevede la lingua di una frase di input (francese? Spagnolo? l'italiano?).
  • Un modello che prevede le specie di alberi (Maple? Quercia? Baobab?).
  • Un modello che prevede la classe positiva o negativa per una particolare condizione medica.

Al contrario, i modelli di regressione prevedono i numeri anziché in classi.

Due tipi comuni di modelli di classificazione sono:

soglia di classificazione

#fundamentals

In una classificazione binaria, una numero compreso tra 0 e 1 che converte l'output non elaborato di un Modello di regressione logistica in una previsione della classe positiva o la classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non è un valore scelto dall'addestramento del modello.

Un modello di regressione logistica restituisce un valore non elaborato compreso tra 0 e 1. Quindi:

  • Se questo valore non elaborato è superiore alla soglia di classificazione, viene prevista la classe positiva.
  • Se questo valore non elaborato è inferiore alla soglia di classificazione, viene prevista la classe negativa.

Ad esempio, supponiamo che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.

La scelta della soglia di classificazione influenza fortemente il numero di falsi positivi e falsi negativi.

Consulta Soglie e confusione una matrice in Machine Learning Crash Course.

set di dati class-imbalanced

#fundamentals

Un set di dati per un problema di classificazione in cui il numero totale delle etichette di ogni classe differisce in modo significativo. Considera ad esempio un set di dati di classificazione binaria le cui etichette sono suddivise come segue:

  • 1.000.000 di etichette negative
  • 10 etichette positive

Il rapporto tra etichette negative e positive è 100.000 a 1, quindi questo è un set di dati di tipo sbilanciato delle classi.

Al contrario, il seguente set di dati non è di tipo sbilanciato a livello di classe perché il rapporto tra etichette negative ed etichette positive è relativamente vicino a 1:

  • 517 etichette escluse
  • 483 etichette positive

I set di dati multiclasse possono anche essere sbilanciati di classe. Ad esempio, il set di dati di classificazione multiclasse è anch'esso sbilanciato dalle classi perché un'etichetta contiene molti più esempi rispetto agli altri due:

  • 1.000.000 di etichette con la classe "verde"
  • 200 etichette con la classe "viola"
  • 350 etichette con la classe "arancione"

Vedi anche entropia, classe di maggioranza, e classe di minoranza.

ritaglio

#fundamentals

Una tecnica per gestire gli outlier mediante una o entrambe le seguenti opzioni:

  • Ridurre i valori di feature superiori a un valore massimo fino alla soglia massima.
  • Aumento dei valori delle caratteristiche che sono inferiori a una soglia minima fino a quel momento una soglia minima.

Ad esempio, supponiamo che <0,5% dei valori di una particolare caratteristica rientri al di fuori dell'intervallo 40-60. In questo caso, potresti procedere nel seguente modo:

  • Ritaglia tutti i valori superiori a 60 (la soglia massima) in modo che siano esattamente 60.
  • Ritaglia tutti i valori inferiori a 40 (la soglia minima) in modo che siano esattamente 40.

I valori anomali possono danneggiare i modelli, a volte causando ponderazioni durante l'addestramento. Alcuni outlier possono anche danneggiare significativamente come la accuratezza. Il ritaglio è una tecnica comune per limitare il danno.

Forze taglio della sfumatura valori del gradiente entro un intervallo designato durante l'addestramento.

Consulta la sezione Dati numerici: Normalizzazione in Machine Learning Crash Course.

Cloud TPU

#TensorFlow
#GoogleCloud

Un acceleratore hardware specializzato progettato per accelerare carichi di lavoro di machine learning su Google Cloud.

clustering

#clustering

Raggruppare esempi correlati, in particolare durante apprendimento non supervisionato. Una volta che gli esempi sono raggruppati e un essere umano può facoltativamente fornire un significato a ciascun cluster.

Esistono molti algoritmi di clustering. Ad esempio, la stringa K-means di cluster agli esempi in base alla loro vicinanza a una centroid, come nel seguente diagramma:

Un grafico bidimensionale in cui all&#39;asse x è etichettata la larghezza dell&#39;albero,
          mentre l&#39;asse y è chiamato &quot;altezza dell&#39;albero&quot;. Il grafico contiene due
          centroidi e diverse decine di punti dati. I punti dati sono
          classificati in base alla vicinanza. Vale a dire che i punti dati
          più vicine a un centroide sono classificate come cluster 1, mentre
          più vicine all&#39;altro centroide sono classificate come cluster 2.

Un ricercatore umano potrebbe quindi esaminare i cluster e, ad esempio, etichetta il cluster 1 come "alberi nani" e il cluster 2 come "alberi a grandezza naturale".

Come ulteriore esempio, consideriamo un algoritmo di clustering basato su distanza di un esempio da un punto centrale, illustrata come segue:

Decine di punti dati sono disposti in cerchi concentrici, quasi
          come dei fori al centro di un bersaglio. L&#39;anello più interno
          dei punti dati è classificato come cluster 1, l&#39;anello centrale
          è classificato come cluster 2 e l&#39;anello più esterno
          cluster 3.

Consulta il corso sul clustering per ulteriori informazioni.

co-adattamento

Quando i neuroni prevedono modelli nei dati di addestramento basandosi quasi esclusivamente sugli output di altri specifici neuroni, invece di fare affidamento sul comportamento della rete nel suo complesso. Quando i pattern che causano il co-adattamento non sono presenti nei dati di convalida, il co-adattamento provoca l'overfitting. La regolarizzazione dell'abbandono riduce il co-adattamento perché l'abbandono assicura che i neuroni non possano basarsi esclusivamente su altri specifici neuroni.

filtro collaborativo

#recsystems

Fare previsioni sugli interessi di un utente in base agli interessi di molti altri utenti. Filtro collaborativo viene spesso utilizzata nei sistemi di consigli.

Vedi Collaborative filtri nel corso Recommendation Systems per saperne di più.

deviazione concettuale

Uno spostamento nella relazione tra caratteristiche ed etichetta. Nel tempo, la deviazione concettuale riduce la qualità di un modello.

Durante l'addestramento, il modello apprende la relazione tra le caratteristiche le relative etichette nel set di addestramento. Se le etichette nel set di addestramento vengono buoni proxy per il mondo reale, il modello dovrebbe rappresentare previsioni del mondo reale. Tuttavia, a causa della deviazione concettuale, il modello le previsioni tendono a peggiorare nel tempo.

Ad esempio, considera una classificazione binaria modello di auto che preveda se un determinato modello di auto rispetta o meno il consumo di carburante. In altre parole, le caratteristiche potrebbero essere:

  • peso dell'auto
  • compressione
  • tipo di trasmissione

mentre l'etichetta è:

  • a basso consumo di carburante
  • non a basso consumo di carburante

Tuttavia, il concetto di "auto a basso consumo" conserva cambiare. Un modello di auto etichettato come a basso consumo nel 1994 avrebbe quasi certamente avere l'etichetta non efficiente nel consumo di carburante nel 2024. Un modello affetto da deviazione concettuale tende a fare previsioni sempre meno utili nel corso del tempo.

Confrontare i dati con nonstationarity.

condizione

#df

In un albero decisionale, qualsiasi nodo che valuta un'espressione. Ad esempio, la seguente parte di l'albero decisionale contiene due condizioni:

Una struttura decisionale composta da due condizioni: (x > 0) e
          (y > 0).

Una condizione viene chiamata anche suddivisione o test.

Contrasta la condizione con foglia.

Vedi anche:

Vedi Tipi di condizioni nel corso sulle foreste decisionali per ulteriori informazioni.

confabulazione

#language

Sinonimo di allucinazione.

Confabulazione è probabilmente un termine più preciso dal punto di vista tecnico dell'allucinazione. Tuttavia, l'allucinazione è diventata popolare all'inizio.

configurazione

Il processo di assegnazione dei valori iniziali delle proprietà usati per addestrare un modello, tra cui:

Nei progetti di machine learning, la configurazione può essere eseguita attraverso un'apposita file di configurazione o utilizzando librerie di configurazione come le seguenti:

bias di conferma

#fairness

La tendenza a cercare, interpretare, favorire e ricordare le informazioni in un che confermi le convinzioni o le ipotesi preesistenti. Gli sviluppatori di machine learning potrebbero inavvertitamente raccogliere o etichettare dati in modi che influenzano un risultato a supporto della loro credenze. Il bias di conferma è una forma di pregiudizio implicito.

Il bias dell'esperimento è una forma di bias di conferma, in cui uno sperimentatore continua ad addestrare i modelli finché ipotesi è confermata.

matrice di confusione

#fundamentals

Tabella NxN che riassume il numero di previsioni corrette ed errate creato da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per di classificazione binaria:

Tumore (previsto) Nessun tumore (previsto)
Tumore (dati empirici reali) 18 (VP) 1 (FN)
Non tumori (dati empirici reali) 6 (FP) 452 (VN)

La matrice di confusione precedente mostra quanto segue:

  • Delle 19 previsioni in cui i dati empirici reali riguardavano Tumor, il modello è classificato correttamente 18 e classificato in modo errato 1.
  • Delle 458 previsioni in cui i dati di fatto erano non tumori, il modello la classificazione 452 e la classificazione errata 6.

La matrice di confusione per una classificazione multiclasse problema può aiutarti a identificare schemi di errori. Considera ad esempio la seguente matrice di confusione per un modello a 3 classi modello di classificazione multiclasse che classifica tre diversi tipi di iris (Virginica, Versicolor e Setosa). Quando la verità di fondo fu Virginica, la matrice di confusione mostra che il modello era molto più propenso a generare prevedere Versicolor anziché Setosa:

  Setosa (previsto) Versicolor (previsto) Virginica (previsto)
Setosa (dati empirici reali) 88 12 0
Versicolor (dati empirici reali) 6 141 7
Virginica (dati empirici reali) 2 27 109

Un altro esempio è che una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere le cifre scritte a mano libera tende a prevedere erroneamente 9 anziché 4, o prevedere erroneamente 1 invece di 7.

Le matrici di confusione contengono informazioni sufficienti per calcolare una serie di metriche delle prestazioni, tra cui la precisione e richiamo.

analisi del collegio elettorale

#language

Dividere una frase in strutture grammaticali più piccole ("costituenti"). Una parte successiva del sistema ML, come comprensione del linguaggio naturale, è in grado di analizzare i costituenti più facilmente rispetto alla frase originale. Ad esempio: considera la seguente frase:

Il mio amico ha adottato due gatti.

Un parser del collegio elettorale può dividere questa frase nella seguente due costituenti:

  • Il mio amico è una frase sostantivo.
  • adopted two cats è una frase verbale.

Questi costituenti possono essere ulteriormente suddivisi in costituenti più piccoli. Ad esempio, la frase del verbo

due gatti adottati

potrebbero essere ulteriormente suddivisi in:

  • adopted è un verbo.
  • two cats è un'altra frase sostantivo.

incorporamento linguistico contestualizzato

#language
#generativeAI

Un incorporamento che si avvicina alla "comprensione" parole e frasi in modi impensabili dai madrelingua. Linguaggio contestualizzato gli incorporamenti sono in grado di comprendere sintassi, semantica e contesto complessi.

Considera ad esempio le rappresentazioni distribuite della parola inglese cow. Incorporamenti meno recenti ad esempio word2vec può rappresentare l'inglese parole in modo che la distanza nello spazio di incorporamento da mucca a toro è simile alla distanza tra pecora (femmina) a ariete (maschio di pecora) o da femmina a maschio. Linguaggio contestualizzato gli incorporamenti possono fare un passo oltre, riconoscendo che a volte gli anglofoni usare casualmente la parola mucca per indicare mucca o toro.

finestra contestuale

#language
#generativeAI

Il numero di token che un modello può elaborare in un determinato prompt. Più grande è la finestra contestuale, maggiori sono le informazioni il modello può utilizzare per fornire risposte coerenti e coerenti al prompt.

funzionalità continua

#fundamentals

Una caratteristica in virgola mobile con una gamma infinita di possibili come temperatura o peso.

Contrasta con funzionalità discrete.

campionamento di convenienza

Utilizzo di un set di dati non raccolto scientificamente per eseguire rapide esperimenti. In seguito, è essenziale passare a un'istanza del set di dati.

convergenza

#fundamentals

Uno stato raggiunto quando i valori di perdita cambiano molto poco o del tutto a ogni iterazione. Ad esempio, La curva di perdita suggerisce la convergenza a circa 700 iterazioni:

grafico cartesiano. L&#39;asse X è in perdita. L&#39;asse Y è il numero di addestramento
          di Google Cloud. La perdita è molto elevata nelle prime iterazioni, ma
          cala drasticamente. Dopo circa 100 iterazioni, la perdita è ancora
          in discesa, ma molto più gradualmente. Dopo circa 700 iterazioni,
          la perdita rimane piatta.

Un modello converge quando non serve addestramento aggiuntivo migliorare il modello.

Nel deep learning, i valori di perdita a volte rimangono costanti o quasi per molte iterazioni, prima di scendere. Per un lungo periodo di valori di perdita costante, potresti avere temporaneamente un falso senso di convergenza.

Vedi anche interruzione anticipata.

Vedi Convergenza e perdita del modello curve in Machine Learning Crash Course.

funzione convessa

Una funzione in cui la regione sopra il grafico della funzione è una insieme convesso: La funzione convessa prototipica è a forma di qualcosa come la lettera U. Ad esempio, sono tutte funzioni convessive:

Curve a forma di U, ciascuna con un singolo punto minimo.

Al contrario, la funzione seguente non è convessa. Nota come la regione sopra il grafico non è un insieme convesso:

Una curva a forma di W con due diversi punti minimi locali.

Una funzione strettamente convessa ha esattamente un punto minimo locale, che è anche il punto minimo globale. Le funzioni classiche a forma di U funzioni strettamente convesse. Tuttavia, alcune funzioni convessi (ad es. le linee rette) non hanno la forma a U.

Vedi Convergenza e conv. in Machine Learning Crash Course.

ottimizzazione convessa

Il processo di utilizzo di tecniche matematiche come discesa del gradiente per trovare il minimo di una funzione convessa. Molte ricerche nel campo del machine learning si sono concentrate sulla formulazione di vari come problemi di ottimizzazione convessi e per risolverli maggiormente in modo efficiente.

Per i dettagli completi, si veda Boyd e Vandenberghe, Convex Ottimizzazione.

insieme convesso

Un sottoinsieme dello spazio euclideo in modo che una linea tracciata tra due punti qualsiasi rimane completamente all'interno del sottoinsieme. Ad esempio, i due seguenti le forme sono insiemi convessi:

Un&#39;illustrazione di un rettangolo. Un&#39;altra illustrazione di un ovale.

Al contrario, le due forme seguenti non sono insiemi convessi:

Illustrazione di un grafico a torta con una sezione mancante.
          Un&#39;altra illustrazione di un poligono molto irregolare.

convoluzione

#image

In matematica, in modo casuale, un mix di due funzioni. Nella macchina di apprendimento, una convoluzione mescola le convoluzioni filtro e la matrice di input per addestrare le ponderazioni.

Il termine "convoluzione" nel machine learning è spesso un modo breve in riferimento alle operazioni convoluzionali o livello convoluzionale.

Senza convoluzioni, un algoritmo di machine learning dovrebbe apprendere un peso separato per ogni cella di un tensore di grandi dimensioni. Ad esempio: un algoritmo di machine learning addestrato su immagini 2K x 2K verrebbe forzato 4 milioni di pesi separati. Grazie alle convoluzioni, viene usata l'algoritmo deve trovare i pesi solo per ogni cella filtro convoluzionale, che riduce drasticamente la memoria necessaria per addestrare il modello. Quando il filtro convoluzionale è applicata, viene semplicemente replicata nelle celle in modo che ciascuna venga moltiplicata dal filtro.

Consulta l'articolo Introduzione alla rete neurale convoluzionale Reti nel corso Classificazione delle immagini per ulteriori informazioni.

filtro convoluzionale

#image

Uno dei due attori in una operazioni convoluzionali. (l'altro attore è una fetta di una matrice di input). Un filtro convoluzionale è una matrice che stessa ranking della matrice di input, ma di forma più piccola. Ad esempio, data una matrice di input 28x28, il filtro può essere qualsiasi matrice 2D più piccolo di 28 x 28.

Nella manipolazione fotografica, tutte le celle di un filtro convoluzionale vengono in genere è impostato su uno schema costante di uno e zero. Nel machine learning, i filtri convoluzionali sono generalmente basati su numeri casuali e la rete addestra i valori ideali.

Vedi Convolution nel corso Classificazione delle immagini per ulteriori informazioni.

livello convoluzionale

#image

Un livello di una rete neurale profonda in cui un filtro convoluzionale passa lungo un input . Ad esempio, considera il seguente filtro convoluzionale:

Una matrice 3x3 con i seguenti valori: [[0,1,0], [1,0,1], [0,1,0]]

La seguente animazione mostra un livello convoluzionale di 9 le operazioni convoluzionali che coinvolgono la matrice di input 5x5. Nota che ogni l'operazione convoluzionale funziona su una sezione 3x3 diversa della matrice di input. La matrice 3x3 risultante (a destra) è composta dai risultati delle 9 le operazioni convoluzionali:

Un&#39;animazione che mostra due matrici. La prima matrice è la 5x5
          matrice: [[128,97,53,201,198], [35,22,25,200,195],
          [37.24.28.197.182], [33.28.92.195.179], [31.40.100.192.177].
          La seconda matrice è la 3x3:
          [[181.303.618], [115.338.605], [169.351.560]].
          La seconda matrice viene calcolata applicando il modello
          filtro [[0, 1, 0], [1, 0, 1], [0, 1, 0]] attraverso
          sottoinsiemi 3x3 diversi della matrice 5x5.

Vedi Completamente connesso. Livelli nel corso Classificazione delle immagini per ulteriori informazioni.

rete neurale convoluzionale

#image

Una rete neurale in cui almeno uno strato è una livello convoluzionale. Un tipico processo convoluzionale la rete neurale è composta da una combinazione dei seguenti strati:

Le reti neurali convoluzionali hanno avuto un grande successo in alcuni tipi di problemi come il riconoscimento delle immagini.

operazione convoluzionale

#image

La seguente operazione matematica in due fasi:

  1. La moltiplicazione a livello di elemento filtro convoluzionale e una porzione di una matrice di input. (la porzione della matrice di input ha lo stesso rango e dimensione come filtro convoluzionale).
  2. Somma di tutti i valori nella matrice del prodotto risultante.

Considera ad esempio la seguente matrice di input 5x5:

La matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37.24.28.197.182], [33.28.92.195.179], [31.40.100.192.177].

Ora immagina il seguente filtro convoluzionale 2 x 2:

La matrice 2x2: [[1, 0], [0, 1]]

Ogni operazione convoluzionale coinvolge una singola sezione 2x2 una matrice di input. Ad esempio, supponiamo di usare la sezione 2 x 2 in alto a sinistra della matrice di input. Quindi, l'operazione di convoluzione questa sezione ha il seguente aspetto:

Applicazione del filtro convoluzionale [[1, 0], [0, 1]] in alto a sinistra
          sezione 2x2 della matrice di input, che è [[128,97], [35,22]].
          Il filtro convoluzionale lascia intatti i moduli 128 e 22, ma gli zeri
          il 97 e il 35. Di conseguenza, l&#39;operazione di convoluzione
          il valore 150 (128+22).

Un livello convoluzionale è costituito da un serie di operazioni convoluzionali, ciascuna che agisce su una sezione diversa della matrice di input.

costo

Sinonimo di perdita.

addestramento collaborativo

Un approccio di apprendimento semi-supervisionato particolarmente utile quando tutte le seguenti condizioni sono vere:

Il co-addestramento amplifica essenzialmente i segnali indipendenti, trasformandoli in un segnale più forte. Ad esempio, considera un modello di classificazione che classifica le singole auto usate come Buono o Scadente. Un set di le caratteristiche predittive potrebbero concentrarsi su caratteristiche aggregate come anno, marca e modello dell'auto; un altro insieme di caratteristiche predittive potrebbe concentrarsi il libretto di guida del proprietario precedente e la cronologia degli interventi di manutenzione dell'auto.

L'articolo principale sulla co-addestramento è Combinare dati etichettati e non etichettati con Co-training di Blum e Mitchell.

equità controfattuale

#fairness

Una metrica di equità che verifica se un classificatore produce per un individuo lo stesso risultato che per un altro individuo identico al primo, tranne che in relazione a uno o più attributi sensibili. Valutazione di un classificatore per l'equità controfattuale è un metodo per far emergere potenziali fonti di pregiudizi esistenti in un modello.

Per ulteriori informazioni, consulta le seguenti sezioni:

bias di copertura

#fairness

Vedi bias di selezione.

fiore in fiore

#language

Una frase o una frase con un significato ambiguo. Le fioriture dei arresti anomali rappresentano un grave problema in naturali la comprensione delle lingue. Ad esempio, il titolo Nastro rosso regge un grattacielo è un perché un modello NLU potrebbe interpretare il titolo letteralmente o in senso figurato.

critico

#rl

Sinonimo di Deep Q-Network.

entropia incrociata

Una generalizzazione della perdita logaritmica problemi di classificazione multiclasse. Entropia incrociata quantifica la differenza tra due distribuzioni di probabilità. Vedi anche perplessità.

convalida incrociata

Un meccanismo per stimare la capacità di un modello di generalizzare nuovi dati testando il modello su uno o più sottoinsiemi di dati non sovrapposti trattenute dal set di addestramento.

funzione di distribuzione cumulativa (CDF)

Una funzione che definisce la frequenza dei campioni minore o uguale a valore target. Considera ad esempio una normale distribuzione di valori continui. La CDF indica che circa il 50% dei campioni dovrebbe essere inferiore o uguale a media e che circa l'84% dei campioni dovrebbe essere inferiore o uguale a una deviazione standard sopra la media.

D

analisi dei dati

Comprendere i dati prendendo in considerazione campioni, misurazioni e visualizzazione. L'analisi dei dati può essere particolarmente utile quando viene ricevuto per la prima volta, prima di creare il primo modello. È fondamentale anche per comprendere gli esperimenti e risolvere i problemi con all'interno del sistema.

aumento dei dati

#image

Aumentare artificialmente l'intervallo e il numero di esempi di addestramento trasformando le applicazioni examples per creare altri esempi. Ad esempio: supponiamo che le immagini siano uno dei tuoi features, ma il tuo set di dati no Deve contenere un numero sufficiente di esempi di immagini per consentire al modello di apprendere associazioni utili. L'ideale sarebbe aggiungere un numero sufficiente immagini etichettate nel set di dati per per addestrare correttamente il modello. Se ciò non è possibile, l'aumento dei dati possono ruotare, allungare e riflettere ciascuna immagine per produrre molte varianti del originale in grado di produrre dati etichettati sufficienti per consentire un'eccellente addestramento.

DataFrame

#fundamentals

Un tipo di dati panda molto diffuso per la rappresentazione set di dati in memoria.

Un DataFrame è analogo a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.

Ogni colonna di un DataFrame è strutturata come un array 2D, ad eccezione del fatto che a ciascuna colonna può essere assegnato un proprio tipo di dati.

Vedi anche i link ufficiali Riferimento pandas.DataFrame alla pagina di destinazione.

parallelismo dei dati

Un modo per scalare l'addestramento o l'inferenza che replica un intero modello su più dispositivi e poi passa un sottoinsieme dei dati di input a ciascuno di essi. Il parallelismo dei dati può consentire l'addestramento e l'inferenza su modelli dimensioni dei batch; tuttavia, il parallelismo dei dati richiede sia abbastanza piccolo da poter essere installato su tutti i dispositivi.

Il parallelismo dei dati in genere velocizza l'addestramento e l'inferenza.

Vedi anche parallelismo del modello.

set di dati o set di dati

#fundamentals

Una raccolta di dati non elaborati, comunemente (ma non esclusivamente) organizzati in un dei seguenti formati:

  • un foglio di lavoro
  • un file in formato CSV (valori separati da virgola)

API Dataset (tf.data)

#TensorFlow

Un'API TensorFlow di alto livello per la lettura dei dati e di trasformarlo in una forma richiesta da un algoritmo di machine learning. Un oggetto tf.data.Dataset rappresenta una sequenza di elementi, in cui ogni elemento contiene uno o più Tensor. tf.data.Iterator fornisce accesso agli elementi di un Dataset.

confine decisionale

Il separatore tra classi apprese da un model in un classe binaria oppure problemi di classificazione multiclasse. Ad esempio: nell'immagine seguente che rappresenta un problema di classificazione binaria, il confine decisionale è la frontiera tra la classe arancione e la classe blu:

Un confine ben definito tra una classe e un&#39;altra.

foresta decisionale

#df

Un modello creato da più alberi decisionali. Una foresta decisionale effettua una previsione aggregando le previsioni ai suoi alberi decisionali. Tra i tipi più diffusi di foreste decisionali ci sono foreste casuali e alberi ad alto gradiente.

Consulta la Decisione Foreste del corso sulle foreste decisionali per ulteriori informazioni.

soglia di decisione

Sinonimo di soglia di classificazione.

albero decisionale

#df

Un modello di apprendimento supervisionato composto da un insieme condizioni e lascia organizzate in modo gerarchico. Ad esempio, di seguito è riportato un albero decisionale:

Un albero decisionale composto da quattro condizioni disposte
          in modo gerarchico, che porta a cinque foglie.

decodificatore

#language

In generale, qualsiasi sistema ML che esegue la conversione da una rappresentazione interna a una rappresentazione più RAW, sparsa o esterna.

I decoder sono spesso un componente di un modello più grande, in cui vengono accoppiato con un encoder.

Nelle attività da sequenza a sequenza, un decoder inizia con lo stato interno generato dall'encoder per prevedere la risposta sequenza.

Fai riferimento a Transformer per la definizione di un decoder all'interno l'architettura Transformer.

Scopri i modelli linguistici di grandi dimensioni (LLM) in Machine Learning Crash Course.

modello di analisi approfondita

#fundamentals

Una rete neurale contenente più di una strato nascosto.

Un modello profondo è anche chiamato rete neurale profonda.

Contrasta con il modello largo.

per le reti neurali profonde

Sinonimo di deep model.

Deep Q-Network (DQN)

#rl

Nel Q-learning, una profonda rete neurale che prevede le funzioni Q.

Critic è un sinonimo di Deep Q-Network.

Parità demografica

#fairness

Una metrica di equità che viene soddisfatta se i risultati della classificazione di un modello non dipendono da un attributo sensibile.

Ad esempio, se sia Lilliputiano sia Brobdingnagiano si applicano Glubbdubdrib University, la parità demografica si ottiene se la percentuale di lilliputi ammessi è uguale alla percentuale di Brobdingnagiani ammessi, indipendentemente dal fatto che un gruppo sia in media più qualificato rispetto all'altro.

Contrastare con quote uguali e uguaglianza di opportunità, che consente la classificazione dei risultati in modo aggregato dipendere da attributi sensibili, ma non consentono risultati di classificazione per determinati Le etichette dei dati empirici reali dipendono da attributi sensibili. Consulta: "Attacco discriminazione con un machine learning più intelligente" per una visualizzazione esplorare i compromessi nell'ottimizzazione per la parità demografica.

Consulta Equità: dati demografici parità in Machine Learning Crash Course.

riduzione del rumore

#language

Un approccio comune all'apprendimento autonomo in cui:

  1. Il rumore viene aggiunto artificialmente al set di dati.
  2. Il modello prova a rimuovere il rumore.

La riduzione del rumore consente di apprendere da esempi non etichettati. Il set di dati originale funge da target o label e i dati rumorosi come input.

Alcuni modelli linguistici mascherati utilizzano la riduzione del rumore. come segue:

  1. Il rumore viene aggiunto artificialmente a una frase non etichettata mascherando alcune i token.
  2. Il modello cerca di prevedere i token originali.

caratteristica densa

#fundamentals

Una caratteristica in cui la maggior parte o tutti i valori sono diversi da zero, in genere un Tensor di valori in virgola mobile. Ad esempio, Il Tensor a 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:

8 3 7 5 2 4 0 4 9 6

Contrasta la caratteristica sparsa.

strato denso

Sinonimo di livello completamente connesso.

profondità

#fundamentals

La somma di quanto segue in una rete neurale:

Ad esempio, una rete neurale con cinque strati nascosti e uno di output ha una profondità di 6.

Nota che il livello di input non influenza in profondità.

sepCNN (rete neurale convoluzionale separabile profondamente)

#image

Una rete neurale convoluzionale basata su cloud Inception, ma dove i moduli Inception sono sostituiti da moduli separabili in profondità convoluzioni. Chiamato anche Xception.

Una convoluzione separabile profondamente (abbreviata anche come convoluzione separabile). Fattorizza una convoluzione 3D standard in due operazioni di convoluzione separate più efficienti dal punto di vista computazionale: in primo luogo, una convoluzione di profondità, con una profondità di 1 (n x n x 1), e quindi, la seconda, una convoluzione puntuale, di lunghezza e larghezza di 1 (1 x 1 x n).

Per saperne di più, consulta Xception: deep learning con Depthwise Separable Convoluzioni.

etichetta derivata

Sinonimo di etichetta proxy.

dispositivo

#TensorFlow
#GoogleCloud

Un termine sovraccarico con le due possibili definizioni seguenti:

  1. Una categoria di hardware in grado di eseguire una sessione TensorFlow, tra cui CPU, GPU e TPU.
  2. Durante l'addestramento di un modello ML sui chip dell'acceleratore (GPU o TPU), la parte del sistema che manipola effettivamente tensori e incorporamenti. Il dispositivo funziona su chip dell'acceleratore. Al contrario, l'attributo host di solito viene eseguito su una CPU.

privacy differenziale

Nel machine learning, un approccio all'anonimizzazione per proteggere i dati sensibili (ad esempio, le informazioni personali di un individuo) incluse nel set di addestramento. Questo approccio garantisce Che il modello non apprenda o non ricordi molto su una specifica privato. Ciò si ottiene campionando e aggiungendo rumore durante il modello dell’addestramento per oscurare i singoli punti dati, mitigando il rischio di sensibili per l'addestramento.

La privacy differenziale viene utilizzata anche al di fuori del machine learning. Ad esempio: i data scientist a volte usano la privacy differenziale per proteggere privacy quando si calcolano statistiche sull'utilizzo dei prodotti per gruppi demografici diversi.

riduzione della dimensione

Ridurre il numero di dimensioni utilizzate per rappresentare una particolare caratteristica in un vettore di caratteristiche, tipicamente per la conversione in un vettore di incorporamento.

dimensioni

Termine sovraccarico con una delle seguenti definizioni:

  • Il numero di livelli di coordinate in un Tensor. Ad esempio:

    • Uno scalare ha dimensioni pari a zero; ad esempio ["Hello"].
    • Un vettore ha una dimensione; ad esempio [3, 5, 7, 11].
    • Una matrice ha due dimensioni: ad esempio [[2, 4, 18], [5, 7, 14]]. Puoi specificare in modo univoco una particolare cella in un vettore unidimensionale con una sola coordinata; sono necessarie due coordinate per specificare particolare cella in una matrice bidimensionale.
  • Il numero di voci in un vettore di caratteristiche.

  • Il numero di elementi in un livello di incorporamento.

richiesta diretta

#language
#generativeAI

Sinonimo di prompt zero-shot.

caratteristica discreta

#fundamentals

Una caratteristica con un insieme finito di valori possibili. Ad esempio: una caratteristica i cui valori possono essere solo animal, vegetable o mineral è un caratteristica discreta (o categorica).

Contrasta la funzionalità continua.

modello discriminativo

Un modello che prevede le etichette da un insieme di uno o altre funzionalità. Più formalmente, i modelli discriminativi definiscono probabilità condizionale di un output date le caratteristiche e weights; cioè:

p(output | features, weights)

Ad esempio, un modello che prevede se un'email è spam proveniente da caratteristiche e ponderazioni è un modello discriminativo.

La maggior parte dei modelli di apprendimento supervisionato, inclusa la classificazione e di regressione, sono modelli discriminativi.

Confrontare con il modello generato.

discriminatore

Un sistema che determina se gli esempi sono reali o falsi.

Al contrario, il sottosistema all'interno di un avversario generato rete che determina se gli esempi creati dal generatore sono reali o falsi.

Consulta Il discriminatore nel corso GAN per ulteriori informazioni.

impatto imparziale

#fairness

Prendere decisioni su persone che hanno un impatto su una popolazione diversa in modo sproporzionato. In genere si riferisce a situazioni in cui un processo decisionale algoritmico danneggia o ne beneficia alcuni sottogruppi più di altri.

Ad esempio, supponiamo che un algoritmo che determina la l'idoneità a un mutuo per la casa in miniatura ha maggiori probabilità di classificare li contrassegna come "non idonei" se l'indirizzo postale contiene una determinata codice postale. Se i lilliputini di Big-Endian hanno maggiori probabilità di indirizzi postali con questo codice postale rispetto ai Little-Endian Lilliputians, questo algoritmo potrebbe avere un impatto disparato.

Contrastarli con un trattamento dispari. che si concentra sulle disparità che si verificano quando le caratteristiche del sottogruppo sono input espliciti di un processo decisionale algoritmico.

trattamento disparato

#fairness

Fattorizzazione dei soggetti attributi sensibili in un processo decisionale algoritmico in modo che diversi sottogruppi delle persone vengono trattate in modo diverso.

Ad esempio, consideriamo un algoritmo determina la situazione dei lilliputi idoneità a un mutuo per la casa in miniatura in base al i dati forniti nella richiesta di prestito. Se l'algoritmo utilizza un parametro l'affiliazione di Lilliputian come Big-Endian o Little-Endian come input, sta adottando un trattamento dispaziato in questa dimensione.

Usa il contrasto con l'impatto disparato, che si concentra sulle disparità nell'impatto sociale delle decisioni algoritmiche sui sottogruppi, a prescindere dal fatto che questi sottogruppi siano input del modello.

distillazione

#generativeAI

Il processo di riduzione delle dimensioni di un modello (noto come teacher) in un modello più piccolo (noto come studente) che emula le previsioni del modello originale nel modo più fedele possibile. Distillazione è utile perché il modello più piccolo presenta due vantaggi principali rispetto a quello più grande modello (l'insegnante):

  • Tempi di inferenza più rapidi
  • Consumo energetico e di memoria ridotti

Tuttavia, le previsioni dello studente in genere non sono buone come le previsioni dell'insegnante.

La distillazione addestra il modello studente a ridurre al minimo funzione di perdita basata sulla differenza tra gli output delle previsioni dei modelli di studenti e insegnanti.

Confronta la distillazione con i seguenti termini:

Vedi LLM: ottimizzazione, distillazione e prompt tecnica in Machine Learning Crash Course.

distribution

La frequenza e l'intervallo di valori diversi per un determinato feature o label. Una distribuzione acquisisce la probabilità di un particolare valore.

La seguente immagine mostra gli istogrammi di due diverse distribuzioni:

  • A sinistra, una distribuzione della ricchezza in base alla legge del potere e il numero di persone che possiedono questa ricchezza.
  • A destra, una normale distribuzione dell'altezza rispetto al numero di persone che posseggono quell'altezza.

Due istogrammi. Un istogramma mostra una distribuzione della legge di potenza con
          la ricchezza sull&#39;asse x e il numero di persone che hanno quella ricchezza sull&#39;
          sull&#39;asse y. La maggior parte delle persone ha poca ricchezza e poche persone
          molta ricchezza. L&#39;altro istogramma mostra una distribuzione normale
          con altezza sull&#39;asse x e numero di persone con quella altezza
          sull&#39;asse y. La maggior parte delle persone è raggruppata in una zona vicina alla media.

Comprendere la distribuzione di ogni caratteristica e etichetta può aiutarti a stabilire in che modo per normalizzare i valori e rilevare gli outlier.

La frase fuori distribuzione si riferisce a un valore che non compare nel o è molto raro. Ad esempio, l'immagine del pianeta Saturno sarebbe considerata fuori distribuzione per un set di dati costituito da immagini di gatti.

clustering divisivo

#clustering

Consulta il clustering gerarchico.

sottocampionamento

#image

Termine sovraccaricato che può indicare uno dei seguenti termini:

  • Ridurre la quantità di informazioni in una caratteristica in per addestrare un modello in modo più efficiente. Ad esempio: prima di addestrare un modello di riconoscimento delle immagini, eseguendo il sottocampionamento a un formato a risoluzione inferiore.
  • Formazione su una percentuale sproporzionatamente bassa di persone sovrarappresentate classe al fine di migliorare l'addestramento dei modelli sulle classi sottorappresentate. Ad esempio, in una classe sbilanciata , i modelli tendono ad apprendere molto sul classe della maggioranza e non abbastanza classe della minoranza. Il sottocampionamento aiuta bilanciare la quantità di formazione per le classi di maggioranza e minoranze.

Vedi Set di dati: sbilanciato set di dati in Machine Learning Crash Course.

DQN

#rl

Abbreviazione di Deep Q-Network.

regolarizzazione dell'abbandono

Una forma di regolarizzazione utile nell'addestramento reti neurali. Regolarizzazione abbandono rimuove una selezione casuale di un numero fisso di unità in una rete per un singolo passaggio del gradiente. Più unità sono state eliminate, più forti la regolarizzazione. È un processo analogo all'addestramento della rete per emulare un insieme di reti più piccole in modo esponenziale. Per informazioni dettagliate, vedi Dropout: un modo semplice per impedire alle reti neurali Overfitting.

dinamico

#fundamentals

Operazione frequente o continuativa. I termini dinamico e online sono sinonimi nel machine learning. Di seguito sono riportati gli utilizzi comuni di dinamico e online nelle macchine apprendimento:

  • Un modello dinamico (o modello online) è un modello che viene riaddestrato di frequente o di continuo.
  • L'addestramento dinamico (o formazione online) è il processo di addestramento frequentemente o continuativamente.
  • L'inferenza dinamica (o inferenza online) è il processo di per generare previsioni on demand.

modello dinamico

#fundamentals

Un modello che è frequente (forse anche continuamente) riaddestrato. Un modello dinamico impara tutta la vita che si adatta costantemente ai dati in continua evoluzione. Un modello dinamico è anche noto come modello online.

Contrasta il modello statico.

E

esecuzione entusiasta

#TensorFlow

Un ambiente di programmazione TensorFlow in cui vengono eseguite operazioni vengono eseguiti immediatamente. Al contrario, le operazioni richiamate l'esecuzione del grafico non viene eseguita finché non viene eseguita viene valutato. L'esecuzione con entusiasmo è un'interfaccia imperativa, come il codice nella maggior parte dei linguaggi di programmazione. I programmi di esecuzione implacabili sono di solito è molto più facile eseguire il debug rispetto ai programmi di esecuzione su grafici.

interruzione anticipata

#fundamentals

Un metodo di regolarizzazione che prevede la fine addestramento prima della fine della perdita dell'addestramento in diminuzione. Con l'interruzione anticipata, interrompi intenzionalmente l'addestramento del modello quando la perdita su un set di dati di convalida inizia increase; cioè quando le prestazioni di generalizzazione peggiorano.

distanza del movimento terra (EMD)

Una misura della somiglianza relativa tra due distribuzioni. Più bassa è la distanza del movimento terra, più simili sono le distribuzioni.

modifica distanza

#language

Una misura della somiglianza tra due stringhe di testo. Nel machine learning, la modifica della distanza è utile perché è semplice ed è un modo efficace per confrontare due stringhe note per essere o per trovare stringhe simili a una determinata stringa.

Esistono diverse definizioni della distanza di modifica, ognuna con stringhe diverse operazioni aziendali. Ad esempio, Distanza Levenshtein considera il minor numero di operazioni di eliminazione, inserimento e sostituzione.

Ad esempio, la distanza di Levenshtein tra le parole "cuore" e "dardi" è 3 perché le seguenti 3 modifiche sono il minor numero di cambiamenti da trasformare una parola nell'altro:

  1. cuore → deart (sostituisci "h" con "d")
  2. deart → esercito (elimina "e")
  3. freccette → freccette (insert "s")

Notazione einsum

Una notazione efficiente per descrivere come devono essere due tensori combinati. I tensori vengono combinati moltiplicando gli elementi di un tensore dagli elementi dell'altro tensore e poi sommando i risultati. La notazione einsum utilizza simboli per identificare gli assi di ciascun tensore e quelli gli stessi simboli vengono riorganizzati per specificare la forma del nuovo tensore risultante.

NumPy fornisce un'implementazione comune di Einsum.

strato di incorporamento

#language
#fundamentals

Uno speciale strato nascosto che viene addestrato su una caratteristica categorica ad alta dimensionalità per apprenderanno gradualmente un vettore di incorporamento di dimensione inferiore. Un consente a una rete neurale di addestrare molto in modo efficiente rispetto all'addestramento della caratteristica categorica ad alta dimensionalità.

Ad esempio, al momento Earth supporta circa 73.000 specie di alberi. Supponiamo che specie di albero è una caratteristica nel modello, quindi la classe strato di input include un vettore one-hot 73.000 elementi. Ad esempio, baobab potrebbe essere rappresentato in modo simile a questo:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore
     0. L&#39;elemento successivo contiene il valore 1. Gli ultimi 66.767 elementi contengono
     il valore zero.

Un array di 73.000 elementi è molto lungo. Se non aggiungi uno strato di incorporamento al modello, l'addestramento richiederà molto tempo a causa moltiplicando 72.999 zeri. Forse scegli lo strato di incorporamento da consistere di 12 dimensioni. Di conseguenza, lo strato di incorporamento apprenderà gradualmente un nuovo vettore di incorporamento per ogni specie di albero.

In alcune situazioni, l'hashing è un'alternativa ragionevole in uno strato di incorporamento.

Consulta la sezione Incorporamenti. in Machine Learning Crash Course.

spazio di incorporamento

#language

Lo spazio vettoriale con dimensione D che parte da una dimensione uno spazio vettoriale. Idealmente, lo spazio di incorporamento contiene un struttura che restituisce risultati matematici significativi; ad esempio nello spazio di incorporamento ideale, addizione e sottrazione di incorporamenti può risolvere attività di analogia con le parole.

Il prodotto del punto di due incorporamenti è una misura della loro somiglianza.

vettore di incorporamento

#language

In generale, un array di numeri in virgola mobile può essere preso da qualsiasi strato nascosto che descrive gli input per lo strato nascosto. Spesso, un vettore di incorporamento è l'array di numeri in virgola mobile addestrati in uno strato di incorporamento. Ad esempio, supponiamo che uno strato di incorporamento debba apprendere un vettore di incorporamento per ciascuna delle 73.000 specie di alberi sulla Terra. Forse seguente è il vettore di incorporamento per un baobab:

Un array di 12 elementi, ognuno dei quali contiene un numero in virgola mobile
          compreso tra 0,0 e 1,0.

Un vettore di incorporamento non è un gruppo di numeri casuali. Uno strato di incorporamento determina questi valori attraverso l'addestramento, in modo simile al modo la rete neurale apprende altri pesi durante l'addestramento. Ogni elemento è una classificazione in base ad alcune caratteristiche di una specie di albero. Quale rappresenta la specie di alberi una caratteristica? È molto difficile per essere individuate dagli esseri umani.

La parte matematicamente notevole di un vettore di incorporamento è simile elementi contengono insiemi simili di numeri in virgola mobile. Ad esempio, simili le specie di alberi hanno un insieme più simile di numeri in virgola mobile specie di alberi diverse. Le sequoie e le sequoie sono specie di alberi correlate quindi avranno un insieme più simile di numeri in virgola mobile sequoie e palme da cocco. I numeri nel vettore di incorporamento cambia ogni volta che il modello viene riaddestrato, anche se il modello con input identico.

funzione di distribuzione empirica cumulativa (eCDF o EDF)

Una funzione di distribuzione cumulativa in base a misure empiriche da un set di dati reale. Il valore del parametro funzione in un punto qualsiasi dell'asse x è la frazione delle osservazioni in al set di dati inferiori o uguali al valore specificato.

minimizzazione empirica del rischio (ERM)

È stata scelta la funzione che minimizza la perdita nel set di addestramento. Contrasto con la minimizzazione del rischio strutturale.

codificatore

#language

In generale, qualsiasi sistema di ML che esegue la conversione da un ambiente non elaborato, sparso o in una rappresentazione più elaborata, più densa o interna.

I codificatori sono spesso un componente di un modello più grande, in cui vengono accoppiato con un decoder. Alcuni trasformatori encoder e decoder, sebbene altri Transformer utilizzino solo l'encoder o solo il decoder.

Alcuni sistemi utilizzano l'output dell'encoder come input di una classificazione di regressione lineare e una rete di regressione.

Nelle attività da sequenza a sequenza, un prende una sequenza di input e restituisce uno stato interno (un vettore). Quindi, decoder utilizza questo stato interno per prevedere la sequenza successiva.

Consulta Transformer per la definizione di un encoder in l'architettura Transformer.

Vedi LLM: che cos'è una grande lingua modello in Machine Learning Crash Course.

completo

Una raccolta di modelli addestrati in modo indipendente le cui previsioni vengono calcolati in media o aggregati. In molti casi, un ensemble produce rispetto a un singolo modello. Ad esempio, un La casuale foresta è un insieme composto da più alberi decisionali. Tieni presente che non tutte Le le foreste decisionali sono insiemi.

Vedi la sezione Casuale Foresta in Machine Learning Crash Course.

entropia

#df

Nella teoria dell'informazione, una descrizione di quanto sia imprevedibile una probabilità di distribuzione. In alternativa, l'entropia è definita anche quanto le informazioni contenute in ogni esempio. Una distribuzione ha l'entropia più alta possibile quando tutti i valori di una variabile casuale sono altrettanto probabile.

L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p) .

dove:

  • H è l'entropia.
  • p è la frazione di "1" esempi.
  • q è la frazione di "0" esempi. Tieni presente che q = (1 - p)
  • log è generalmente log2. In questo caso, l'entropia unità è un po'.

Ad esempio, supponiamo che:

  • 100 esempi contengono il valore "1"
  • 300 esempi contengono il valore "0"

Pertanto, il valore di entropia è:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per esempio

Un insieme perfettamente bilanciato (ad esempio, 200 "0" e 200 "1" avrà un'entropia di 1,0 bit per esempio. Man mano che l'insieme diventa sempre più sbilanciato, la sua entropia si sposta verso 0,0.

Negli alberi decisionali, l'entropia aiuta a formulare di ottenere informazioni per aiutare le splitter seleziona le condizioni durante la crescita di un albero decisionale di classificazione.

Confrontare l'entropia con:

L'entropia è spesso chiamata entropia di Shannon.

Vedi Suddivisione esatta per la classificazione binaria con funzionalità nel corso sulle foreste decisionali per ulteriori informazioni.

produzione

#rl

Nell'apprendimento per rinforzo, il mondo che contiene l'agente e consente all'agente di osservare lo stato del mondo. Ad esempio: il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come labirinto. Quando l'agente applica un'azione all'ambiente, le transizioni dell'ambiente da uno stato all'altro.

puntata

#rl

Nell'apprendimento per rinforzo, ogni tentativo ripetuto agent per apprendere un ambiente.

periodo

#fundamentals

Un pass completo per l'addestramento dell'intero set di formazione in modo che ogni esempio venga elaborato una sola volta.

Un'epoca rappresenta N/dimensione del batch iterazioni dell'addestramento, dove N è numero totale di esempi.

Supponiamo, ad esempio, che:

  • Il set di dati è composto da 1000 esempi.
  • La dimensione del batch è di 50 esempi.

Pertanto, una singola epoca richiede 20 iterazioni:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Consulta Regressione lineare: Iperparametri in Machine Learning Crash Course.

norme greedy epsilon

#rl

Nell'apprendimento per rinforzo, una norma che segue una politica casuale con probabilità epsilon o una norma greedy. Ad esempio, se epsilon è 0,9, il criterio segue un criterio casuale il 90% delle volte e un greedy il 10% delle volte.

Negli episodi successivi, l'algoritmo riduce il valore di epsilon in ordine. di passare dal seguire un criterio casuale a uno greedy. Di cambiare la politica, l'agente prima esplora in modo casuale l'ambiente e sfruttano poi avidamente i risultati dell'esplorazione casuale.

pari opportunità

#fairness

Una metrica di equità per valutare se un modello è prevedendo il risultato desiderabile altrettanto bene per tutti i valori di un attributo sensibile. In altre parole, se il risultato desiderabile di un modello è la classe positiva, l'obiettivo è che il tasso di veri positivi sia la la stessa per tutti i gruppi.

L'uguaglianza delle opportunità è correlata alle quote di pari opportunità, per cui è necessario che sia i tassi di veri positivi I tassi di falsi positivi sono uguali per tutti i gruppi.

Supponiamo che la Glubbdubdrib University ammetta sia i lilliputi che i Brobdingnagiani a un rigoroso programma di matematica. Lilliputiani le scuole secondarie offrono un un solido programma di lezioni di matematica e la stragrande maggioranza degli studenti qualificato per il programma universitario. Brobdingnagians le scuole secondarie non offrono corsi di matematica e, di conseguenza, molti meno studenti qualificato. L'uguaglianza delle opportunità è soddisfatta per l'etichetta preferita "ammissione" in relazione alla nazionalità (lillupiano o Brobdingnagian) se che gli studenti qualificati hanno la stessa probabilità di essere ammessi, indipendentemente dal fatto che sono lillupiani o brobdingnagian.

Ad esempio, supponiamo che 100 Lilliputi e 100 Brobdingnagian si applichino a Le decisioni relative all'ammissione e alla Glubbdubdrib University vengono prese come segue:

Tabella 1. Candidati lilla (il 90% è qualificato)

  Qualificato Non qualificato
Ammesso 45 3
Rifiutato 45 7
Totale 90 10
Percentuale di studenti qualificati ammessi: 45/90 = 50%
Percentuale di studenti non qualificati rifiutata: 7/10 = 70%
Percentuale totale di studenti lilliputani ammessi: (45 + 3)/100 = 48%

 

Tabella 2. Candidati Brobdingnagian (il 10% è qualificato):

  Qualificato Non qualificato
Ammesso 5 9
Rifiutato 5 81
Totale 10 90
Percentuale di studenti qualificati ammessi: 5/10 = 50%
Percentuale di studenti non qualificati rifiutata: 81/90 = 90%
Percentuale totale di studenti Brobdingnagian ammessi: (5+9)/100 = 14%

Gli esempi precedenti soddisfano l'uguaglianza di opportunità di accettazione gli studenti qualificati perché lilliputi e brobdingnagiani qualificati hanno il 50% di probabilità di essere ammessi.

Sebbene sia soddisfatta l'uguaglianza delle opportunità, le due metriche di equità riportate di seguito non sono soddisfatti:

  • Parità demografica: lilliputi e I Brobdingnagiani vengono ammessi all'università con tempistiche diverse; Il 48% degli studenti lilliputi è ammesso, ma solo il 14% di Sono ammessi studenti brobdingnag.
  • probabilità paritarie: sebbene la qualifica sia lillitica e gli studenti di Brobdingnagian hanno le stesse probabilità di essere ammessi, l'ulteriore vincolo che i lilliputi e gli altri I brobdingnagia hanno la stessa probabilità di essere rifiutati soddisfatto. I lilliputi non qualificati hanno un tasso di rifiuto del 70%, mentre i Brobdingnagias non qualificati hanno un tasso di rifiuto del 90%.

Consulta Equità: uguaglianza di opportunità in Machine Learning Crash Course.

probabilità equalizzato

#fairness

Una metrica di equità per valutare se un modello prevede i risultati in modo uguale bene per tutti i valori di un attributo sensibile con sia per la classe positiva che per classe negativa: non solo una classe o l'altra in modo esclusivo. In altre parole, sia il tasso di veri positivi e la percentuale di falsi negativi devono essere uguali per per tutti i gruppi.

Le quote equalizzate sono correlate uguaglianza di opportunità, che si concentra solo sui tassi di errore per una singola classe (positiva o negativa).

Ad esempio, supponiamo che la Glubbdubdrib University ammetta sia i lilliputiani che Brobdingnagia a un rigoroso programma di matematica. Lilliputiani secondaria le scuole offrono un'ampia offerta di corsi di matematica e la stragrande maggioranza studenti sono qualificati per il programma universitario. Brobdingnagians secondaria le scuole non offrono corsi di matematica e, di conseguenza, molti meno se gli studenti sono qualificati. Le quote equalizzate sono soddisfatte a condizione che nessuna non importa se il richiedente è Lilliputiano o Brobdingnagian, se hanno ottenuto la qualifica, hanno le stesse probabilità di essere ammessi al programma, e se non sono qualificati, hanno altre stesse probabilità di essere rifiutati.

Supponiamo che 100 Lilliputi e 100 Brobdingnagiani si applichino a Glubbdubdrib Le decisioni relative all'università e alle ammissioni vengono prese come segue:

Tabella 3. Candidati lilla (il 90% è qualificato)

  Qualificato Non qualificato
Ammesso 45 2
Rifiutato 45 8
Totale 90 10
Percentuale di studenti qualificati ammessi: 45/90 = 50%
Percentuale di studenti non qualificati rifiutata: 8/10 = 80%
Percentuale totale di studenti lilliputani ammessi: (45 + 2)/100 = 47%

 

Tabella 4. Candidati Brobdingnagian (il 10% è qualificato):

  Qualificato Non qualificato
Ammesso 5 18
Rifiutato 5 72
Totale 10 90
Percentuale di studenti qualificati ammessi: 5/10 = 50%
Percentuale di studenti non qualificati rifiutata: 72/90 = 80%
Percentuale totale di studenti Brobdingnagian ammessi: (5+18)/100 = 23%

Le quote equalizzate sono soddisfatte perché i valori Lilliputian e Brobdingnagian sono qualificati entrambi gli studenti hanno il 50% di probabilità di essere ammessi, mentre quelli lillupiani non qualificati e Brobdingnagian hanno l'80% di probabilità di essere rifiutati.

Le probabilità equalizzate sono definite formalmente "L'uguaglianza di Opportunità di apprendimento supervisionato" come segue: "il predittore ↓ soddisfa le quote di equalizzazione rispetto all'attributo protetto A e al risultato Y se ↓ e A sono indipendenti, condizionale a Y".

Strumento di stima

#TensorFlow

Un'API TensorFlow deprecata. Utilizza invece tf.keras degli strumenti di stima.

valutazioni

#language
#generativeAI

Utilizzato principalmente come abbreviazione per valutazioni LLM. Più in generale, evals è l'abbreviazione di qualsiasi forma di valutazione.

valutazione

#language
#generativeAI

Il processo di misurazione della qualità di un modello o confronto di modelli diversi l'una contro l'altra.

Per valutare un machine learning supervisionato modello, solitamente lo giudichi rispetto a un insieme di convalida e un set di test. Valutazione di un LLM comporta in genere valutazioni più ampie di qualità e sicurezza.

esempio

#fundamentals

I valori di una riga di features ed eventualmente un'etichetta. Esempi in L'apprendimento supervisionato si suddividono in due categorie generali:

  • Un esempio con etichetta è costituito da una o più caratteristiche e un'etichetta. Durante l'addestramento vengono usati esempi etichettati.
  • Un esempio senza etichetta è costituito da uno o più funzionalità, ma senza etichette. Durante l'inferenza vengono utilizzati esempi non etichettati.

Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteo nei punteggi dei test degli studenti. Ecco tre esempi etichettati:

Funzionalità Etichetta
Temperatura Umidità Pressione Punteggio del test
15 47 998 Buono
19 34 1020 Eccellente
18 92 1012 Scadente

Ecco tre esempi senza etichetta:

Temperatura Umidità Pressione  
12 62 1014  
21 47 1017  
19 41 1021  

La riga di un set di dati è in genere l'origine non elaborata di un esempio. Ciò significa che un esempio è generalmente costituito da un sottoinsieme di colonne il set di dati. Inoltre, le funzionalità di un esempio possono includere anche caratteristiche sintetiche, come incroci di caratteristiche.

Vedi Apprendimento supervisionato in il corso Introduction to Machine Learning per saperne di più.

riproduzione dell'esperienza

#rl

Nel reinforcement learning, una tecnica DQN utilizzata per ridurre le correlazioni temporali nei dati di addestramento. L'agente archivia le transizioni di stato in un buffer di replica transizioni di esempio dal buffer di ripetizione per creare i dati di addestramento.

pregiudizi dello sperimentatore

#fairness

Consulta la sezione Bias di conferma.

problema del gradiente con esplosione

#seq

La tendenza dei gradienti in reti neurali profonde (in particolare reti neurali ricorrenti) per diventare sorprendentemente ripida (alta). I gradienti ripide spesso causano aggiornamenti molto grandi. alle ponderazioni di ogni nodo in un in una rete neurale profonda.

I modelli interessati dal problema del gradiente con esplosione diventano difficili o impossibile da addestrare. Taglio delle sfumature può mitigare questo problema.

Confronta con il problema della scomparsa del gradiente.

F

F1

Un "roll-up" metrica di classificazione binaria si basa sia sulla precisione che sul richiamo. Ecco la formula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Ad esempio, in base a quanto segue:

  • precisione = 0,6
  • richiamo = 0,4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Quando precisione e richiamo sono abbastanza simili (come nell'esempio precedente), F1 è molto simile alla sua media. Quando precisione e richiamo differiscono In modo significativo, F1 è più vicino al valore più basso. Ad esempio:

  • precisione = 0,9
  • richiamo = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

vincolo di equità

#fairness
Applicazione di un vincolo a un algoritmo per garantire una o più definizioni di equità siano soddisfatti. Esempi di vincoli di equità includono:

metrica di equità

#fairness

Una definizione matematica di "equità" misurabile. Alcune metriche di equità di uso comune includono:

Molte metriche di equità si escludono a vicenda; vedi incompatibilità delle metriche di equità.

falso negativo (FN)

#fundamentals

Esempio in cui il modello prevede erroneamente classe negativa. Ad esempio, il modello prevede che un determinato messaggio email non è spam (la classe negative), ma in realtà quel messaggio email è spam.

percentuale di falsi negativi

La proporzione di esempi positivi effettivi per cui il modello ha erroneamente ha previsto la classe negativa. La seguente formula calcola il falso tasso negativo:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Consulta Soglie e confusione una matrice in Machine Learning Crash Course.

falso positivo (FP)

#fundamentals

Esempio in cui il modello prevede erroneamente classe positiva. Ad esempio, il modello prevede che un particolare messaggio email è spam (la classe positiva), ma che un messaggio email in realtà non è spam.

Consulta Soglie e confusione una matrice in Machine Learning Crash Course.

tasso di falsi positivi (FPR)

#fundamentals

La proporzione di esempi negativi effettivi per cui il modello ha erroneamente ha previsto la classe positiva. La seguente formula calcola il falso tasso positivo:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Il tasso di falsi positivi è l'asse x in una curva ROC.

Consulta la sezione Classificazione: ROC e AUC in Machine Learning Crash Course.

caratteristica

#fundamentals

Una variabile di input a un modello di machine learning. Un esempio è costituito da una o più caratteristiche. Ad esempio, supponiamo che tu stia addestrando modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. La tabella seguente mostra tre esempi, ognuno dei quali contiene tre caratteristiche e un'etichetta:

Funzionalità Etichetta
Temperatura Umidità Pressione Punteggio del test
15 47 998 92
19 34 1020 84
18 92 1012 87

Contrasta con label.

Vedi Apprendimento supervisionato nel corso Introduction to Machine Learning.

incrocio di caratteristiche

#fundamentals

Una caratteristica sintetica formata da "attraversamento" Caratteristiche categoriche o in bucket.

Ad esempio, considera le "previsioni del tuo stato d'animo" modello che rappresenta della temperatura in uno dei seguenti quattro bucket:

  • freezing
  • chilly
  • temperate
  • warm

e rappresenta la velocità del vento in uno dei seguenti tre bucket:

  • still
  • light
  • windy

Senza incroci di caratteristiche, il modello lineare si addestra in modo indipendente su ciascuno prima di sette diversi bucket. Il modello viene addestrato, ad esempio, freezing indipendentemente dall'addestramento, ad esempio, windy.

In alternativa, potresti creare un incrocio di caratteristiche di temperatura e velocità del vento. Questa funzionalità sintetica avrebbe le seguenti 12 possibili valori:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Grazie agli incroci di caratteristiche, il modello può apprendere le differenze di umore tra freezing-windy giorno e freezing-still giorno.

Se crei una caratteristica sintetica partendo da due caratteristiche con molte in diversi bucket, l'incrocio di caratteristiche risultante avrà un numero enorme delle possibili combinazioni. Ad esempio, se una caratteristica ha 1000 bucket l'altra caratteristica ha 2.000 bucket, l'incrocio di caratteristiche risultante ha 2.000.000 bucket.

Formalmente, una croce è una Prodotto cartesiano.

Gli incroci di caratteristiche vengono utilizzati principalmente con i modelli lineari e vengono utilizzati raramente con le reti neurali.

Vedi Dati categoriali: caratteristica incroci in Machine Learning Crash Course.

e applicazione del feature engineering.

#fundamentals
#TensorFlow

Un processo che prevede le seguenti fasi:

  1. Determinare quali funzionalità potrebbero essere utili durante l'addestramento di un modello.
  2. Conversione dei dati non elaborati dal set di dati in versioni efficienti queste funzionalità.

Ad esempio, potresti determinare che temperature potrebbe essere un utile funzionalità. In seguito, puoi eseguire un esperimento con il bucket. per ottimizzare ciò che il modello può apprendere dai diversi intervalli temperature.

Il feature engineering è a volte chiamato l'estrazione delle caratteristiche o funzionalità.

Consulta Dati numerici: modalità di importazione di dati da parte di un modello mediante le caratteristiche vettori in Machine Learning Crash Course.

estrazione delle caratteristiche

Termine sovraccarico con una delle seguenti definizioni:

importanza delle caratteristiche

#df

Sinonimo di importazioni variabili.

insieme di caratteristiche

#fundamentals

Il gruppo di caratteristiche del tuo machine learning Viene eseguito l'addestramento di model. Ad esempio, codice postale, dimensioni e condizioni della proprietà potrebbero costituiscono un semplice set di caratteristiche per un modello che prevede i prezzi delle abitazioni.

specifica della funzionalità

#TensorFlow

Descrive le informazioni necessarie per estrarre i dati delle caratteristiche dal buffer di protocollo tf.Example. Poiché Il buffer di protocollo tf.Example è solo un container per i dati, devi specificare le seguenti:

  • I dati da estrarre (ovvero le chiavi per le caratteristiche)
  • Il tipo di dati (ad esempio float o int)
  • La lunghezza (fissa o variabile)

vettore di caratteristiche

#fundamentals

L'array di valori feature che comprende un esempio. Il vettore di caratteristiche viene inserito durante addestramento e durante l'inferenza. Ad esempio, il vettore di caratteristiche per un modello con due caratteristiche discrete potrebbe essere:

[0.92, 0.56]

Quattro livelli: uno di input, due nascosti e uno di output.
          Il livello di input contiene due nodi, uno contenente il valore
          0,92 e l&#39;altra contenente il valore 0,56.

Ogni esempio fornisce valori diversi per il vettore di caratteristiche, quindi il il vettore di caratteristiche per il prossimo esempio potrebbe essere qualcosa del genere:

[0.73, 0.49]

Il feature engineering determina come rappresentare caratteristiche nel vettore di caratteristiche. Ad esempio, una caratteristica binaria categorica con possono essere rappresentati cinque valori codifica one-hot. In questo caso, la parte il vettore di caratteristiche per un particolare esempio è costituito da quattro zeri e un singolo 1.0 nella terza posizione, come segue:

[0.0, 0.0, 1.0, 0.0, 0.0]

Come ulteriore esempio, supponiamo che il tuo modello abbia tre caratteristiche:

  • una caratteristica categorica binaria con cinque possibili valori rappresentati con codifica one-hot; ad esempio: [0.0, 1.0, 0.0, 0.0, 0.0]
  • un'altra caratteristica categorica binaria con tre valori possibili rappresentati con codifica one-hot; ad esempio: [0.0, 0.0, 1.0]
  • una caratteristica con rappresentazione in virgola mobile; ad esempio: 8.3.

In questo caso, il vettore di caratteristiche per ogni esempio sarebbe rappresentato per nove valori. Dati i valori di esempio nell'elenco precedente, il valore il vettore di caratteristiche sarebbe:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Consulta Dati numerici: modalità di importazione di dati da parte di un modello mediante le caratteristiche vettori in Machine Learning Crash Course.

funzionalità

Il processo di estrazione delle caratteristiche da un'origine di input, come un documento o un video e di mappare queste caratteristiche in un vettore di caratteristiche.

Alcuni esperti di ML utilizzano la funzionalità come sinonimo di feature engineering o estrazione delle caratteristiche.

apprendimento federato

Un approccio di machine learning distribuito che addestra di machine learning utilizzando modelli esempi presenti su dispositivi come gli smartphone. Nell'apprendimento federato, un sottoinsieme di dispositivi scarica il modello attuale da un server centrale di coordinamento. I dispositivi utilizzano gli esempi memorizzati sui dispositivi per apportare miglioramenti al modello. I dispositivi quindi caricano i miglioramenti del modello (ma non gli esempi di addestramento) al modello di server web, in cui vengono aggregati ad altri aggiornamenti per generare una migliore un modello globale di machine learning. Dopo l'aggregazione, il modello aggiorna i dati calcolati dai dispositivi non sono più necessari e possono essere eliminati.

Poiché gli esempi di addestramento non vengono mai caricati, l'apprendimento federato segue principi sulla privacy incentrati sulla raccolta e sulla minimizzazione dei dati.

Per ulteriori informazioni sull'apprendimento federato, guarda questo tutorial.

ciclo di feedback

#fundamentals

Nel machine learning, si tratta di una situazione in cui le previsioni di un modello influenzano di addestramento per lo stesso modello o per un altro. Ad esempio, un modello consiglia film influenzerà i film visti dalle persone, il che a sua volta influenzare i modelli successivi di consigli per i film.

Consulta Sistemi di ML di produzione: domande per chiedi in Machine Learning Crash Course.

rete neurale feed-forward (FFN)

Una rete neurale senza connessioni cicliche o ricorsive. Ad esempio: le tradizionali reti neurali profonde reti neurali feed-forward. Confrontare con Neural ricorrente reti, che sono ciclici.

apprendimento few-shot

Un approccio al machine learning, spesso usato per la classificazione degli oggetti, progettata per addestrare classificatori efficaci solo da un numero limitato di esempi di addestramento.

Vedi anche one-shot learning e apprendimento zero-shot.

Prompt few-shot

#language
#generativeAI

Un prompt che contiene più di un esempio (un "pochi") a dimostrare come il modello linguistico di grandi dimensioni dovrebbe rispondere. Ad esempio, il seguente prompt lungo contiene due esempi che mostrano come rispondere a una query a un modello linguistico di grandi dimensioni (LLM).

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
Francia: EUR Un esempio.
Regno Unito: GBP Un altro esempio.
India: La query effettiva.

Prompt few-shot generalmente produce risultati più desiderabili rispetto prompt zero-shot e prompt one-shot. Tuttavia, i prompt few-shot richiede un prompt più lungo.

Prompt few-shot: è una forma di apprendimento few-shot applicata all'apprendimento basato su prompt.

Vedi il messaggio tecnica in Machine Learning Crash Course.

Violino

#language

Una libreria di configurazione incentrata su Python che imposta le di funzioni e classi senza codice o infrastruttura invasivi. Nel caso di Pax e di altri codebase ML, queste funzioni e rappresentano modelli e addestramento iperparametri.

Violino presuppone che i codebase di machine learning siano generalmente suddivisi in:

  • Codice libreria, che definisce livelli e ottimizzatori.
  • Set di dati "glue" che chiama le librerie e collega tutti gli elementi tra loro.

Fiddle acquisisce la struttura della chiamata del codice glue in una sessione non valutata e può essere modificato.

messa a punto

#language
#image
#generativeAI

Un secondo pass per l'addestramento specifico per un'attività, eseguito su modello preaddestrato per perfezionarne i parametri per un caso d'uso specifico. Ad esempio, l'intera sequenza di addestramento I modelli linguistici di grandi dimensioni sono i seguenti:

  1. Preaddestramento: addestra un modello linguistico di grandi dimensioni (LLM) su un ampio set di dati generale, ad esempio tutte le pagine in lingua inglese di Wikipedia.
  2. Ottimizzazione: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio per rispondere a domande mediche. Il perfezionamento implica in genere centinaia o migliaia di esempi incentrati su quell'attività specifica.

Come ulteriore esempio, l'intera sequenza di addestramento per un modello di immagine di grandi dimensioni è pari a che segue:

  1. Preaddestramento: addestra un modello di immagine di grandi dimensioni su un'immagine generale di grandi dimensioni come tutte le immagini in Wikimedia Commons.
  2. Ottimizzazione: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio generando immagini di orche.

Il perfezionamento può comportare una qualsiasi combinazione delle seguenti strategie:

  • Modificando tutti i valori esistenti del modello preaddestrato parametri: Questa operazione è talvolta chiamata ottimizzazione completa.
  • Modifica di solo alcuni dei parametri esistenti del modello preaddestrato (in genere, i livelli più vicini allo strato di output), mantenendo invariati gli altri parametri esistenti (di solito, gli strati più vicino al livello di input). Consulta: ottimizzazione efficiente dei parametri.
  • Aggiungere altri livelli, in genere sopra quelli esistenti più vicini livello di output.

Il perfezionamento è una forma di transfer learning. Di conseguenza, l'ottimizzazione potrebbe utilizzare una funzione di perdita diversa o un modello diverse da quelle usate per addestrare il modello preaddestrato. Ad esempio, potresti ottimizzare un modello di immagine di grandi dimensioni preaddestrato per produrre un modello di regressione che restituisce il numero di uccelli in un'immagine di input.

Confronta e contrapponi il perfezionamento con i seguenti termini:

Vedi Ottimizzazione in Machine Learning Crash Course.

Lino

#language

Una piattaforma open source ad alte prestazioni libreria per deep learning basato su JAX. Il lino offre funzioni per l'addestramento delle reti neurali, come metodi per valutarne le prestazioni.

Flaxformer

#language

Un Transformer open source raccolta, basato su Flax, progettato principalmente per l'elaborazione del linguaggio naturale ricerca multimodale.

elimina il cancello

#seq

La parte della memoria a lungo termine a breve termine. cella che regola il flusso di informazioni attraverso la cella. Dimentica le porte e mantieni il contesto decidendo quali informazioni scartare dallo stato della cella.

softmax completo

Sinonimo di softmax.

Contrasta il campionamento dei candidati.

livello completamente connesso

Uno strato nascosto in cui ogni nodo è collegato a ogni nodo nel successivo strato nascosto.

Uno strato completamente connesso è anche noto come strato denso.

trasformazione delle funzioni

Una funzione che prende una funzione come input e restituisce una funzione trasformata come output. JAX utilizza le trasformazioni delle funzioni.

G

GAN

Abbreviazione di avversari generativi Google Cloud.

generalizzazione

#fundamentals

La capacità di un modello di fare previsioni corrette su nuovi, di dati non visti in precedenza. Un modello in grado di generalizzare è l'opposto di un modello in caso di overfitting.

API

#language
#image
#generativeAI

L'ecosistema che comprende l'IA più avanzata di Google. Elementi di questo ecosistema include:

di Gemini Advanced.

Modelli Gemini

#language
#image
#generativeAI

Il sistema all'avanguardia di Google, basato su Transformer modelli multimodali. I modelli Gemini sono nello specifico progettato per l'integrazione con gli agenti.

Gli utenti possono interagire con i modelli Gemini in diversi modi, ad esempio tramite un'interfaccia di dialogo interattiva e tramite SDK.

curva di generalizzazione

#fundamentals

Un grafico sia della perdita di addestramento che perdita di convalida in funzione del numero di iterazioni.

Una curva di generalizzazione può aiutarti a rilevare possibili overfitting. Ad esempio, la curva di generalizzazione suggerisce l'overfitting, poiché la perdita di convalida diventa significativamente più alto della perdita dell'addestramento.

Un grafico cartesiano in cui l&#39;asse y è etichettato come la perdita e l&#39;asse x
          è etichettato come iterazioni. Vengono visualizzati due grafici. Un grafico mostra
          la perdita di addestramento e l&#39;altra mostra la perdita di convalida.
          I due grafici iniziano in modo simile, ma alla fine la perdita di addestramento
          di molto inferiori a quello della perdita di convalida.

modello lineare generalizzato

Generalizzazione della regressione con il metodo dei minimi quadrati che si basano su modelli Gaussiano rumore, alle altre tipi di modelli basati su altri tipi di rumore, come Rumore di Poisson o rumore categorico. Esempi di modelli lineari generalizzati includono:

I parametri di un modello lineare generalizzato sono disponibili ottimizzazione convessa:

I modelli lineari generalizzati presentano le seguenti proprietà:

  • La previsione media del modello di regressione dei minimi quadrati ottimale è uguale all'etichetta media sui dati di addestramento.
  • La probabilità media prevista dalla regressione logistica ottimale equivale all'etichetta media sui dati di addestramento.

La potenza di un modello lineare generalizzato è limitata dalle sue caratteristiche. Non mi piace un modello deep, un modello lineare generalizzato non può "imparare nuove caratteristiche".

rete generativa avversaria (GAN)

Un sistema per creare nuovi dati in cui un generatore crea dati e un discriminatore determina se i dati creati sono validi o non validi.

AI generativa

#language
#image
#generativeAI

Un campo trasformativo emergente senza definizione formale. Detto questo, la maggior parte degli esperti concorda sul fatto che i modelli di IA generativa creare ("generare") contenuti che rientrano in tutti i seguenti aspetti:

  • complesso
  • coerente
  • originale

Ad esempio, un modello di IA generativa può creare sofisticate saggi o immagini.

Alcune tecnologie precedenti, tra cui gli LSTMs. e gli RNN, possono anche generare origini contenuti coerenti. Alcuni esperti considerano queste tecnologie precedenti come l'IA generativa, mentre altri ritengono che la vera IA generativa richieda più modelli di quello che le tecnologie precedenti erano in grado di produrre.

Confrontare con l'ML predittivo.

modello generativo

In pratica, un modello che svolge una delle seguenti azioni:

  • Crea (genera) nuovi esempi dal set di dati di addestramento. Ad esempio, un modello generativo potrebbe creare poesia dopo l'addestramento su un set di poesie. La parte relativa al generatore di un rete generativa avversaria in questa categoria.
  • Determina la probabilità che un nuovo esempio provenga un set di addestramento personalizzato o è stato creato dallo stesso meccanismo che ha creato il set di addestramento. Ad esempio, dopo l'addestramento costituito da frasi in inglese, un modello generativo determinare la probabilità che il nuovo input sia una frase valida in inglese.

Un modello generativo può teoricamente discernere la distribuzione degli esempi o caratteristiche particolari in un set di dati. Ossia:

p(examples)

I modelli di apprendimento non supervisionato sono generativi.

Effettuare il confronto con i modelli discriminativi.

generatore

Il sottosistema all'interno di un avversario generato dell'audiodescrizione che crea nuovi esempi.

Contrasta il modello discriminativo.

impurità di gini

#df

Una metrica simile all'entropia. Separatori utilizzare i valori derivati dall'impurità o dall'entropia di gini per comporre condizioni per la classificazione alberi decisionali. L'aumento di informazioni deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità di gini; Tuttavia, questa metrica senza nome è importante quanto guadagno di informazioni.

L'impurità di Gini è anche chiamata indice di gini o semplicemente gini.

set di dati aureo

Un insieme di dati selezionati manualmente che acquisiscono i dati empirici reali. I team possono utilizzare uno o più set di dati aurei per valutare la qualità di un modello.

Alcuni set di dati aurei catturano diversi sottodomini di dati empirici reali. Ad esempio: un set di dati aureo per la classificazione delle immagini potrebbe acquisire le condizioni di luce e risoluzione delle immagini.

GPT (Generative Pre-training Transformer)

#language

Una famiglia di componenti basati su Transformer modelli linguistici di grandi dimensioni (LLM) sviluppati da OpenAI.

Le varianti GPT possono essere applicate a diverse modalità, tra cui:

  • Generazione di immagini (ad esempio, ImageGPT)
  • la generazione da testo a immagine (ad esempio, DALL-E).

gradiente

Il vettore delle derivate parziali rispetto a tutte le variabili indipendenti. Nel machine learning, il gradiente è il vettore delle derivate parziali della funzione modello. I punti gradienti nella direzione della salita più ripida.

accumulo di gradienti

Una tecnica di retropropagazione che aggiorna la parametri solo una volta per epoca anziché una volta ogni dell'iterazione. Dopo l'elaborazione di ogni mini-batch, l'accumulo aggiorna semplicemente un totale corrente di gradienti. Poi, dopo durante l'elaborazione dell'ultimo mini-batch nell'epoca, il sistema alla fine aggiorna i parametri in base al totale di tutte le modifiche del gradiente.

L'accumulo del gradiente è utile quando la dimensione del batch è molto grande rispetto alla quantità di memoria disponibile per l'addestramento. Quando la memoria è un problema, la tendenza naturale è quella di ridurre la dimensione del batch. Tuttavia, la riduzione della dimensione del batch in una normale retropropagazione dell'errore aumenta il numero di aggiornamenti dei parametri. L'accumulo del gradiente consente al modello per evitare problemi di memoria, ma comunque addestrarsi in modo efficiente.

alberi a gradiente (decision) (GBT)

#df

Un tipo di foresta decisionale in cui:

incremento del gradiente

#df

Un algoritmo di addestramento in cui i modelli deboli vengono addestrati in modo iterativo migliorare la qualità (ridurre la perdita) di un modello efficace. Ad esempio: un modello debole potrebbe essere un modello ad albero decisionale lineare o piccolo. Un modello forte diventa la somma di tutti i modelli deboli addestrati in precedenza.

Nella forma più semplice di aumento del gradiente, a ogni iterazione, un modello debole addestrato per prevedere il gradiente di perdita del modello forte. Quindi, l'output del modello efficace viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dove:

  • $F_{0}$ è il modello iniziale efficace.
  • $F_{i+1}$ è il prossimo modello molto efficace.
  • $F_{i}$ è il modello attualmente forte.
  • $\xi$ è un valore compreso tra 0,0 e 1,0 chiamato shrinkage, in modo analogo tasso di apprendimento in della discesa del gradiente.
  • $f_{i}$ è il modello debole addestrato per prevedere il gradiente di perdita di $F_{i}$.

Le varianti moderne dell'incremento del gradiente includono anche la derivata seconda (Hessian) della perdita nel calcolo.

Gli alberi decisionali sono comunemente utilizzati come modelli deboli l'incremento del gradiente. Consulta: alberi ad alto gradiente (decisione).

ritaglio gradiente

#seq

Un meccanismo comunemente usato per mitigare problema di esplosione del gradiente artificialmente la limitazione del valore massimo dei gradienti quando si utilizza discesa del gradiente per addestrare un modello.

discesa del gradiente

#fundamentals

Una tecnica matematica per ridurre al minimo la perdita. La discesa del gradiente si regola in modo iterativo ponderazioni e pregiudizi, trovare gradualmente la combinazione migliore per ridurre al minimo la perdita.

La discesa del gradiente è più vecchia, molto più vecchia del machine learning.

grafico

#TensorFlow

In TensorFlow, una specifica di calcolo. Nodi nel grafico che rappresentano le operazioni. I bordi sono diretti e rappresentano il passaggio del risultato di un'operazione (un Tensor) come a un'altra operazione. Utilizza le funzionalità di TensorBoard per visualizzare un grafico.

esecuzione del grafico

#TensorFlow

Un ambiente di programmazione TensorFlow in cui il programma costruisce inizialmente un grafico che ne esegue l'intero grafico o una sua parte. Grafico è la modalità predefinita in TensorFlow 1.x.

Contrasta l'esecuzione eager.

norme greedy

#rl

Nell'apprendimento per rinforzo, una norma che sceglie sempre con il ritorno previsto più elevato.

dato di fatto

#fundamentals

Realtà.

Ciò che è effettivamente successo.

Ad esempio, considera una classificazione binaria modello che prevede se uno studente al primo anno di università si laurea entro sei anni. I dati di fatto per questo modello sono se che lo studente si sia effettivamente laureato nel giro di sei anni.

bias di attribuzione gruppo

#fairness

Supponendo che ciò che è vero per un individuo sia vero anche per tutti nel gruppo. Gli effetti dei bias di attribuzione di gruppo possono essere esacerbati in caso di campionamento di convenienza utilizzata per la raccolta dei dati. In un campione non rappresentativo, le attribuzioni che non riflettono la realtà.

Vedi anche bias di omogeneità fuori gruppo e bias in-group.

H

allucinazione

#language

La produzione di output plausibili ma di fatto errati da parte di di IA generativa che sostiene di creare asserzione sul mondo reale. Ad esempio, un modello di IA generativa che afferma che Barack Obama sia morto nel 1865 è allucinante.

hashing

Nel machine learning, un meccanismo per eseguire il bucketing dati categorici, in particolare quando il numero di categorie è grande, ma il numero di categorie effettivamente visualizzate nel set di dati è relativamente piccolo.

Ad esempio, la Terra ospita circa 73.000 specie di alberi. Potresti rappresentano ciascuna delle 73.000 specie di alberi in 73.000 bucket. In alternativa, se solo 200 di queste specie di alberi appaiono in un set di dati, potresti usare l'hashing per dividere le specie di alberi circa 500 bucket.

Un singolo secchio può contenere più specie di alberi. Ad esempio, l'hashing potrebbe posizionare baobab e acero rosso, due geneticamente diversi nello stesso bucket. In ogni caso, l'hashing è ancora un buon metodo mappare grandi set di categorie nel numero selezionato di bucket. L'hashing trasforma un caratteristica categorica avente un gran numero di valori possibili in un un numero inferiore di valori raggruppando i valori in un deterministico.

euristico

Una soluzione a un problema semplice e rapidamente implementata. Ad esempio: "Con un approccio euristico, abbiamo raggiunto un'accuratezza dell'86%. Quando siamo passati a in una rete neurale profonda, la precisione è arrivata al 98%".

strato nascosto

#fundamentals

Uno strato di una rete neurale tra livello di input (le caratteristiche) e il strato di output (la previsione). Ogni strato nascosto è costituito da uno o più neuroni. Ad esempio, la seguente rete neurale contiene due strati nascosti, la prima con tre neuroni e la seconda con due neuroni:

Quattro livelli. Il primo strato è uno strato di input contenente
          le funzionalità di machine learning. Il secondo è uno strato nascosto contenente
          neuroni. Il terzo è uno strato nascosto
          neuroni. Il quarto livello è uno strato di output. Ogni caratteristica
          contiene tre lati, ognuno dei quali punta a un diverso neurone
          nel secondo livello. Ciascuno dei neuroni del secondo strato
          contiene due lati, ognuno dei quali punta a un diverso neurone
          nel terzo livello. Ciascuno dei neuroni del terzo strato contiene
          su un bordo, ognuno dei quali punta al livello di output.

Una rete neurale profonda contiene più di una strato nascosto. Ad esempio, l'illustrazione precedente mostra una rete neurale profonda perché il modello contiene due strati nascosti.

clustering gerarchico

#clustering

Una categoria di algoritmi di clustering che creano un albero dei cluster. Il clustering gerarchico è adatto ai dati gerarchici, come le tassonomie botaniche. Esistono due tipi di regole gerarchiche algoritmi di clustering:

  • Il clustering agglomerativo assegna prima ogni esempio al proprio cluster, e unisce iterativamente i cluster più vicini per creare albero di Natale.
  • Il clustering divisivo raggruppa prima tutti gli esempi in un unico cluster e poi divide in modo iterativo il cluster in un albero gerarchico.

Contrastare con il clustering basato su centroid.

perdita di cerniera

Una famiglia di funzioni di perdita classificazione progettata per trovare confine decisionale il più lontano possibile da ogni esempio di addestramento, massimizzando così il margine tra gli esempi e il confine. Le KSVM utilizzano la perdita cerniera (o una funzione correlata, come perdita di cerniera al quadrato). Per la classificazione binaria, la funzione di perdita della cerniera è definito come segue:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

dove y è l'etichetta vera, -1 o +1 e y' è l'output non elaborato del modello di classificazione:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Di conseguenza, un grafico della perdita di cerniera rispetto a (y * y') ha il seguente aspetto:

Un grafico cartesiano costituito da due segmenti di linee uniti. Il primo
          segmento inizia a (-3, 4) e termina con (1, 0). La seconda riga
          inizia da (1, 0) e continua all&#39;infinito con una pendenza
          pari a 0.

pregiudizi storici

#fairness

Un tipo di pregiudizio che esiste già nel mondo e ha sono diventate un set di dati. Questi bias tendono a riflettere i pregiudizi esistenti stereotipi culturali, disuguaglianze demografiche e pregiudizi nei confronti di determinati gruppi sociali.

Ad esempio, considera un modello di classificazione che prevede se un richiedente di prestito risulterà inadempiente o meno sul suo prestito, che è addestrato sui dati storici sui prestiti d'acquisto degli anni '80 da banche locali in due comunità diverse. Se in passato i candidati della Community A erano sei volte di più probabilità di inadempienza sul prestito rispetto ai richiedenti della Comunità B, il modello potrebbero apprendere dei bias storici, con una conseguente minore probabilità di approva i prestiti nella Community A, anche se le condizioni storiche risultanti le tariffe predefinite più elevate della community non erano più pertinenti.

dati holdout

Esempi non utilizzati intenzionalmente ("messi da parte") durante l'addestramento. Il set di dati di convalida e Il set di dati di test è un esempio di dati di holdout. Dati di holdout aiuta a valutare la capacità del modello di generalizzare in base a dati diversi da dati su cui è stato addestrato. La perdita sul set di holdout offre una migliore una stima della perdita su un set di dati non visto rispetto alla perdita set di addestramento personalizzato.

host

#TensorFlow
#GoogleCloud

Durante l'addestramento di un modello ML sui chip dell'acceleratore (GPU o TPU), la parte del sistema che controlla entrambi:

  • Il flusso complessivo del codice.
  • Estrazione e trasformazione della pipeline di input.

L'host in genere viene eseguito su una CPU, non su un chip dell'acceleratore. il device manipola i tensori sulla chip dell'acceleratore.

iperparametro

#fundamentals

Le variabili che tu o un servizio di ottimizzazione degli iperparametri regolare durante esecuzioni successive di addestramento di un modello. Ad esempio: Il tasso di apprendimento è un iperparametro. Potresti e impostare il tasso di apprendimento a 0,01 prima di una sessione di addestramento. Se determinare che 0,01 è troppo alto, potresti forse impostare a 0,003 per la prossima sessione di addestramento.

Al contrario, i parametri sono i vari ponderazioni e pregiudizi che il modello imparare durante l'addestramento.

iperpiano

Un confine che separa uno spazio in due sottospazi. Ad esempio, una linea è un iperpiano con due dimensioni, mentre un piano è un iperpiano con tre dimensioni. Più tipicamente nel machine learning, un iperpiano è il confine che separa un spazio ad alta dimensionalità. Utilizzo delle macchine vettoriali di supporto del kernel per separare le classi positive da quelle negative, spesso in un ambiente spazio ad alta dimensionalità.

I

i.i.d.

Abbreviazione di distribuito in modo indipendente e in modo identico.

riconoscimento immagini

#image

Un processo che classifica gli oggetti, i pattern o i concetti presenti in un'immagine. Il riconoscimento delle immagini è anche noto come classificazione delle immagini.

Per ulteriori informazioni, vedi ML Practicum: classificazione delle immagini.

set di dati sbilanciato

Sinonimo di class-imbalanced dataset.

pregiudizio implicito

#fairness

Creare automaticamente un'associazione o un'ipotesi in base alle proprie opinioni di archiviazione e memoria. Il bias implicito può influire su quanto segue:

  • Modalità di raccolta e classificazione dei dati.
  • Come vengono progettati e sviluppati i sistemi di machine learning.

Ad esempio, quando crei un classificatore per identificare le foto dei matrimoni, un ingegnere potrebbe usare la presenza di un abito bianco in una foto come caratteristica. Tuttavia, gli abiti bianchi erano consuetudine solo in determinate epoche e in alcune culture.

Vedi anche differenziazione della conferma.

imputazione

Forma breve di imputazione del valore.

incompatibilità delle metriche di equità

#fairness

L'idea che alcune nozioni di equità siano reciprocamente incompatibili e non può essere soddisfatto contemporaneamente. Di conseguenza, non esiste una sola metrica universale per quantificare l'equità che può essere applicata a tutti i problemi di ML.

Sebbene ciò possa sembrare scoraggiante, l'incompatibilità delle metriche di equità ciò non implica che le iniziative per l'equità siano inutili. Suggerisce invece l'equità deve essere definita contestualmente per un dato problema di ML, l'obiettivo di prevenire danni specifici per i suoi casi d'uso.

Vedi "Sulla (im)possibilità di equità" per una discussione più dettagliata su questo argomento.

apprendimento contestuale

#language
#generativeAI

Sinonimo di prompt few-shot.

in modo indipendente e distribuito in modo identico (i.i.d)

#fundamentals

Dati estratti da una distribuzione che non cambia e in cui ogni valore non dipendono dai valori tracciati in precedenza. Un i.i.d. è il gas ideale della macchina dell'apprendimento: un costrutto matematico utile ma quasi mai trovato esattamente nel mondo reale. Ad esempio, la distribuzione dei visitatori di una pagina web può essere i.i.d. in un breve arco di tempo: cioè la distribuzione non durante questo breve periodo e la visita di una persona solitamente indipendenti dalla visita di un'altra. Tuttavia, se espandi la finestra di tempo, potrebbero apparire differenze stagionali nei visitatori della pagina web.

Vedi anche nonstationarity.

equità individuale

#fairness

Una metrica di equità che verifica se persone simili sono classificate in modo simile. Ad esempio, Brobdingnagian Academy potrebbe decidere di soddisfare equità individuale garantendo che due studenti con voti identici e standardizzati hanno le stesse probabilità di ottenere l'ammissione.

Tieni presente che l'equità individuale si basa interamente sul modo in cui definisci la "somiglianza" (in questo caso, voti e punteggi dei test) ed è possibile correre il rischio Introduzione di nuovi problemi di equità se la metrica di somiglianza non riesce a individuare elementi importanti informazioni (ad esempio il rigore del programma di studio).

Vedi "Fairness Through Awareness" per approfondire l'argomento dell'equità individuale.

inferenza

#fundamentals

Nel machine learning, il processo di elaborazione di previsioni applicando un modello addestrato a esempi senza etichetta.

L'inferenza ha un significato leggermente diverso in statistica. Consulta le Articolo di Wikipedia sull'inferenza statistica per maggiori dettagli.

percorso di inferenza

#df

In un albero decisionale, durante l'inferenza, il percorso intrapreso da un particolare esempio dalla root ad altre condizioni, terminando con una foglia. Ad esempio, nel seguente albero decisionale, frecce più spesse mostrano il percorso di inferenza per un esempio con il seguente valori delle caratteristiche:

  • x = 7
  • y = 12
  • z = -3

Il percorso di inferenza nella seguente illustrazione si snoda attraverso tre prima di raggiungere la foglia (Zeta).

Un albero decisionale costituito da quattro condizioni e cinque foglie.
          La condizione principale è (x > 0). Poiché la risposta è Sì,
          il percorso di inferenza si sposta dalla radice alla condizione successiva (y > 0).
          Poiché la risposta è Sì, il percorso di inferenza si sposta
          condizione successiva (z > 0). Poiché la risposta è No, il percorso di inferenza
          viaggia verso il suo nodo terminale, che è la foglia (Zeta).

Le tre frecce spesse mostrano il percorso di inferenza.

guadagno di informazioni

#df

Nelle foreste decisionali, la differenza l'entropia di un nodo e la ponderazione (per il numero di esempi) somma dell'entropia dei nodi figlio. L'entropia di un nodo è l'entropia di esempi in quel nodo.

Ad esempio, considera i seguenti valori di entropia:

  • entropia del nodo padre = 0,6
  • entropia di un nodo figlio con 16 esempi pertinenti = 0,2
  • entropia di un altro nodo figlio con 24 esempi pertinenti = 0,1

Il 40% degli esempi si trova in un nodo figlio e il 60% nella dall'altro nodo figlio. Pertanto:

  • somma dell'entropia ponderata dei nodi figlio = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Quindi, l'acquisizione di informazioni è:

  • guadagno di informazioni = entropia del nodo padre - somma di entropia ponderata dei nodi figlio
  • guadagno di informazioni = 0,6 - 0,14 = 0,46

La maggior parte degli splitter cerca di creare condizioni che massimizzano il guadagno di informazioni.

bias nel gruppo

#fairness

Mostrare parzialità rispetto al proprio gruppo o alle proprie caratteristiche. Se i tester o i valutatori sono amici degli sviluppatori di machine learning, familiari o colleghi, le disparità nel gruppo possono invalidare i test sui prodotti o il set di dati.

Il bias nel gruppo è una forma di bias di attribuzione del gruppo. Vedi anche bias di omogeneità fuori gruppo.

generatore di input

Un meccanismo mediante il quale i dati vengono caricati una rete neurale.

Un generatore di input può essere considerato un componente responsabile dell'elaborazione non elaborati in tensori che vengono iterati per generare batch addestramento, valutazione e inferenza.

livello di input

#fundamentals

Il livello di una rete neurale che contiene il vettore di caratteristiche. Vale a dire, lo strato di input fornisce esempi di addestramento inferenza. Ad esempio, il livello di input nel seguente la rete neurale è composta da due funzionalità:

Quattro livelli: uno di input, due nascosti e uno di output.

condizione integrata

#df

In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, la seguente è una condizione predefinita:

  house-style in [tudor, colonial, cape]

Durante l'inferenza, se il valore della caratteristica in stile casa è tudor, colonial o cape, questa condizione restituisce Sì. Se il valore della caratteristica casalinga è un altro (ad esempio, ranch), questa condizione restituisce n.

Le condizioni in sede di solito portano a alberi decisionali più efficienti rispetto a che verificano le caratteristiche con codifica one-hot.

istanza

Sinonimo di example.

ottimizzazione delle istruzioni

#generativeAI

Una forma di ottimizzazione che migliora una Abilità del modello di IA generativa di seguire istruzioni. L'ottimizzazione delle istruzioni prevede l'addestramento di un modello su una serie di istruzioni, in genere copre un'ampia diverse attività. Il modello ottimizzato per l'istruzione risultante tende quindi generare risposte utili ai prompt zero-shot in una serie di attività.

Confronta e metti a confronto con:

interpretabilità

#fundamentals

La capacità di spiegare o presentare il ragionamento di un modello ML in comprensibili per un essere umano.

La maggior parte dei modelli di regressione lineare, ad esempio, ha una capacità elevata interpretabili. (devi solo esaminare i pesi addestrati per ogni feature.) Anche le foreste di decisioni sono altamente interpretabili. Alcuni modelli, tuttavia, richiedono una visualizzazione sofisticata per diventare interpretabili.

Puoi utilizzare lo Strumento di interpretabilità dell'apprendimento (LIT) per interpretare i modelli di ML.

accordo tra classificatori

Una misurazione della frequenza con cui i revisori umani concordano nello svolgere un'attività. Se i revisori non sono d'accordo, potrebbe essere necessario migliorare le istruzioni delle attività. Talvolta chiamato anche contratto inter-annotatore o affidabilità tra classificatori. Vedi anche Di Cohen Kappa, che è una delle più comuni misurazioni del contratto tra le valutazioni.

intersezione su unione (IoU)

#image

L'intersezione di due insiemi divisa per la loro unione. Nel machine learning le attività di rilevamento delle immagini, IoU è utilizzato per misurare la precisione riquadro di delimitazione previsto rispetto al riquadro di delimitazione dati empirici reali. In questo caso, l'IoU per "due caselle" è il rapporto tra l'area di sovrapposizione e l'area totale, e il suo valore è compreso tra 0 (nessuna sovrapposizione del riquadro di delimitazione previsto e dei dati empirici reali il riquadro di delimitazione) a 1 (il riquadro di delimitazione previsto e il riquadro di delimitazione dei dati empirici reali hanno esattamente le stesse coordinate).

Ad esempio, nell'immagine seguente:

  • Il riquadro di delimitazione previsto (le coordinate che delimitano il punto in cui il modello prevede che il comodino nel dipinto) sia contornato in viola.
  • Il riquadro di delimitazione dei dati empirici reali (le coordinate che delimitano il luogo della notte di Google Cloud nel dipinto) è contornato in verde.

Il dipinto di Van Gogh La camera da letto di Vincent ad Arles, con due diversi
          riquadri di delimitazione intorno al comodino accanto al letto. I dati di fatto
          riquadro di delimitazione (in verde) circoscrive perfettamente il comodino. La
          il riquadro di delimitazione previsto (in viola) è spostato del 50% verso il basso e a destra
          del riquadro di delimitazione dei dati di fatto; racchiude il quarto in basso a destra
          del comodino, ma manca del resto del tavolo.

Qui, l'intersezione dei riquadri di delimitazione per la previsione e i dati empirici reali (in basso a sinistra) è 1 e l'unione dei riquadri di delimitazione per la previsione e i dati di fatto (in basso a destra) sono 7, pertanto l'IoU è \(\frac{1}{7}\).

Stessa immagine dell&#39;immagine precedente, ma con ciascun riquadro di delimitazione diviso in quattro
          quadranti. Ci sono sette quadranti in totale, l&#39;angolo in basso a destra
          grafico del riquadro di delimitazione dei dati empirici reali e il riquadro in alto a sinistra
          del riquadro di delimitazione previsto si sovrappongono. Questo
          di sovrapposizione (evidenziata in verde) rappresenta
          e ha un&#39;area di 1. Stessa immagine dell&#39;immagine precedente, ma con ciascun riquadro di delimitazione diviso in quattro
          quadranti. Ci sono sette quadranti in totale, l&#39;angolo in basso a destra
          grafico del riquadro di delimitazione dei dati empirici reali e il riquadro in alto a sinistra
          del riquadro di delimitazione previsto si sovrappongono.
          L&#39;intero interno racchiuso da entrambi i riquadri di delimitazione
          (evidenziata in verde) rappresenta l&#39;unione e ha
          su un&#39;area di 7.

IoU

Abbreviazione di intersection over Union.

matrice di elementi

#recsystems

Nei sistemi di consigli, una matrice di vettori di incorporamento generata fattorizzazione matriciale che contengono indicatori latenti su ogni elemento. Ogni riga della matrice contiene il valore di un singolo elemento latente per tutti gli articoli. Ad esempio, considera un sistema di consigli sui film. Ogni colonna nella matrice degli elementi rappresenta un singolo filmato. Gli indicatori latenti potrebbero rappresentare generi o essere più difficili da interpretare che implicano interazioni complesse tra genere, star all'età del film o ad altri fattori.

La matrice dell'elemento ha lo stesso numero di colonne del target matrice che viene fattorizzata. Ad esempio, dato un film sistema di consigli che valuta 10.000 titoli di film, matrice di elementi avrà 10.000 colonne.

elementi

#recsystems

In un sistema di consigli, le entità che consigliati da un sistema. Ad esempio, i video sono gli articoli di un video consiglia, mentre i libri sono gli articoli consigliati da una libreria.

iterazione

#fundamentals

Un singolo aggiornamento dei parametri di un modello, ponderazioni e pregiudizi: durante formazione. La dimensione del batch determina il numero di esempi elaborati dal modello in una singola iterazione. Ad esempio, se la dimensione del batch è 20, il modello elabora 20 esempi prima regolare i parametri.

Durante l'addestramento di una rete neurale, una singola iterazione prevede le seguenti due tessere:

  1. Un passaggio in avanti per valutare la perdita su un singolo batch.
  2. Un passaggio all'indietro (retropropagazione) per regolare i parametri del modello in base alla perdita e al tasso di apprendimento.

J

JAX

Una libreria di array computing, che riunisce XLA (Accelerated Linear Algebra) e differenziazione automatica per il calcolo numerico ad alte prestazioni. JAX offre una soluzione semplice e potente API per la scrittura di codice numerico accelerato con trasformazioni componibili. JAX offre funzionalità quali:

  • grad (differenziazione automatica)
  • jit (compilazione just-in-time)
  • vmap (Vectorizzazione o batch automatici)
  • pmap (parallelizzazione)

JAX è un linguaggio per esprimere e comporre trasformazioni di analogo, ma di ambito molto più ampio, a NumPy di Python libreria. (Di fatto, la libreria .numpy in JAX è una funzione equivalente, ma la versione completamente riscritta della libreria Python NumPy.)

JAX è particolarmente adatta per accelerare molte attività di machine learning trasformando i modelli e i dati in una forma adatta al parallelismo su GPU e chip dell'acceleratore TPU.

Flax, Optax, Pax e molti altri sono basate sull'infrastruttura JAX.

K

Keras

Una nota API di machine learning Python. Keras viene eseguito il diversi framework di deep learning, tra cui TensorFlow, che prevede la realizzazione disponibile come tf.keras.

Macchine vettoriali di supporto kernel (KSVM)

Un algoritmo di classificazione che cerca di massimizzare il margine tra positiva e classi negative mediante la mappatura dei vettori di dati di input in uno spazio dimensionale più elevato. Ad esempio, considera una classificazione problema in cui il set di dati di input ha un centinaio di caratteristiche. Per massimizzare il margine tra classi positive e negative, una KSVM potrebbe mappare internamente queste caratteristiche in uno spazio milionario. Le KSVM utilizzano una funzione di perdita chiamata perdita della cerniera.

punti chiave

#image

Coordinate di elementi particolari in un'immagine. Ad esempio, per un modello di riconoscimento di immagini che distingue specie di fiori, punti chiave potrebbero essere il centro di ogni petalo, lo stelo lo stame e così via.

convalida incrociata k-fold

Un algoritmo per prevedere la capacità di un modello di generalizza con nuovi dati. La k in k-fold si riferisce numero di gruppi uguali in cui dividi gli esempi di un set di dati; cioè si addestra e testare il modello k volte. Per ogni fase di addestramento e test, in un gruppo diverso è il set di test, mentre tutti i gruppi rimanenti diventano l'addestramento per iniziare. Dopo k cicli di addestramento e test, si calcola la media e deviazione standard delle metriche di test scelte.

Ad esempio, supponiamo che il tuo set di dati sia composto da 120 esempi. Supponiamo inoltre che: decidi di impostare k su 4. Pertanto, dopo aver eseguito lo shuffling degli esempi, dividi il set di dati in quattro gruppi uguali di 30 esempi e conduci quattro di addestramento e test:

Un set di dati suddiviso in quattro gruppi uguali di esempi. Nel primo round,
          i primi tre gruppi vengono utilizzati per l&#39;addestramento, mentre l&#39;ultimo
          viene utilizzato per i test. Nel secondo round, i primi due gruppi e l&#39;ultimo
          gruppo è utilizzato per l&#39;addestramento, mentre il terzo è utilizzato
          test. Nel terzo round, il primo e gli ultimi due gruppi sono
          per l&#39;addestramento, mentre il secondo per i test.
          Nel quarto round, il primo gruppo viene utilizzato per i test, mentre il gruppo finale
          per l&#39;addestramento si utilizzano tre gruppi.

Ad esempio, errore quadratico medio (MSE) potrebbe essere la metrica più significativa per un modello di regressione lineare. Pertanto, troverebbe la media e la deviazione standard dell'MSE in tutti e quattro i turni.

K-means

#clustering

Un noto algoritmo di clustering che raggruppa esempi nell'apprendimento non supervisionato. L'algoritmo K-means svolge fondamentalmente le seguenti operazioni:

  • Determina iterativamente i migliori punti k centrali (noti come centroidi).
  • Assegna ogni esempio al centroide più vicino. Questi esempi più vicini il medesimo centroide appartiene allo stesso gruppo.

L'algoritmo k-means seleziona le posizioni dei centroidi per ridurre al minimo il quadrato delle distanze da ciascun esempio al centroide più vicino.

Ad esempio, considera il seguente diagramma di altezza rispetto alla larghezza del cane:

Un grafico cartesiano con diverse decine di punti dati.

Se k=3, l'algoritmo k-means determinerà tre centroidi. Ogni esempio viene assegnato al centroide più vicino, generando tre gruppi:

Lo stesso grafico cartesiano dell&#39;illustrazione precedente, ad eccezione di
          con tre centroidi aggiunti.
          I punti dati precedenti sono raggruppati in tre gruppi distinti,
          in cui ogni gruppo rappresenta i punti dati più vicini a un determinato
          il baricentro.

Immagina che un produttore voglia determinare le taglie ideali per maglioni di taglia media e grande per cani. I tre centroidi identificano la media l'altezza e la larghezza media di ogni cane in quell'ammasso. Quindi, il produttore dovrebbe basare la taglia dei maglioni sui tre centroidi. Tieni presente che il centroide di un cluster in genere non è un esempio nel cluster.

Le illustrazioni precedenti mostrano k-means per esempi con solo due caratteristiche (altezza e larghezza). Tieni presente che K-means può raggruppare esempi in molte funzionalità.

mediana k

#clustering

Un algoritmo di clustering strettamente correlato a K-means. La la differenza pratica tra i due è la seguente:

  • In K-means, i baridi vengono determinati minimizzando la somma dei quadrati della distanza tra un candidato centroide e ciascuno di i suoi esempi.
  • Nella mediana k, i baridi sono determinati minimizzando la somma dei distanza tra un candidato baricentro e ognuno dei suoi esempi.

Anche le definizioni di distanza sono diverse:

  • K-means si basa sul Distanza euclidea da il baricentro a un esempio. (In due dimensioni, il modello la distanza indica che si usa il teorema di Pitagora per calcolare dell'ipotenusa). Ad esempio, la distanza k-means tra (2,2) e (5,-2) sarebbe:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median si basa sulla distanza di Manhattan dal baricentro a un esempio. Questa distanza è la somma dei valori delta assoluti in ogni dimensione. Ad esempio, la mediana k la distanza tra (2,2) e (5,-2) sarebbe:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regolarizzazione L0

#fundamentals

Un tipo di regolarizzazione che penalizza il numero totale di ponderazioni diverse da zero in un modello. Ad esempio, un modello con 11 pesi diversi da zero sarebbe penalizzato più di un modello simile con 10 pesi diversi da zero.

La regolarizzazione L0 viene a volte chiamata regolarizzazione secondo la norma L0.

Perdita L1

#fundamentals

Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi di etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L1 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Valore assoluto del delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 perdita

La perdita L1 è meno sensibile agli outlier rispetto alla perdita di L2.

L'errore medio assoluto è la media Perdita di 1 per esempio.

Regolarizzazione L1

#fundamentals

Un tipo di regolarizzazione che penalizza ponderazioni in proporzione alla somma del valore assoluto di i pesi. La regolarizzazione L1 aiuta a gestire la ponderazione di elementi o funzionalità appena pertinenti su 0. Una caratteristica con una ponderazione pari a 0 viene effettivamente rimossa dal modello.

Confrontare con la regolarizzazione L2.

Perdita L2

#fundamentals

Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi di etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L2 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Quadrato del delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perdita L2

A causa del quadrato, la perdita L2 amplifica l'influenza del outlier: Vale a dire che la perdita L2 reagisce più fortemente a previsioni errate rispetto a perdita di L1. Ad esempio, la perdita L1 per il batch precedente sarebbe 8 anziché 16. Nota che una singola i valori anomali rappresentano 9 dei 16.

I modelli di regressione in genere usano la perdita L2 come funzione di perdita.

L'errore quadratico medio è il valore medio Perdita di 2 per esempio. Perdita al quadrato è un altro nome per la perdita L2.

Regolarizzazione L2

#fundamentals

Un tipo di regolarizzazione che penalizza ponderazioni in proporzione alla somma dei quadrati dei pesi. La regolarizzazione L2 aiuta a generare ponderazioni outlier (ovvero con valori positivi o negativi bassi) più vicini a 0 ma non proprio a 0. Le caratteristiche con valori molto vicini a 0 rimangono nel modello ma non influiscono molto sulla previsione del modello.

La regolarizzazione L2 migliora sempre la generalizzazione nelle modelli lineari.

Confrontare con la regolarizzazione L1.

etichetta

#fundamentals

Nel machine learning supervisionato, "risposta" o "risultato" di un esempio.

Ogni esempio con etichetta è costituito da uno o più features e a un'etichetta. Ad esempio, in un file di rilevamento, l'etichetta sarà probabilmente "spam" o "non spam." In un set di dati sulle precipitazioni, l'etichetta potrebbe essere la quantità pioggia caduta in un determinato periodo.

esempio etichettato

#fundamentals

Un esempio contenente una o più caratteristiche e una etichetta. Ad esempio, la tabella seguente mostra tre esempi etichettati da un modello di valutazione delle case, ciascuno con tre caratteristiche e un'etichetta:

Numero di camere Numero di bagni Età della casa Prezzo casa (etichetta)
3 2 15 345.000 $
2 1 72 179.000 $
4 2 34 392.000 $

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni esempi senza etichetta.

Confronta l'esempio etichettato con gli esempi senza etichetta.

fuga di etichette

Un difetto di progettazione del modello in cui una caratteristica è un proxy per etichetta. Ad esempio, considera un modello di classificazione binaria che prevede se un potenziale cliente acquisterà o meno un determinato prodotto. Supponiamo che una delle caratteristiche del modello sia un nome booleano SpokeToCustomerAgent. Supponiamo inoltre che l'agente del cliente assegnata dopo che il potenziale cliente ha effettivamente acquistato prodotto. Durante l'addestramento, il modello apprenderà rapidamente tra SpokeToCustomerAgent e l'etichetta.

Lambda

#fundamentals

Sinonimo di tasso di regolarizzazione.

Lambda è un termine sovraccarico. In questo caso ci concentriamo sul definizione all'interno della regolarizzazione.

LaMDA (Language Model for Dialogue Applications)

#language

Un modello basato su Transformer modello linguistico di grandi dimensioni (LLM) sviluppato da Google, addestrato su un ampio set di dati di dialoghi in grado di generare risposte conversazionali realistiche.

LaMDA: la nostra conversazione innovativa tecnologia fornisce una panoramica.

punti di riferimento

#image

Sinonimo di keypoint.

modello linguistico

#language

Un modello che stima la probabilità di un token o sequenza di token che si verificano in una sequenza più lunga di token.

modello linguistico di grandi dimensioni

#language

Come minimo, un modello linguistico con un numero molto elevato di parametri. In modo più informale, qualsiasi Transformer (LLM), ad esempio Gemini o GPT.

spazio latente

#language

Sinonimo di spazio di incorporamento.

livello

#fundamentals

Un insieme di neuroni in una rete neurale. Tre tipi comuni di strati sono i seguenti:

Ad esempio, l'illustrazione seguente mostra una rete neurale con uno di input, due nascosti e uno di output:

Una rete neurale con uno strato di input, due strati nascosti e uno
          livello di output. Il livello di input è costituito da due caratteristiche. Il primo
          è composto da tre neuroni e il secondo strato nascosto
          è composto da due neuroni. Il livello di output è costituito da un singolo nodo.

In TensorFlow, anche i livelli sono funzioni Python che prendono Tensori e opzioni di configurazione come input e produrre altri tensori come output.

API Livelli (tf.layers)

#TensorFlow

Un'API TensorFlow per la creazione di una rete neurale profonda una composizione di strati. L'API Livelli ti consente di creare tipi di livelli, ad esempio:

L'API Livelli segue le convenzioni dell'API per i livelli Keras. In altre parole, a parte un prefisso diverso, tutte le funzioni dell'API Livelli hanno gli stessi nomi e firme delle rispettive controparti in Keras l'API layer.

foglia

#df

Qualsiasi endpoint in un albero decisionale. Non mi piace più condition, una foglia non esegue un test. Piuttosto, una foglia è una possibile previsione. Una foglia è anche il terminale nodo di un percorso di inferenza.

Ad esempio, il seguente albero decisionale contiene tre foglie:

Un albero decisionale con due condizioni che portano a tre foglie.

Learning Interpretability Tool (LIT)

Uno strumento visivo e interattivo per la comprensione dei modelli e la visualizzazione dei dati.

Puoi utilizzare LIT open source per interpretare i modelli o visualizzare testo, immagini e e i dati tabulari.

tasso di apprendimento

#fundamentals

Un numero in virgola mobile che indica la discesa del gradiente all'algoritmo la forza di regolare le ponderazioni e i bias su iterazione. Ad esempio, un tasso di apprendimento pari a 0,3 bilanciare ponderazioni e bias in modo tre volte più efficace rispetto a un tasso di apprendimento pari a 0,1.

Il tasso di apprendimento è un iperparametro fondamentale. Se imposti il tasso di apprendimento è troppo basso, l'addestramento richiederà troppo tempo. Se imposti un tasso di apprendimento troppo alto, la discesa del gradiente spesso presenta raggiungendo la convergenza.

regressione dei minimi quadrati

Un modello di regressione lineare addestrato riducendo al minimo L2 Perdita.

lineare

#fundamentals

Una relazione tra due o più variabili che possono essere rappresentate esclusivamente mediante addizioni e moltiplicazioni.

Il diagramma di una relazione lineare è una linea.

Contrasta con nonlinear.

modello lineare

#fundamentals

Un modello che assegna un peso per feature per fare previsioni. I modelli lineari incorporano anche un bias. Al contrario, la relazione delle caratteristiche con le previsioni nei modelli diretti è generalmente nonlinear.

I modelli lineari sono in genere più facili da addestrare e interpretabili dei modelli deep. Tuttavia, I modelli profondi possono apprendere relazioni complesse tra le caratteristiche.

Regressione lineare e La regressione logistica sono due tipi di modelli lineari.

regressione lineare

#fundamentals

Un tipo di modello di machine learning in cui si verificano entrambe le seguenti condizioni:

  • Il modello è un modello lineare.
  • La previsione è un valore in virgola mobile. (Questo è il regressione parte della regressione lineare).

Confrontare la regressione lineare con la regressione logistica. Inoltre, metti a confronto la regressione con la classificazione.

LIT

Abbreviazione per Strumento di interpretabilità dell'apprendimento (LIT), precedentemente noto come strumento di interpretabilità linguistica.

LLM

#language
#generativeAI

Abbreviazione di Large Language Model.

Valutazioni LLM (valutazioni)

#language
#generativeAI

Un insieme di metriche e benchmark per valutare le prestazioni di modelli linguistici di grandi dimensioni (LLM). A livello generale, Valutazioni LLM:

  • Aiuta i ricercatori a identificare le aree in cui gli LLM devono essere migliorati.
  • Sono utili per confrontare diversi LLM e identificare l'LLM migliore per un un'attività specifica.
  • Contribuisci a garantire che gli LLM siano sicuri ed etici da usare.
di Gemini Advanced.

regressione logistica

#fundamentals

Un tipo di modello di regressione che prevede una probabilità. I modelli di regressione logistica hanno le seguenti caratteristiche:

  • L'etichetta è categorica. Il termine logistica La regressione di solito si riferisce alla regressione logistica binaria, in base a un modello che calcola le probabilità per le etichette con due valori possibili. Una variante meno comune, la regressione logistica multinomiale, calcola probabilità di etichette con più di due valori possibili.
  • La funzione di perdita durante l'addestramento è perdita logaritmica. (È possibile posizionare più unità di perdita di log in parallelo per le etichette) con più di due valori possibili).
  • Il modello ha un'architettura lineare, non una rete neurale profonda. Tuttavia, il resto di questa definizione si applica anche modelli profondi che prevedono le probabilità per le etichette categoriche.

Ad esempio, considera un modello di regressione logistica che calcola il la probabilità che un'email di input sia spam o non spam. Durante l'inferenza, supponiamo che il modello preveda 0,72. Pertanto, stima:

  • 72% di probabilità che l'email sia spam.
  • 28% di probabilità che l'email non sia spam.

Un modello di regressione logistica utilizza la seguente architettura in due fasi:

  1. Il modello genera una previsione non elaborata (y') applicando una funzione lineare di caratteristiche di input.
  2. Il modello utilizza questa previsione non elaborata come input per un funzione sigmoidale, che converte i dati non elaborati la previsione in un valore compreso tra 0 e 1, esclusi.

Come ogni modello di regressione, anche quello logistica prevede un numero. Tuttavia, questo numero in genere diventa parte di una classificazione binaria modello come segue:

  • Se il numero previsto è maggiore del valore soglia di classificazione, il modello di classificazione binaria prevede la classe positiva.
  • Se il numero previsto è inferiore alla soglia di classificazione, il modello di classificazione binaria prevede la classe negativa.

logit

Il vettore di previsioni non elaborate (non normalizzate) che una classificazione generato dal modello, che di solito viene passato a una funzione di normalizzazione. Se il modello risolve una classificazione multiclasse problema, i logit di solito diventano un input Funzione softmax. La funzione softmax genera quindi un vettore di (normalizzato) probabilità con un valore per ogni classe possibile.

Log Loss

#fundamentals

La funzione di perdita utilizzata in file binario regressione logistica.

log-odd

#fundamentals

Il logaritmo delle probabilità di un evento.

LSTM (Long Short-Term Memory).

#seq

Un tipo di cella in una rete neurale ricorrente utilizzata per elaborare sequenze di dati in applicazioni come il riconoscimento della scrittura, traduzione e didascalie delle immagini. Gli LSTM risolvono il problema problema di scomparsa del gradiente che si verifica quando di addestramento degli RNN grazie a lunghe sequenze di dati mantenendo la cronologia in stato della memoria interna in base al nuovo input e al contesto delle celle precedenti nell'RNN.

LoRA

#language
#generativeAI

Abbreviazione di Low-Rank Adapter.

perdita

#fundamentals

Durante l'addestramento di un modello supervisionato, una misura di quanto la previsione del modello proviene dalla sua etichetta.

Una funzione di perdita calcola la perdita.

aggregatore perdita

Un tipo di algoritmo di machine learning che migliora le prestazioni di un modello combinando le previsioni di più modelli e utilizzando queste previsioni per fare una singola previsione. Di conseguenza, un aggregatore di perdite può ridurre la varianza delle previsioni migliorare la accuratezza delle previsioni.

curva di perdita

#fundamentals

Un grafico della perdita in funzione del numero di addestramento iterazioni. Il grafico seguente mostra una perdita tipica curva:

Un grafico cartesiano delle iterazioni di perdita e addestramento, che mostra una
          un rapido calo della perdita per le iterazioni iniziali, seguite da una graduale
          e poi una pendenza piatta durante le iterazioni finali.

Le curve di perdita possono aiutarti a determinare quando il modello convergente o overfitting.

Le curve di perdita possono tracciare tutti i seguenti tipi di perdita:

Vedi anche la curva di generalizzazione.

funzione di perdita

#fundamentals

Durante l'addestramento o il test, funzione matematica che calcola su un batch di esempi. Una funzione di perdita restituisce una perdita minore per i modelli che fanno buone previsioni piuttosto che per i modelli che generano previsioni errate.

L'obiettivo dell'addestramento è in genere minimizzare la perdita che una funzione di perdita i resi.

Esistono molti tipi diversi di funzioni di perdita. Scegli la perdita appropriata per il tipo di modello che stai creando. Ad esempio:

superficie di perdita

Un grafico del confronto tra ponderazioni e perdita. Obiettivi della discesa del gradiente per trovare i pesi per cui la superficie di perdita è al minimo locale.

Adattabilità Low-Rank (LoRA)

#language
#generativeAI

Un algoritmo per eseguire ottimizzazione efficiente dei parametri ottimizza solo un sottoinsieme di Parametri del modello linguistico di grandi dimensioni (LLM). LoRA offre i seguenti vantaggi:

  • Perfeziona più rapidamente rispetto alle tecniche che richiedono l'ottimizzazione di tutte le fasi parametri.
  • Riduce il costo di calcolo dell'inferenza nel perfezionato il modello.

Un modello ottimizzato con LoRA mantiene o migliora la qualità delle sue previsioni.

LoRA consente più versioni specializzate di un modello.

LSTM

#seq

Abbreviazione di Long Short-Term Memory.

M

machine learning

#fundamentals

Un programma o sistema che addestra una model dai dati di input. Il modello addestrato può fare previsioni utili sulla base di nuovi (mai visti) dati ricavati la stessa distribuzione di quella usata per addestrare il modello.

Il machine learning si riferisce anche all'ambito di studio con questi programmi o sistemi.

classe di maggioranza

#fundamentals

L'etichetta più comune set di dati classe-imbalanced. Ad esempio: dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette negative costituiscono la classe maggioritaria.

Contrasta con classe di minoranza.

Processo decisionale di Markov (MDP)

#rl

Un grafico che rappresenta il modello decisionale in cui le decisioni (o azioni) vengono intraprese per navigare in una sequenza di afferma il presupposto che Conservazioni della proprietà di Markov. Nella apprendimento per rinforzo, queste transizioni gli stati restituiscono un premio numerico.

Proprietà di Markov

#rl

Una proprietà di determinati ambienti, in cui lo stato sono interamente determinate dalle informazioni implicite lo stato corrente e l'azione dell'agente.

modello linguistico mascherato

#language

Un modello linguistico che prevede la probabilità di di token candidati per riempire gli spazi vuoti in sequenza. Ad esempio, un il modello linguistico mascherato può calcolare le probabilità delle parole candidati per sostituire il sottolineato nella seguente frase:

Il ____ con il cappello è tornato.

La letteratura in genere utilizza la stringa "MASK" anziché una sottolineatura. Ad esempio:

La "MASCHERA" col cappello è tornato.

La maggior parte dei moderni modelli linguistici con mascheramento è bidirezionale.

matplotlib

Una libreria di tracciamento 2D Python open source. matplotlib ti aiuta a visualizzare diversi aspetti del machine learning.

fattorizzazione matriciale

#recsystems

In matematica, un meccanismo per trovare le matrici il cui prodotto scalare approssima un matrice target.

Nei sistemi di suggerimenti, la matrice target spesso conservano le valutazioni su items. Ad esempio, il target per un sistema di consigli sui film potrebbe essere simile alla seguente, dove i numeri interi positivi sono le valutazioni degli utenti e 0 indica che l'utente non ha valutato il film:

  Casablanca La storia di Filadelfia Black Panther Wonder Woman Pulp novel
Utente 1 5,0 3,0 0.0 2.0 0.0
Utente 2 4.0 0.0 0.0 1,0 5,0
Utente 3 3,0 1,0 4.0 5,0 0.0

Il sistema di consigli sui film ha lo scopo di prevedere le valutazioni degli utenti per film senza classificazione. Ad esempio, all'utente 1 piacerà Black Panther?

Un approccio per i sistemi di suggerimenti è l'utilizzo di matrici la fattorizzazione per generare le due matrici seguenti:

  • Una matrice utente, formulata come il numero di utenti X il di dimensioni di incorporamento.
  • Una matrice di elementi, modellata come il numero di incorporamenti dimensioni X il numero di elementi.

Ad esempio, utilizziamo la fattorizzazione matriciale per i tre utenti e i cinque elementi potrebbe restituire la seguente matrice utente e matrice elemento:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Il prodotto scalare della matrice utente e della matrice elemento genera un suggerimento che contiene non solo le valutazioni originali degli utenti, ma anche le previsioni per i film che ogni utente non ha visto. Ad esempio, considera la valutazione dell'utente 1 su Casablanca, che era 5,0. Il punto prodotto corrispondente a quella cella nella matrice dei suggerimenti si spera che sia circa 5.0, ed è:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Ma soprattutto, l'utente 1 apprezzerà Black Panther? Prendi il prodotto scalare corrispondente alla prima riga e alla terza colonna restituisce una previsione valutazione di 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La fattorizzazione matriciale dà in genere una matrice utente e una matrice di elementi che, sono molto più compatte della matrice target.

Errore medio assoluto (MAE)

La perdita media per esempio quando la perdita di L1 è in uso. Calcola l'errore medio assoluto come segue:

  1. Calcolare la perdita L1 di un batch.
  2. Dividi la perdita L1 per il numero di esempi nel batch.

Ad esempio, considera il calcolo della perdita L1 sulla gruppo di cinque esempi riportato di seguito:

Valore effettivo dell'esempio Valore previsto del modello Perdita (differenza tra effettiva e prevista)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 perdita

Quindi, la perdita L1 è 8 e il numero di esempi è 5. Di conseguenza, l'errore medio assoluto è:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Contrasta l'errore medio assoluto con errore quadratico medio e Errore quadratico medio.

errore quadratico medio (MSE)

La perdita media per esempio quando la perdita di L2 è in uso. Calcola lo scarto quadratico medio come segue:

  1. Calcolare la perdita L2 di un batch.
  2. Dividi la perdita L2 per il numero di esempi nel batch.

Considera ad esempio la perdita nel seguente batch di cinque esempi:

Valore effettivo Previsione del modello Perdita Perdita quadratica
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = perdita L2

Pertanto, lo scarto quadratico medio è:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

lo scarto quadratico medio è un noto ottimizzatore di addestramento, in particolare per la regressione lineare.

Contrasto quadratico medio con Errore medio assoluto e Errore quadratico medio.

TensorFlow Playground utilizza lo scarto quadratico medio per calcolare i valori della perdita.

mesh

#TensorFlow
#GoogleCloud

Nella programmazione parallela del ML, un termine associato all'assegnazione dei dati ai chip TPU e definendo il modo in cui questi valori verranno sottoposti a sharding o replicati.

Mesh è un termine sovraccarico, che può indicare uno dei seguenti termini:

  • Un layout fisico di chip TPU.
  • Un costrutto logico astratto per mappare i dati e il modello alla TPU chip.

In entrambi i casi, una mesh viene specificata come forma.

meta-learning

#language

Un sottoinsieme del machine learning che rileva o migliora un algoritmo di apprendimento. Un sistema di meta-apprendimento può anche mirare ad addestrare un modello per apprendere rapidamente in base a una piccola quantità di dati o all'esperienza acquisita nelle attività precedenti. Gli algoritmi di meta-learning generalmente tentano di ottenere i seguenti risultati:

  • Migliorare o apprendere funzionalità progettate manualmente (come un inizializzatore o ottimizzatore).
  • Aumenta l'efficienza nei dati e nel calcolo.
  • Migliorare la generalizzazione.

Il meta-learning è correlato all'apprendimento few-shot.

metrica

#TensorFlow

Una statistica che ti interessa.

Un scopo è una metrica che un sistema di machine learning cerca di ottimizzare.

API Metrics (tf.metrics)

Un'API TensorFlow per la valutazione dei modelli. Ad esempio, tf.metrics.accuracy determina la frequenza con cui le previsioni di un modello corrispondono alle etichette.

mini-batch

#fundamentals

Piccolo sottoinsieme selezionato in modo casuale di un batch elaborato in un iterazione. La dimensione del batch di un mini-batch è di solito tra 10 e 1000 esempi.

Supponi, ad esempio, l'intero set di addestramento (il batch completo) è composto da 1000 esempi. Supponiamo inoltre di impostare dimensione del batch di ogni mini-batch a 20. Pertanto, ogni l'iterazione determina la perdita su un 20 casuale dei 1.000 esempi regola le ponderazioni e facilità di conseguenza.

È molto più efficiente calcolare la perdita su un mini-batch rispetto alla per tutti gli esempi nel batch completo.

discesa stocastica del gradiente in mini-batch

Un algoritmo di discesa del gradiente che utilizza mini-batch. In altre parole, i modelli stocastici in mini-batch la discesa del gradiente stima il gradiente in base a un piccolo sottoinsieme di dati di addestramento. La discesa stocastica del gradiente in modo regolare utilizza una mini-batch della dimensione 1.

perdita minimax

Una funzione di perdita per reti generative avversarie, basata sull'entropia incrociata tra la distribuzione di dati generati e reali.

La perdita Minimax è utilizzata il primo articolo per descrivere reti generative avversarie.

classe di minoranze

#fundamentals

L'etichetta meno comune in set di dati classe-imbalanced. Ad esempio: dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette positive appartengono alla minoranza.

Contrasta la classe di maggioranza.

mix di esperti

#language
#generativeAI

Uno schema per aumentare l'efficienza della rete neurale di utilizzando solo un sottoinsieme dei suoi parametri (noto come esperto) per elaborare un determinato token di input o esempio di input. R rete di blocco inoltra ogni token di input o esempio all'esperto o agli esperti appropriati.

Per maggiori dettagli, vedi uno dei seguenti articoli:

ML

Abbreviazione di machine learning.

MMIT

#language
#image
#generativeAI

Abbreviazione di ottimizzata per l'istruzione multimodale.

MNIST

#image

Un set di dati di dominio pubblico compilato da LeCun, Cortes e Burges contenente 60.000 immagini, ciascuna delle quali mostra in che modo un essere umano ha scritto manualmente un numero da 0 a 9. Ogni immagine viene archiviata come array di numeri interi 28x28, ogni numero intero è un valore in scala di grigi compreso tra 0 e 255 inclusi.

MNIST è un set di dati canonico per il machine learning, spesso utilizzato per testare nuovi di machine learning. Per maggiori dettagli, vedi Database MNIST per cifre scritte a mano libera.

modalità

#language

Una categoria di dati di alto livello. Ad esempio, numeri, testo, immagini, video e esistono cinque modalità diverse.

modello

#fundamentals

In generale, qualsiasi costrutto matematico che elabora i dati di input e restituisce come output. Espresso in modo diverso, un modello è l'insieme di parametri e struttura necessaria a un sistema per fare previsioni. Nel machine learning supervisionato, un modello prende un esempio come input e deduce previsione come output. Nell'ambito del machine learning supervisionato, sono leggermente diversi. Ad esempio:

  • Un modello di regressione lineare è costituito da un insieme di ponderazioni e un pregiudizio.
  • Un modello di rete neurale è costituito da:
    • Un insieme di livelli nascosti, ciascuno contenente uno o più neuroni.
    • Le ponderazioni e i bias associati a ciascun neurone.
  • Un modello albero decisionale è costituito da:
    • La forma dell'albero; cioè il pattern in cui le condizioni e le foglie sono collegate.
    • Le condizioni e se ne va.

Puoi salvare, ripristinare o creare copie di un modello.

Inoltre, il machine learning non supervisionato genera modelli, solitamente una funzione in grado di mappare un esempio di input il cluster più appropriato.

capacità del modello

La complessità dei problemi che un modello può apprendere. Più è complesso il problemi che un modello può apprendere, maggiore è la sua capacità. Il modello la capacità aumenta solitamente con il numero di parametri del modello. Per un definizione formale di capacità di classificatore, cfr. Dimensione VC.

a cascata dei modelli

#generativeAI

Un sistema che sceglie il modello ideale per un'inferenza specifica query.

Immagina un gruppo di modelli, da quelli molto grandi (molti parameters) a molto più piccolo (molto meno parametri). I modelli molto grandi consumano più risorse di calcolo in dei tempi di inferenza rispetto ai modelli più piccoli. Tuttavia, le dimensioni molto grandi e i modelli più piccoli possono in genere dedurre richieste più complesse. La gestione a cascata del modello determina la complessità della query di inferenza sceglie il modello appropriato per eseguire l'inferenza. La motivazione principale per la distribuzione a cascata dei modelli è la riduzione dei costi di inferenza in genere selezionando modelli più piccoli e selezionando solo un modello più grande per per query complesse.

Immagina un modello di piccole dimensioni eseguito su uno smartphone e una versione più grande di quel modello viene eseguito su un server remoto. La gestione a cascata di un buon modello riduce i costi e la latenza consentendo al modello più piccolo di gestire richieste semplici e per gestire richieste complesse.

Vedi anche router modello.

parallelismo del modello

#language

Un modo di scalare l'addestramento o l'inferenza che pone parti diverse di una model su dispositivi diversi. Parallelismo del modello consente modelli troppo grandi per essere utilizzati in un solo dispositivo.

Per implementare il parallelismo del modello, un sistema in genere svolge le seguenti operazioni:

  1. Shard (divide) il modello in parti più piccole.
  2. Distribuisce l'addestramento delle parti più piccole su più processori. Ogni processore addestra la propria parte del modello.
  3. Combina i risultati per creare un singolo modello.

Il parallelismo del modello rallenta l'addestramento.

Vedi anche parallelismo dei dati.

modello router

#generativeAI

L'algoritmo che determina il modello ideale per inferenza nella cascading di modelli. Un router modello è a sua volta un modello di machine learning che apprende gradualmente come scegliere il modello migliore per un determinato input. Tuttavia, un modello di router a volte può essere una soluzione non-machine learning.

addestramento del modello

Il processo di determinazione del modello migliore.

Momentum

Sofisticato algoritmo di discesa del gradiente in cui una fase di apprendimento dipende non solo sulla derivata nel passo attuale, ma anche sulle derivate del passaggio o dei passaggi che l'hanno immediatamente preceduta. L'impulso implica il calcolo di media mobile ponderata in modo esponenziale dei gradienti nel tempo, in modo analogo all'impulso della fisica. L'impulso a volte impedisce all'apprendimento bloccati nei minimi locali.

MOE

#language
#image
#generativeAI

Abbreviazione di misto di esperti.

classificazione multiclasse

#fundamentals

Nell'apprendimento supervisionato, un problema di classificazione in cui il set di dati contiene più di due classi di etichette. Ad esempio, le etichette nel set di dati Iris devono essere una delle seguenti tre classi:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Un modello addestrato sul set di dati Iris che prevede il tipo Iris su nuovi esempi esegue la classificazione multiclasse.

Al contrario, i problemi di classificazione che distinguono esattamente due sono modelli di classificazione binaria. Ad esempio, un modello email che prevede spam o non spam è un modello di classificazione binaria.

Nei problemi di clustering, la classificazione multiclasse si riferisce a più di due cluster.

regressione logistica multiclasse

L'utilizzo della regressione logistica nelle problemi di classificazione multi-classe.

auto-attenzione multi-testa

#language

Un'estensione dell'auto-attenzione che applica le meccanismo di auto-attenzione più volte per ogni posizione nella sequenza di input.

I Transformer hanno introdotto l'auto-attenzione multi-head.

modello multimodale

#language

Un modello i cui input e/o output includono più di una modalità Ad esempio, consideriamo un modello che prende in considerazione immagine e una didascalia di testo (due modalità) come features e restituisce un punteggio che indica quanto sia appropriata la didascalia di testo per l'immagine. Pertanto, gli input di questo modello sono multimodali e l'output è unimodale.

ottimizzato per l'istruzione multimodale

#language

Un modello ottimizzato per le istruzioni in grado di elaborare l'input oltre al testo, come immagini, video e audio.

classificazione multinomiale

Sinonimo di classificazione multi-classe.

regressione multinomiale

Sinonimo di regressione logistica multiclasse.

multitasking

Una tecnica di machine learning in cui un singolo modello viene addestrato per eseguire più attività.

I modelli multitasking vengono creati mediante l'addestramento su dati appropriati per ciascuna delle diverse attività. Questo permette al modello di imparare a condividere le informazioni tra le varie attività, aiutando il modello ad apprendere in modo più efficace.

Un modello addestrato per più attività spesso ha migliorato le capacità di generalizzazione e possono essere più efficaci nella gestione di diversi tipi di dati.

N

Trappola NaN

Quando un numero nel modello diventa NaN durante l'addestramento, il che fa sì che molti o tutti gli altri numeri nel modello e alla fine diventerà un NaN.

NaN è l'abbreviazione di Not a numero.

comprensione del linguaggio naturale

#language

Stabilire le intenzioni di un utente in base a ciò che ha digitato o detto. Ad esempio, un motore di ricerca utilizza la comprensione del linguaggio naturale per determinare cosa sta cercando l'utente in base a ciò che ha digitato o detto.

classe esclusa

#fundamentals

Nella classificazione binaria, una classe è viene definito positivo, mentre l'altro viene definito negativo. La classe positiva è l'elemento o l'evento su cui il modello sta eseguendo il test, mentre la classe negativa è un'altra possibilità. Ad esempio:

  • La classe negativa in un test medico potrebbe essere "non tumore".
  • La classe esclusa in un classificatore email potrebbe essere "non spam".

Contrasta con classe positiva.

campionamento negativo

Sinonimo di campionamento dei candidati.

Neural Architecture Search (NAS)

Una tecnica per progettare automaticamente l'architettura di un rete neurale. Gli algoritmi NAS possono ridurre la quantità di tempo e risorse necessarie per addestrare una rete neurale.

Il NAS in genere utilizza:

  • Uno spazio di ricerca, ovvero un insieme di architetture possibili.
  • Una funzione di fitness, che è una misura dell'efficacia di un particolare su una determinata attività.

Gli algoritmi NAS spesso iniziano con un piccolo insieme di possibili architetture e espandono gradualmente lo spazio di ricerca man mano che l'algoritmo apprende cosa più efficaci. La funzione di fitness si basa in genere sul delle prestazioni dell'architettura su un set di addestramento e l'algoritmo di solito addestrati utilizzando tecnica di apprendimento per rinforzo.

Gli algoritmi NAS si sono dimostrati efficaci nell'individuare per varie attività, tra cui le soluzioni di classificazione, classificazione del testo, e la traduzione automatica.

feed-forward

#fundamentals

Un modello contenente almeno uno strato nascosto. Una rete neurale profonda è un tipo di rete neurale che contengono più di uno strato nascosto. Ad esempio, il seguente diagramma mostra una rete neurale profonda contenente due strati nascosti.

Una rete neurale con uno strato di input, due strati nascosti e
          livello di output.

Ogni neurone di una rete neurale si connette a tutti i nodi dello strato successivo. Ad esempio, nel diagramma precedente, nota che ciascuno dei tre neuroni nel primo strato nascosto si collegano separatamente a entrambi i due neuroni secondo strato nascosto.

Le reti neurali implementate sui computer sono a volte chiamate reti neurali artificiali per distinguerli dalle reti neurali del cervello e di altri sistemi nervosi.

Alcune reti neurali possono imitare relazioni non lineari estremamente complesse tra le diverse caratteristiche e l'etichetta.

Vedi anche rete neurale convoluzionale e rete neurale ricorrente.

neurone

#fundamentals

Nel machine learning, un'unità distinta all'interno di uno strato nascosto di una rete neurale. Ogni neurone esegue le seguenti operazioni in due passaggi:

  1. Calcola la somma ponderata dei valori di input moltiplicata in base ai pesi corrispondenti.
  2. Passa la somma ponderata come input a un funzione di attivazione.

Un neurone nel primo strato nascosto accetta input dai valori delle caratteristiche nel livello di input. Un neurone in qualsiasi strato nascosto oltre la prima accetta input dai neuroni dello strato nascosto precedente. Ad esempio, un neurone nel secondo strato nascosto accetta input dalla neuroni nel primo strato nascosto.

L'illustrazione seguente evidenzia due neuroni e i loro di input.

Una rete neurale con uno strato di input, due strati nascosti e
          livello di output. Sono evidenziati due neuroni: uno nel primo
          uno nel secondo strato nascosto. Gli elementi evidenziati
          il neurone del primo strato nascosto riceve input da entrambe le caratteristiche
          nel livello di input. Il neurone evidenziato nel secondo strato nascosto
          riceve input da ciascuno dei tre neuroni della prima istanza
          livello di sicurezza.

Un neurone in una rete neurale imita il comportamento dei neuroni nel cervello e altre parti del sistema nervoso.

N-grammi

#seq
#language

Una sequenza ordinata di N parole. Ad esempio, davvero folle è un 2 grammi. Poiché l'ordine è pertinente, massimamente sono 2 grammi diverso da davvero folle.

N Nomi di questo tipo di n-grammi Esempi
2 bigram o 2 grammi andare, andare, pranzare, cena
3 trigram o 3 grammi ho mangiato troppo, tre topi ciechi, le campane
4 4 grammi passeggiata nel parco, polvere al vento, il ragazzo mangiava lenticchie

Molte comprensione del linguaggio naturale i modelli si basano su n-grammi per prevedere la parola successiva che l'utente digiterà o pronunciare. Ad esempio, supponiamo che un utente abbia digitato tre ciechi. Un modello NLU basato su trigrammi probabilmente prevede che l'utente digiterà poi mopi.

Confrontare n-grammi con sacchetto di parole, che sono insiemi di parole non ordinate.

NLU

#language

Abbreviazione di lingua naturale la comprensione.

nodo (albero decisionale)

#df

In un albero decisionale, qualsiasi condition o leaf.

Un albero decisionale con due condizioni e tre foglie.

nodo (rete neurale)

#fundamentals

Un neurone in uno strato nascosto.

nodo (grafico TensorFlow)

#TensorFlow

Un'operazione in un grafico TensorFlow.

rumore

In termini generali, tutto ciò che nasconde il segnale in un set di dati. Rumore possono essere introdotte nei dati in vari modi. Ad esempio:

  • I revisori commettono errori nell'etichettare gli elementi.
  • Persone e strumenti registrano erroneamente o omettono i valori delle caratteristiche.

condizione non binaria

#df

Una condizione contenente più di due risultati possibili. Ad esempio, la seguente condizione non binaria contiene tre possibili dei risultati:

Una condizione (number_of_legs = ?) che porta a tre possibili
          i risultati. Un risultato (number_of_legs = 8) porta a una foglia
          chiamato spider. Un secondo risultato (number_of_legs = 4) porta a
          una foglia con il nome &quot;cane&quot;. Un terzo risultato (number_of_legs = 2) porta a
          una foglia chiamata pinguino.

nonlinear

#fundamentals

Una relazione tra due o più variabili che non possono essere rappresentate esclusivamente mediante addizioni e moltiplicazioni. Una relazione lineare può essere rappresentato come una linea; una relazione nonlinear non può essere rappresentato da una linea. Ad esempio, considera due modelli correlati una singola caratteristica a una singola etichetta. Il modello a sinistra è lineare mentre quello a destra non è lineare:

Due diagrammi. Un grafico è una linea, quindi questa è una relazione lineare.
          L&#39;altro grafico è una curva, quindi questa è una relazione non lineare.

bias senza risposta

#fairness

Vedi bias di selezione.

non stazionarietà

#fundamentals

Una caratteristica i cui valori cambiano in una o più dimensioni, di solito nel tempo. Considera ad esempio i seguenti esempi di non stazionarietà:

  • Il numero di costumi da bagno venduti in un determinato negozio varia in base alla stagione.
  • La quantità di un particolare frutto raccolto in una determinata regione è pari a zero per gran parte dell'anno, ma elevato per un breve periodo.
  • A causa del cambiamento climatico, le temperature medie annuali stanno cambiando.

Contrasta la stationarità.

normalizzazione

#fundamentals

In termini generali, il processo di conversione dell'intervallo effettivo di una variabile di valori in un intervallo standard di valori, come ad esempio:

  • Da -1 a +1
  • Da 0 a 1
  • Punteggi z (approssimativamente, da -3 a +3)

Ad esempio, supponiamo che l'intervallo effettivo di valori di una determinata caratteristica sia Da 800 a 2400. Nell'ambito del feature engineering, puoi normalizzare i valori effettivi fino a un intervallo standard, da -1 a +1.

La normalizzazione è un'attività comune il feature engineering. In genere i modelli si addestrano più velocemente (e produrre previsioni migliori) quando ogni caratteristica numerica nel vettore di caratteristiche ha più o meno lo stesso intervallo.

rilevamento delle novità

Il processo per determinare se un nuovo (innovativo) esempio proviene dallo stesso di distribuzione come set di addestramento. In altre parole, dopo aver addestramento sul set di addestramento, il rilevamento delle novità determina se un nuovo esempio (durante l'inferenza o durante l'addestramento aggiuntivo) outlier:

Effettuare il contrasto con il rilevamento outlier.

dati numerici

#fundamentals

Caratteristiche rappresentate come numeri interi o numeri reali. Ad esempio, un modello di valutazione di una casa rappresenterebbe probabilmente la dimensione di una casa (in piedi quadrati o metri quadrati) come dati numerici. Rappresentazione una caratteristica come dati numerici indica che i valori della caratteristica hanno una relazione matematica con l'etichetta. In altre parole, il numero di metri quadrati di una casa probabilmente ha relazione matematica con il valore della casa.

Non tutti i dati interi devono essere rappresentati come dati numerici. Ad esempio: i codici postali in alcune parti del mondo sono numeri interi, mentre il codice postale intero i codici non devono essere rappresentati come dati numerici nei modelli. Questo perché il codice postale di 20000 non è due (o la metà) più potente di un codice postale di 10.000. Inoltre, sebbene diversi codici postali possano essere correlati valori immobiliari, non possiamo presumere che i valori degli immobili al codice postale 20000 sono il doppio del valore degli immobili con codice postale 10000. I codici postali devono essere rappresentati come dati categorici .

Le caratteristiche numeriche a volte vengono chiamate funzionalità continue.

NumPy

Un libreria di matematica open source che fornisce operazioni su array efficienti in Python. pandas è basato su NumPy.

O

scopo

Una metrica che l'algoritmo sta cercando di ottimizzare.

funzione obiettivo

La formula matematica o la metrica che un modello mira a ottimizzare. Ad esempio, la funzione obiettivo per La regressione lineare di solito perdita quadratica media. Pertanto, quando addestra un di regressione lineare, l'addestramento mira a minimizzare la perdita quadratica media.

In alcuni casi, l'obiettivo è massimizzare la funzione obiettivo. Ad esempio, se la funzione obiettivo è accuratezza, l'obiettivo è per massimizzare la precisione.

Vedi anche perdita.

condizione obliqua

#df

In un albero decisionale, una condizione che includa più di una funzionalità. Ad esempio, se altezza e larghezza sono entrambe caratteristiche, la seguente è una condizione obliqua:

  height > width

Contrasta con la condizione allineata all'asse.

offline

#fundamentals

Sinonimo di statico.

inferenza offline

#fundamentals

Il processo con cui un modello genera un batch di previsioni e quindi memorizzare nella cache (salvare) queste previsioni. Le app possono quindi accedere la previsione dalla cache anziché eseguire nuovamente il modello.

Ad esempio, considera un modello che genera le previsioni meteo locali (previsioni) una volta ogni quattro ore. Dopo l'esecuzione di ogni modello, il sistema memorizza nella cache tutte le previsioni meteo locali. Le app meteo recuperano le previsioni dalla cache.

L'inferenza offline è chiamata anche inferenza statica.

Confrontare con l'inferenza online.

codifica one-hot

#fundamentals

Rappresentazione dei dati categorici come un vettore in cui:

  • Un elemento è impostato su 1.
  • Tutti gli altri elementi sono impostati su 0.

La codifica one-hot viene comunemente utilizzata per rappresentare stringhe o identificatori che hanno un insieme finito di valori possibili. Supponiamo, ad esempio, che una determinata caratteristica categorica denominata Scandinavia ha cinque valori possibili:

  • "Danimarca"
  • "Svezia"
  • "Norvegia"
  • "Finlandia"
  • "Islanda"

La codifica one-hot potrebbe rappresentare ciascuno dei cinque valori come segue:

country Vettoriale
"Danimarca" 1 0 0 0 0
"Svezia" 0 1 0 0 0
"Norvegia" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islanda" 0 0 0 0 1

Grazie alla codifica one-hot, un modello può apprendere diverse connessioni in base a ciascuno dei cinque paesi.

La rappresentazione di una caratteristica come dati numerici è una un'alternativa alla codifica one-hot. Purtroppo, la rappresentanza Dal punto di vista numerico i paesi scandinavi non sono una buona scelta. Ad esempio: considera la seguente rappresentazione numerica:

  • "Danimarca" è 0
  • "Svezia" è 1
  • "Norvegia" è 2
  • "Finlandia" è 3
  • "Islanda" è 4

Con la codifica numerica, un modello interpreta i numeri non elaborati matematicamente e cercheremo di allenarsi su questi numeri. Tuttavia, l'Islanda non è il doppio (o la metà) delle qualcosa come la Norvegia, quindi il modello giunge ad alcune strane conclusioni.

apprendimento one-shot

Un approccio al machine learning, spesso usato per la classificazione degli oggetti, progettato per apprendere classificatori efficaci a partire da un singolo esempio di addestramento.

Vedi anche few-shot learning e apprendimento zero-shot.

Prompt one-shot

#language
#generativeAI

Un prompt contenente un esempio che mostra come Il modello linguistico di grandi dimensioni (LLM) deve rispondere. Ad esempio: Il seguente prompt contiene un esempio che mostra un modello linguistico di grandi dimensioni dovrebbe rispondere a una query.

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
Francia: EUR Un esempio.
India: La query effettiva.

Confronta e contrapponi i prompt one-shot con i seguenti termini:

uno contro tutti

#fundamentals

Dato un problema di classificazione con le classi N, soluzione costituita da N separate classificatori binari: un classificatore binario per ogni possibile risultato. Ad esempio, dato un modello che classifica gli esempi animale, vegetale o minerale, una soluzione unica contro tutti fornirebbe seguenti tre classificatori binari separati:

  • animale/non animale
  • vegetale/non vegetale
  • minerale/non minerale

online

#fundamentals

Sinonimo di Dynamic.

inferenza online

#fundamentals

Generazione di previsioni on demand. Ad esempio: supponiamo che un'app passi l'input a un modello ed emetta una richiesta per la previsione. Un sistema che utilizza l'inferenza online risponde alla richiesta eseguendo del modello (e restituendo la previsione all'app).

Confrontare con l'inferenza offline.

operazione (operazione)

#TensorFlow

In TensorFlow, qualsiasi procedura che crei, manipola o distrugge un Tensor. Per Ad esempio, la moltiplicazione matriciale è un'operazione che prende due tensori come e genera un Tensor come output.

Optax

Una libreria di elaborazione e ottimizzazione dei gradienti per JAX. Optax facilita la ricerca fornendo componenti di base che possono essere ricombinati in modi personalizzati per ottimizzare modelli parametrici in reti neurali profonde. Altri obiettivi includono:

  • Fornire implementazioni leggibili, ben collaudate ed efficienti dei e componenti fondamentali.
  • Migliorare la produttività consentendo di combinare ingredienti di basso livello in ottimizzatori personalizzati (o altri componenti di elaborazione del gradiente).
  • Accelerare l'adozione di nuove idee rendendole più facili per tutti a contribuire.

ottimizzatore

Un'implementazione specifica della discesa del gradiente dell'algoritmo. Gli ottimizzatori più diffusi includono:

  • AdaGrad, che indica la discesa ADAptive GRADient.
  • Adam, acronimo di ADAptive with Momentum,

bias di omogeneità fuori gruppo

#fairness

La tendenza a vedere i membri fuori dal gruppo come più simili rispetto ai membri del gruppo quando si confrontano atteggiamenti, valori, tratti della personalità e caratteristiche. In gruppo si riferisce alle persone con cui interagisci regolarmente. out-group si riferisce alle persone con cui non interagisci regolarmente. Se creare un set di dati chiedendo alle persone di fornire attributi out-group, questi attributi potrebbero avere meno sfumature e stereotipi rispetto agli attributi elencati dai partecipanti per le persone del gruppo.

Ad esempio, i lilliputi potrebbero descrivere le case di altri lilliputini. nei dettagli, citando piccole differenze negli stili architettonici, porte e dimensioni. Gli stessi lilliputi potrebbero semplicemente dichiarare che I Brobdingnagia vivono tutti in case identiche.

Il bias di omogeneità fuori gruppo è una forma di bias di attribuzione del gruppo.

Vedi anche bias in-group.

rilevamento outlier

Il processo di identificazione degli outlier in un set di addestramento.

Crea un contrasto con il rilevamento delle novità.

le anomalie

Valori lontani dalla maggior parte degli altri valori. Nel machine learning, che seguono sono outlier:

  • Dati di input i cui valori sono superiori a circa 3 deviazioni standard dalla media.
  • Ponderazioni con valori assoluti elevati.
  • Valori previsti relativamente lontani dai valori effettivi.

Ad esempio, supponiamo che widget-price sia una caratteristica di un determinato modello. Supponiamo che la media widget-price sia di 7 euro con una deviazione standard di 1 euro. Esempi con un valore widget-price di 12 euro o 2 euro verrebbe quindi considerato come outlier perché ciascuno di questi prezzi cinque deviazioni standard dalla media.

I valori anomali sono spesso causati da errori di battitura o altri errori di input. In altri casi, i valori anomali non sono errori; dopotutto, assegna un valore a cinque deviazioni standard sono rari ma difficilmente impossibili.

I valori anomali spesso causano problemi durante l'addestramento del modello. Taglio è un modo per gestire gli outlier.

valutazione out-of-bag (valutazione OOB)

#df

Un meccanismo per valutare la qualità di un foresta decisionale testando ogni albero decisionale rispetto alla esempi non utilizzati durante formazione per l'albero decisionale. Ad esempio, nel nel diagramma seguente, noterai che il sistema addestra ciascun albero decisionale su circa due terzi degli esempi e poi valuta in base restante un terzo degli esempi.

Una foresta decisionale composta da tre alberi decisionali.
          Un albero decisionale si addestra su due terzi degli esempi
          e poi utilizza un terzo rimanente per la valutazione OOB.
          Un secondo albero decisionale si addestra su due terzi diversi
          degli esempi rispetto alla struttura decisionale precedente
          utilizza un terzo diverso per la valutazione OOB rispetto
          precedente albero decisionale.

La valutazione immediata è una valutazione conservativa ed efficiente dal punto di vista approssimazione del meccanismo di convalida incrociata. Nella convalida incrociata viene addestrato un modello per ogni fase di convalida incrociata (ad esempio, 10 modelli vengono addestrati con una convalida incrociata di 10 volte). Con la valutazione OOB, viene addestrato un singolo modello. Poiché il bagging nasconde alcuni dati da ogni albero durante l'addestramento, per approssimare la convalida incrociata.

livello di output

#fundamentals

Il "finale" livello di una rete neurale. Il livello di output contiene la previsione.

L'illustrazione seguente mostra una piccola rete neurale profonda con un input due strati nascosti e uno di output:

Una rete neurale con uno strato di input, due strati nascosti e uno
          livello di output. Il livello di input è costituito da due caratteristiche. Il primo
          è composto da tre neuroni e il secondo strato nascosto
          è composto da due neuroni. Il livello di output è costituito da un singolo nodo.

overfitting

#fundamentals

Creazione di un modello che corrisponda addestrare i dati a un livello tale che il modello non riesce a fare previsioni corrette sui nuovi dati.

La regolarizzazione può ridurre l'overfitting. L'addestramento con un set di dati ampio e diversificato può anche ridurre l'overfitting.

sovracampionamento

Riutilizzo degli esempi di una classe di minoranza in un set di dati di tipo sbilanciato dalle classi per crea un set di addestramento più equilibrato.

Ad esempio, considera una classificazione binaria problema in cui il rapporto tra la classe di maggioranza e la della classe di minoranza è 5000:1. Se il set di dati contiene un milione di esempi, il set di dati contiene solo circa 200 esempi della minoranza, che potrebbero essere un numero troppo esiguo di esempi per un addestramento efficace. Per ovviare a questa mancanza, potrebbe sovracampionare (riutilizzare) quei 200 esempi più volte, ottenendo esempi sufficienti per un addestramento utile.

Devi fare attenzione all'overfitting eccessivo quando sovracampionamento.

Contrastare il sottocampionamento.

P

dati pacchettizzati

Un approccio per archiviare i dati in modo più efficiente.

I dati compressi vengono memorizzati utilizzando un formato compresso o in un altro modo per accedervi in modo più efficiente. I dati pacchettizzati riducono al minimo la quantità di memoria e di calcolo necessari per accedervi, il che porta a un addestramento più rapido e a una inferenza del modello più efficiente.

I dati pacchettizzati vengono spesso utilizzati con altre tecniche, come l'aumento dei dati e regolarizzazione, migliorando ulteriormente il rendimento modelli.

panda

#fundamentals

Un'API di analisi dei dati orientata a colonne basata su numpy. Molti framework di machine learning, tra cui TensorFlow, supportano le strutture dati Pandas come input. Consulta le documentazione di Pandas per maggiori dettagli.

parametro

#fundamentals

Le ponderazioni e i pregiudizi che un modello apprende durante per la formazione. Ad esempio, in una di regressione lineare, i parametri sono costituiti da il bias (b) e tutti i pesi (w1, w2, e così via) nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Al contrario, gli iperparametri sono i valori che tu (o un servizio di ottimizzazione degli iperparametri) fornisci al modello. Ad esempio, il tasso di apprendimento è un iperparametro.

ottimizzazione efficiente dei parametri

#language
#generativeAI

Un insieme di tecniche per mettere a punto un LLM modello linguistico preaddestrato (PLM) in modo più efficiente rispetto alla completa ottimizzazione. Efficienza dei parametri l'ottimizzazione in genere perfeziona molti meno parametri rispetto alla configurazione completa perfezionato, ma generalmente produce un modello linguistico di grandi dimensioni (LLM) che esegue nonché (o quasi) come un modello linguistico di grandi dimensioni (LLM) basato dei modelli.

Confronta e contrapporre l'ottimizzazione efficiente dei parametri con:

L'ottimizzazione efficiente dei parametri è anche nota come ottimizzazione efficiente dei parametri.

Server dei parametri (PS)

#TensorFlow

Un job che tiene traccia dei parametri di un modello in una un'impostazione distribuita.

aggiornamento dei parametri

L'operazione di regolazione dei parametri di un modello durante di addestramento, tipicamente entro una singola iterazione discesa del gradiente.

derivata parziale

derivata in cui tutte le variabili tranne una sono considerate costanti. Ad esempio, la derivata parziale di f(x, y) rispetto a x è la derivata di f considerata come una funzione di x da sola (ovvero, mantenendo y costante). La derivata parziale di f rispetto a x si concentra solo su come cambia x e ignora tutte le altre variabili dell'equazione.

bias di partecipazione

#fairness

Sinonimo di bias di mancata risposta. Vedi bias di selezione.

strategia di partizionamento

L'algoritmo in base al quale le variabili sono suddivise server dei parametri.

Pax

Un framework di programmazione progettato per l'addestramento su larga scala rete neurale modelli così grandi su più TPU chip dell'acceleratore sezioni o pod.

Pax è basato su Flax, che è basato su JAX.

Diagramma che indica la posizione di Pax nello stack software.
          Pax è costruito su JAX. Pax è composta da tre
          diversi strati. Il livello inferiore contiene TensorStore e Flax.
          Il livello centrale contiene Optax e Flaxformer. Le prime
          contiene la Libreria modelli Praxis. Il violino è costruito
          sopra Pax.

Perceptron

Un sistema (hardware o software) che accetta uno o più valori di input, esegue una funzione sulla somma ponderata degli input e calcola come valore di output. Nel machine learning, la funzione solitamente non è lineare, ad esempio ReLU, sigmoid o tanh. Ad esempio, il seguente perceptrone si basa sulla funzione sigmoidea per elaborare tre valori di input:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Nell'illustrazione seguente, il perceptrone prende tre input, ognuno dei quali stesso è modificato da un peso prima di entrare nel perceptron:

Un perceptrone che accetta 3 input, ognuno moltiplicato per
          i pesi. Il perceptron restituisce un singolo valore.

I perceptroni sono i neuroni reti neurali.

prestazioni

Termine sovraccarico con i seguenti significati:

  • Significato standard nel campo del software engineering. Nello specifico: Velocità (o in modo efficiente) questo software viene eseguito?
  • Il significato nel machine learning. In questo caso, il rendimento seguente domanda: Quanto è corretto questo modello? Vale a dire che come sono buone le previsioni del modello?

importanza delle variabili di permutazione

#df

Un tipo di importanza variabile che valuta l'aumento dell'errore di previsione di un modello dopo la modifica i valori delle caratteristiche. L'importanza delle variabili di permutazione è indipendente dal modello o una metrica di valutazione.

perplessità

Una misura dell'efficacia di un modello nello svolgimento delle sue attività. Ad esempio, supponi che l'attività sia leggere le prime lettere di una parola un utente sta digitando sulla tastiera di un telefono e offrire un elenco di possibili parole di completamento. La complessità, P, per questa attività è pari a circa il numero di ipotesi da presentare in modo che l'elenco contenga parola che l'utente sta cercando di digitare.

La perplessità è correlata all'entropia incrociata come segue:

$$P= 2^{-\text{cross entropy}}$$

pipeline

L'infrastruttura che circonda un algoritmo di machine learning. Una pipeline include la raccolta dei dati, l'inserimento dei dati in file di dati di addestramento, addestrare uno o più modelli ed esportare i modelli in produzione.

pipeline

#language

Una forma di parallelismo del modello in cui l'input del modello l'elaborazione è divisa in fasi consecutive e ogni fase viene eseguita su un altro dispositivo. Mentre una fase elabora un batch, la precedente possono lavorare sul batch successivo.

Vedi anche addestramento in fasi.

pjit

Una funzione JAX che divide il codice in modo da essere eseguito in più chip dell'acceleratore. L'utente passa una funzione a pjit, che restituisce una funzione che ha la semantica equivalente ma che è compilata in un calcolo XLA eseguito su più dispositivi (come GPU o core TPU).

pjit consente agli utenti di partizionare i calcoli senza riscriverli utilizzando il partizionatore SPMD.

A partire da marzo 2023, pjit è stata unita a jit. Consulta Array distribuiti e caricamento in contemporanea per ulteriori dettagli.

PLM

#language
#generativeAI

Abbreviazione di modello linguistico preaddestrato.

mappa p

Una funzione JAX che esegue copie di una funzione di input su più dispositivi hardware sottostanti. (CPU, GPU o TPU), con valori di input diversi. pmap si basa su SPMD.

policy

#rl

Nell'apprendimento per rinforzo, una mappatura probabilistica di un agente da stati ad azioni.

di pooling

#image

Ridurre una o più matrici create da un modello precedente livello convoluzionale a una matrice più piccola. Il pooling di solito comporta l'uso del valore massimo o medio in tutta l'area in pool. Ad esempio, supponiamo di avere seguente matrice 3x3:

La matrice 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Un'operazione di pooling, proprio come un'operazione convoluzionale, divide che la matrice in sezioni e quindi far scorrere l'operazione convoluzionale passi. Ad esempio, supponiamo che l'operazione di pooling divide la matrice convoluzionale in sezioni 2x2 con passo 1x1. Come illustrato nel diagramma seguente, vengono eseguite quattro operazioni di pooling. Immagina che ogni operazione di pooling scelga il valore massimo quattro:

La matrice di input è 3x3 con i valori: [[5,3,1], [8,2,5], [9,4,3]].
          La sottomatrice 2x2 in alto a sinistra della matrice di input è [[5,3], [8,2]], quindi
          l&#39;operazione di pooling in alto a sinistra restituisce il valore 8 (che è il valore
          un massimo di 5, 3, 8 e 2). La sottomatrice 2x2 in alto a destra dell&#39;input
          è [[3,1], [2,5]], quindi l’operazione di pooling in alto a destra produce
          il valore 5. La sottomatrice 2x2 in basso a sinistra della matrice di input è
          [[8,2], [9,4]], quindi l&#39;operazione di pooling in basso a sinistra restituisce il valore
          9, La sottomatrice 2x2 in basso a destra della matrice di input è
          [[2,5], [4,3]], quindi l&#39;operazione di pooling in basso a destra restituisce il valore
          5. Riassumendo, l&#39;operazione di pooling restituisce la matrice 2x2
          [[8,5], [9,5]].

Il pooling consente di applicare invarianza traslazionale nella matrice di input.

Il pooling per le applicazioni di visione artificiale è noto in modo più formale come pooling spaziale. Le applicazioni di serie temporali di solito fanno riferimento al pooling con il termine pooling temporale. Il pooling viene spesso chiamato sottocampionamento o downsampling in modo meno formale.

codifica posizionale

#language

Una tecnica per aggiungere informazioni sulla posizione di un token in una sequenza per dell'incorporamento del token. I modelli Transformer utilizzano valori posizionali per comprendere meglio la relazione tra le diverse parti sequenza.

Una comune implementazione della codifica posizionale utilizza una funzione sinusoidale. (Nello specifico, la frequenza e l'ampiezza della funzione sinusoidale sono determinato dalla posizione del token nella sequenza). Questa tecnica consente a un modello Transformer di imparare a essere prese in considerazione sequenza in base alla loro posizione.

classe positiva

#fundamentals

Il corso per cui stai eseguendo il test.

Ad esempio, la classe positiva in un modello di cancro potrebbe essere "tumora". La classe positiva in un classificatore di email potrebbe essere "spam".

Contrasta con classe negativa.

post-elaborazione

#fairness
#fundamentals

Modifica dell'output di un modello dopo l'esecuzione del modello. La post-elaborazione può essere utilizzata per applicare vincoli di equità senza modificare i modelli stessi.

Ad esempio, si potrebbe applicare la post-elaborazione a un classificatore binario impostando una soglia di classificazione che viene mantenuta la uguaglianza di opportunità per alcuni attributi, controllando che il tasso di veri positivi è uguale per tutti i valori dell'attributo.

AUC PR (area sotto la curva PR)

Area sotto l'interpolazione curva di precisione-richiamo, ottenuta tracciando (richiamo, precisione) per i diversi valori di soglia di classificazione. In base a come viene calcolata, l'AUC PR può essere equivalente precisione media del modello.

Praxis

Una libreria ML di base ad alte prestazioni di Pax. Prassi spesso è chiamata "Libreria di livelli".

Praxis contiene non solo le definizioni della classe Layer, ma la maggior parte anche i suoi componenti di supporto, tra cui:

Praxis fornisce le definizioni della classe Modello.

precisione

Una metrica per i modelli di classificazione che risponde la seguente domanda:

Quando il modello ha previsto la classe positiva, qual è la percentuale di previsioni corrette?

Ecco la formula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

dove:

  • vero positivo indica che il modello ha previsto correttamente la classe positiva.
  • Un falso positivo indica che il modello ha previsto erroneamente la classe positiva.

Ad esempio, supponiamo che un modello abbia fatto 200 previsioni positive. Di queste 200 previsioni positive:

  • 150 erano veri positivi.
  • 50 erano falsi positivi.

In questo caso:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Contrasta accuratezza e richiamo.

Consulta la sezione Classificazione: accuratezza, richiamo, precisione e relativi metriche per ulteriori informazioni.

curva di precisione-richiamo

Una curva tra precisione e richiamo a valori diversi soglie di classificazione.

previsione

#fundamentals

L'output di un modello. Ad esempio:

  • La previsione di un modello di classificazione binaria è o la classe negativa.
  • La previsione di un modello di classificazione multiclasse è una classe.
  • La previsione di un modello di regressione lineare è un numero.

bias di previsione

Un valore che indica quanto dista la media di previsioni è la media delle etichette nel set di dati.

Da non confondere con il termine di bias nei modelli di machine learning o con pregiudizi etici.

ML predittivo

Qualsiasi sistema di machine learning standard ("classico").

Il termine ML predittivo non ha una definizione formale. Piuttosto, il termine distingue una categoria di sistemi di ML non in base a dell'IA generativa.

parità predittiva

#fairness

Una metrica di equità che verifica se, per un determinato classificatore, i tassi di precisione sono equivalenti per i sottogruppi presi in considerazione.

Ad esempio, un modello che prevede l'accettazione del college soddisfa le aspettative parità predittiva per la nazionalità se il tasso di precisione è lo stesso per lilliputi e brobdingnagia.

La parità predittiva viene a volte chiamata anche parità di frequenza predittiva.

Consulta la sezione "Definizioni di equità" Spiegazione" (sezione 3.2.1) per una discussione più dettagliata sulla parità predittiva.

parità di tariffa predittiva

#fairness

Un altro nome per parità predittiva.

pre-elaborazione

#fairness
Elaborazione dei dati prima che vengano utilizzati per addestrare un modello. La pre-elaborazione potrebbe essere semplice come rimuovere parole da un corpus di testo in inglese che non sono presenti nel dizionario inglese o potrebbero essere complesse come la riespressione i punti dati in modo da eliminare il maggior numero possibile di attributi correlati con attributi sensibili possibili. La pre-elaborazione può aiutare a soddisfare i vincoli di equità.

modello preaddestrato

#language
#image
#generativeAI

Modelli o componenti del modello (come vettore di incorporamento) che sono stati già addestrati. A volte, inserirai i vettori di incorporamento preaddestrati in un rete neurale. Altre volte, il modello addestrerà gli stessi vettori di incorporamento, invece di affidarsi agli incorporamenti preaddestrati.

Il termine modello linguistico preaddestrato si riferisce a una Il modello linguistico di grandi dimensioni (LLM) che ha superato preaddestramento.

preaddestramento

#language
#image
#generativeAI

Addestramento iniziale di un modello su un set di dati di grandi dimensioni. Alcuni modelli preaddestrati sono goffi giganti e solitamente devono essere perfezionati con un addestramento aggiuntivo. Ad esempio, gli esperti di ML potrebbero preaddestrare un modello linguistico di grandi dimensioni (LLM) su un ampio set di dati di testo, come tutte le pagine in inglese di Wikipedia. Dopo l'addestramento, il modello risultante potrebbe essere ulteriormente perfezionato tramite una delle seguenti tecniche:

credenza precedente

Cosa pensi dei dati prima di iniziare l'addestramento. Ad esempio, la regolarizzazione L2 si basa su una precedente convinzione che i ponderazioni dovrebbero essere normalmente distribuiti attorno a zero.

modello di regressione probabilistica

Un modello di regressione che utilizza non solo ponderazioni per ogni caratteristica, ma anche il parametro incertezza di queste ponderazioni. Un modello di regressione probabilistica genera una previsione e l'incertezza di questa previsione. Ad esempio, un di regressione probabilistica potrebbe produrre una previsione di 325 con un deviazione standard di 12. Per ulteriori informazioni sulla regressione probabilistica per i tuoi modelli, consulta Colab su tensorflow.org.

funzione di densità di probabilità

Una funzione che identifica la frequenza dei campioni di dati che hanno esattamente un un valore specifico. Quando i valori di un set di dati sono in virgola mobile continui numeri, raramente si verificano corrispondenze esatte. Tuttavia, l'integrazione di una probabilità funzione di densità dal valore x al valore y restituisce la frequenza prevista di campioni di dati compresi tra x e y.

Ad esempio, considera una distribuzione normale avente una media di 200 e una deviazione standard di 30. Per determinare la frequenza prevista dei campioni di dati rientrando nell'intervallo da 211,4 a 218,7, possiamo integrare funzione di densità per una distribuzione normale da 211,4 a 218,7.

richiesta

#language
#generativeAI

Qualsiasi testo inserito come input in un modello linguistico di grandi dimensioni (LLM) condizionare il modello affinché si comporti in un certo modo. I prompt possono essere brevi a frase o arbitrariamente lunga (ad esempio, l'intero testo di un romanzo). Prompt rientrano in più categorie, incluse quelle indicate nella seguente tabella:

Categoria prompt Esempio Note
Domanda A che velocità può volare un piccione?
Istruzione Scrivi una poesia divertente sull'arbitraggio. Un prompt che chiede al modello linguistico di grandi dimensioni (LLM) di fare qualcosa.
Esempio Traduci il codice Markdown in HTML. Ad esempio:
Markdown: * voce elenco
HTML: <ul> <li>elemento dell'elenco</li> &lt;/ul&gt;
La prima frase di questo prompt di esempio è un'istruzione. Il resto del prompt è l'esempio.
Ruolo Spiegare perché la discesa del gradiente viene utilizzata nell'addestramento del machine learning per un dottorato in fisica. La prima parte della frase è un'istruzione; la frase "a un dottorato di ricerca in fisica" è la parte relativa al ruolo.
Input parziale per il completamento del modello Il Primo Ministro del Regno Unito vive a Un prompt di input parziale può terminare bruscamente (come fa questo esempio) o terminare con un trattino basso.

Un modello di IA generativa può rispondere a un prompt con testo, codice, immagini, incorporamenti, video... praticamente qualsiasi cosa.

apprendimento basato su prompt

#language
#generativeAI

Una capacità di determinati modelli che consente loro di adattarsi il loro comportamento in risposta a un input di testo arbitrario (messaggi). In un tipico paradigma di apprendimento basato su prompt, Il modello linguistico di grandi dimensioni (LLM) risponde a un prompt generando testo. Ad esempio, supponiamo che un utente inserisca la seguente richiesta:

Riassumi la terza legge della moto di Newton.

Un modello in grado di apprendere basato su prompt non è addestrato specificamente per rispondere il prompt precedente. Piuttosto, il modello "sa" molte curiosità sulla fisica, molto sulle regole generali del linguaggio e molto su ciò che costituisce risposte utili. Queste informazioni sono sufficienti per offrire (si spera) utili risposta. Feedback umano aggiuntivo ("La risposta era troppo complicata" oppure "Cos'è una reazione?") consente ad alcuni sistemi di apprendimento basato su prompt di migliorare l'utilità delle risposte.

progettazione dei prompt

#language
#generativeAI

Sinonimo di prompt engineering.

ingegneria del prompt

#language
#generativeAI

L'arte di creare prompt che suscitano le risposte desiderate da un modello linguistico di grandi dimensioni. Gli esseri umani eseguono il prompt con il feature engineering. Scrivere prompt ben strutturati è una parte essenziale per garantire risposte utili da un modello linguistico di grandi dimensioni. La progettazione del prompt dipende molti fattori, tra cui:

Consulta: Introduzione alla progettazione dei prompt per ulteriori dettagli su come scrivere prompt utili.

progettazione dei prompt è un sinonimo di prompt engineering.

ottimizzazione dei prompt

#language
#generativeAI

Un meccanismo di ottimizzazione efficiente dei parametri che apprende un "prefisso" che il sistema antepone al prompt effettiva.

Una variante dell'ottimizzazione dei prompt, a volte chiamata ottimizzazione del prefisso, è anteponi il prefisso a ogni livello. Al contrario, la maggior parte dell'ottimizzazione dei prompt aggiunge un prefisso al livello di input.

etichette proxy

#fundamentals

Dati utilizzati per approssimare le etichette non direttamente disponibili in un set di dati.

Ad esempio, supponiamo che tu debba addestrare un modello per prevedere livello di stress. Il set di dati contiene molte caratteristiche predittive, non contiene un'etichetta denominata livello di stress. Per forza, scegli "incidenti sul posto di lavoro" come etichetta proxy livello di stress. Dopotutto, i dipendenti sotto stress ad alto stress entrano in più incidenti che rilassare i dipendenti. O no? Forse incidenti sul posto di lavoro aumentano e diminuiscono per vari motivi.

Come secondo esempio, supponi di voler usare sta piove? come etichetta booleana. per il tuo set di dati, ma non contiene dati sulle precipitazioni. Se fotografie sono disponibili, potresti creare immagini di persone che trasportano ombrelli come etichetta sostitutiva del messaggio sta piovendo? È quello un'etichetta proxy valida? È possibile, ma in alcune culture le persone ha più probabilità di portare ombrelli per proteggersi dal sole che dalla pioggia.

Le etichette del proxy sono spesso imperfette. Se possibile, scegli le etichette effettive etichette proxy. Detto questo, quando non è presente un'etichetta, scegli il proxy etichetta con molta attenzione, scegliendo l'etichetta proxy meno orribile candidata.

proxy (attributi sensibili)

#fairness
Un attributo utilizzato come sostituzione di un attributo sensibile. Ad esempio, un il codice postale di un individuo potrebbe essere utilizzato come sostituto del suo reddito, gruppo etnico.

funzione pura

Una funzione i cui output si basano solo sugli input e che non ha lato e gli effetti sonori. Nello specifico, una funzione pura non utilizza né modifica alcuno stato globale, come il contenuto di un file o il valore di una variabile esterna alla funzione.

Le funzioni pure possono essere usate per creare codice a protezione dei thread, il che è utile durante lo sharding del codice del modello su più chip dell'acceleratore.

I metodi di trasformazione delle funzioni di JAX richiedono che le funzioni di input siano funzioni pure.

Q

Funzione Q

#rl

Nel apprendimento per rinforzo, la funzione che prevede il ritorno atteso dall'ottenimento di un azione in un state e seguire una determinata norma.

La funzione Q è nota anche come funzione del valore di azione dello stato.

Q-learning

#rl

Nel apprendimento per rinforzo, un algoritmo che consente a un agente per apprendere la funzione Q ottimale di una Il processo decisionale di Markov applicando il Equazione di Bellman. I modelli di processo decisionale di Markov un ambiente.

quantile

Ogni bucket in bucketing quantile.

bucketing dei quantili

Distribuzione dei valori di una caratteristica in bucket in modo che ogni contiene lo stesso numero di esempi. Ad esempio: Nella figura seguente, 44 punti sono suddivisi in 4 secchi, ognuno dei quali contiene 11 punti. Affinché ciascun bucket nella figura contenga lo stesso numero di punti, alcuni bucket coprono una larghezza diversa di valori x.

44 punti dati divisi in 4 bucket di 11 punti ciascuno.
          Sebbene ogni bucket contenga lo stesso numero di punti dati,
          alcuni bucket contengono una gamma più ampia di valori delle caratteristiche rispetto ad altri
          bucket.

quantizzazione

Termine sovraccaricato che potrebbe essere utilizzato in uno dei seguenti modi:

  • Implementazione del bucketing quantile su una determinata caratteristica.
  • Trasformare i dati in zeri e uno per archiviare, addestrare e inferenza. Poiché i dati booleani sono più resistenti al rumore e agli errori rispetto altri formati, la quantizzazione può migliorare la correttezza del modello. Le tecniche di quantizzazione includono arrotondamento, troncamento e binning.
  • Ridurre il numero di bit utilizzati per archiviare parametri. Ad esempio, supponiamo che i parametri di un modello memorizzati come numeri in virgola mobile a 32 bit. La quantizzazione li converte da 32 bit a 4, 8 o 16 bit. La quantizzazione riduce seguenti:

    • Utilizzo di computing, memoria, disco e rete
    • Tempo per dedurre una predicazione
    • Consumo energetico

    Tuttavia, la quantizzazione a volte riduce la correttezza del metodo per le previsioni.

coda

#TensorFlow

Un'operazione TensorFlow che implementa i dati di una coda alla struttura del centro di costo. Opzione generalmente utilizzata in I/O.

R

RAG

#fundamentals

Abbreviazione di generazione potenziata dal recupero.

foresta casuale

#df

Un insieme di alberi decisionali a in cui ogni albero decisionale viene addestrato con uno specifico rumore casuale, come bagging.

Le foreste casuali sono un tipo di foresta decisionale.

criterio casuale

#rl

Nel apprendimento per rinforzo, una norma che sceglie azione a caso.

classifica

Un tipo di apprendimento supervisionato la cui scopo è ordinare un elenco di articoli.

ranking (ordinalità)

La posizione ordinale di una classe in un problema di machine learning che classifica dalla più alta alla più bassa. Ad esempio, il ranking comportamentale di sistema può classificare le ricompense di un cane da più alte (una bistecca) a il più basso (cavolo appassito).

ranking (Tensor)

#TensorFlow

Il numero di dimensioni in un Tensor. Ad esempio: uno scalare ha rango 0, un vettore ha rango 1 e una matrice ha rango 2.

Da non confondere con il ranking (ordinalità).

classificatore

#fundamentals

Una persona che fornisce le etichette per gli esempi. "Annotatore" è un altro nome per recensore.

richiamo

Una metrica per i modelli di classificazione che risponde la seguente domanda:

Quando i dati di fatto erano i classe positiva, quale percentuale di previsioni ha restituito il modello identifica correttamente come classe positiva?

Ecco la formula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

dove:

  • vero positivo indica che il modello ha previsto correttamente la classe positiva.
  • falso negativo indica che il modello ha previsto erroneamente il classe esclusa.

Ad esempio, supponiamo che il tuo modello abbia fatto 200 previsioni su esempi per i quali i dati di fatto erano la classe positiva. Di queste 200 previsioni:

  • 180 erano veri positivi.
  • 20 erano falsi negativi.

In questo caso:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Consulta la sezione Classificazione: accuratezza, richiamo, precisione e relativi metriche per ulteriori informazioni.

sistema di suggerimenti

#recsystems

Un sistema che seleziona per ogni utente un gruppo relativamente piccolo di elementi di un grande corpus. Ad esempio, un sistema di consigli per i video potrebbe consigliare due video da un corpus di 100.000 video, tra cui Casablanca e The Philadelphia Story per un utente, Wonder Woman e Black Panther per un altro. Un sistema di consigli per i video basare i suoi consigli su fattori quali:

  • Film che utenti simili hanno valutato o guardato.
  • Genere, registi, attori, gruppi demografici di destinazione...

Unità lineare rettificata (ReLU)

#fundamentals

Una funzione di attivazione con il seguente comportamento:

  • Se l'input è negativo o pari a zero, l'output è 0.
  • Se l'input è positivo, l'output è uguale all'input.

Ad esempio:

  • Se l'input è -3, l'output è 0.
  • Se l'ingresso è +3, l'output è 3.0.

Ecco un grafico di ReLU:

Un grafico cartesiano di due linee. La prima riga ha una costante
          valore y pari a 0, lungo l&#39;asse x da -infinito,0 a 0,-0.
          La seconda riga inizia da 0,0. Questa linea ha una pendenza di +1, quindi
          va da 0,0 a +infinito,+infinito.

ReLU è una funzione di attivazione molto diffusa. Nonostante il suo semplice comportamento, La ReLU consente comunque a una rete neurale di apprendere contenuti nonlinear relazioni tra le caratteristiche e l'etichetta.

rete neurale ricorrente

#seq

Una rete neurale che esegue intenzionalmente più reti in cui alcune parti di ogni corsa vengono inserite nell'esecuzione successiva. In particolare, gli strati nascosti dell'esecuzione precedente forniscono parte allo stesso strato nascosto nella prossima esecuzione. Reti neurali ricorrenti sono particolarmente utili per valutare le sequenze, in modo che gli strati nascosti può apprendere da esecuzioni precedenti della rete neurale sulle parti precedenti la sequenza.

Ad esempio, la figura seguente mostra una rete neurale ricorrente che viene eseguito quattro volte. Nota che i valori appresi negli strati nascosti la prima esecuzione diventa parte dell'input per gli stessi strati nascosti la seconda esecuzione. Analogamente, i valori appresi nello strato nascosto la seconda esecuzione diventa parte dell'input per lo stesso strato nascosto nella terza esecuzione. In questo modo, la rete neurale ricorrente si addestra gradualmente prevede il significato dell'intera sequenza anziché solo il significato di singole parole.

Un RNN che viene eseguito quattro volte per elaborare quattro parole di input.

modello di regressione

#fundamentals

Informale, un modello che genera una previsione numerica. (Al contrario, un modello di classificazione genera una classe prediction.) Ad esempio, di seguito sono riportati tutti i modelli di regressione:

  • Un modello che prevede il valore di una certa casa, come 423.000 euro.
  • Un modello che prevede la aspettativa di vita di un determinato albero, ad esempio 23,2 anni.
  • Un modello che prevede la quantità di pioggia che cadrà in una determinata città nelle successive sei ore, ad esempio 0,48 pollici.

Due tipi comuni di modelli di regressione sono:

  • Regressione lineare, che trova la retta migliore Adatta i valori delle etichette alle caratteristiche.
  • Regressione logistica, che genera una probabilità compresa tra 0,0 e 1,0 che un sistema di solito appartenga a una classe la previsione.

Non tutti i modelli che producono previsioni numeriche sono modelli di regressione. In alcuni casi, una previsione numerica è solo un modello di classificazione che ha nomi di classi numerici. Ad esempio, un modello che prevede un codice postale numerico è un modello di classificazione, non un modello di regressione.

regolarizzazione

#fundamentals

Qualsiasi meccanismo che riduca l'overfitting. I tipi di regolarizzazione più comuni includono:

La regolarizzazione può anche essere definita come la penalizzazione sulla complessità di un modello.

tasso di regolarizzazione

#fundamentals

Un numero che specifica l'importanza relativa di regolarizzazione durante l'addestramento. Aumentando la percentuale di regolarizzazione riduce l'overfitting, ma può riducono la capacità predittiva del modello. Al contrario, la riduzione o l'omissione il tasso di regolarizzazione aumenta l'overfitting.

apprendimento per rinforzo (RL)

#rl

Una famiglia di algoritmi che apprendono un criterio ottimale, il cui obiettivo è massimizzare il ritorno quando si interagisce con un ambiente. Ad esempio, la ricompensa definitiva della maggior parte dei giochi è la vittoria. I sistemi di apprendimento per rinforzo possono padroneggiare le attività complesse di giochi valutando sequenze di mosse di gioco precedenti che alla fine ha portato a vittorie e sequenze che alla fine hanno portato a sconfitte.

Apprendimento per rinforzo con feedback umano (RLHF)

#generativeAI
#rl

Utilizzare il feedback di revisori umani per migliorare la qualità delle risposte di un modello. Ad esempio, un meccanismo RLHF può chiedere agli utenti di valutare la qualità del modello risposta con un'emoji 👍 o 👎. Il sistema può quindi modificare le risposte future in base a questo feedback.

ReLU

#fundamentals

Abbreviazione di Rectified Linear Unit.

buffer di ripetizione

#rl

Negli algoritmi di tipo DQN, la memoria utilizzata dall'agente per archiviare le transizioni di stato riproduci l'esperienza.

Cloud SQL

Una copia del set di addestramento o del modello, in genere su un'altra macchina. Ad esempio, un sistema potrebbe utilizzare il seguente codice strategia per l'implementazione del parallelismo dei dati:

  1. Posiziona le repliche di un modello esistente su più macchine.
  2. Invia sottoinsiemi diversi del set di addestramento a ogni replica.
  3. Aggrega gli aggiornamenti dei parametri.

bias nei report

#fairness

Il fatto che la frequenza con cui le persone scrivono di azioni, i risultati o le proprietà non rispecchiano il loro mondo reale frequenze o il grado di caratteristica di una proprietà di una classe di individui. I bias nei report possono influenzare la composizione una quantità di dati da cui i sistemi di machine learning apprendono.

Ad esempio, nei libri, la parola risata è più prevalente di respirato. Un modello di machine learning che stima la frequenza relativa di ridere e respirare dalla raccolta di un libro potrebbe determinare che ridere è più comune che respirare.

vettoriale prima che arrivassero

Il processo di mappatura dei dati a funzionalità utili.

riassegnazione

#recsystems

La fase finale di un sistema di consigli durante i quali gli elementi con un punteggio possono essere rivalutati in base ad altri (di solito, non ML). Il nuovo ranking valuta l'elenco di articoli generate dalla fase di punteggio, con azioni quali:

  • Eliminando gli articoli che l'utente ha già acquistato.
  • Miglioramento del punteggio degli articoli più recenti.

RAG (Retrieval Augmented Generation)

#fundamentals

Una tecnica per migliorare la qualità Output del modello linguistico di grandi dimensioni (LLM) basandosi su fonti di conoscenza recuperate dopo l'addestramento del modello. RAG migliora l'accuratezza delle risposte LLM fornendo all'LLM addestrato accesso a informazioni recuperate da knowledge base o documenti attendibili.

Le motivazioni comuni per l'utilizzo della generazione aumentata con il recupero includono:

  • Aumentare l'accuratezza oggettiva delle risposte generate da un modello.
  • Concedere al modello l'accesso alle conoscenze su cui non è stato addestrato.
  • Modifica delle conoscenze utilizzate dal modello.
  • Attivazione del modello per citare le fonti.

Ad esempio, supponiamo che un'app di chimica utilizzi PaLM API per generare riepiloghi correlate alle query degli utenti. Quando il backend dell'app riceve una query, il backend:

  1. Consente di cercare ("recuperare") dati pertinenti alla query dell'utente.
  2. Aggiunge ("augment") i dati chimici pertinenti alla query dell'utente.
  3. Indica all'LLM di creare un riepilogo in base ai dati aggiunti.

invio

#rl

Nell'apprendimento per rinforzo, con una determinata norma e un certo stato, restituisce la somma di tutti i premi ottenuti dall'agente che si aspetta di ricevere quando segue le norme dal state alla fine della puntata. L'agente account per la natura ritardata dei premi attesi grazie agli sconti sui premi in base alle transizioni di stato necessarie per ottenere il premio.

Pertanto, se il fattore di sconto è \(\gamma\), e \(r_0, \ldots, r_{N}\) indica le ricompense fino alla fine della puntata, poi il calcolo dei resi è il seguente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

premio

#rl

Nell'apprendimento per rinforzo, il risultato numerico dell'applicazione action in uno stato, come definito da l'ambiente.

regolarizzazione della cresta

Sinonimo di regolarizzazione L2. Il termine La regolarizzazione della cresta è utilizzata più spesso nella statistica pura contesti, mentre la regolarizzazione L2 è utilizzata più spesso nel machine learning.

RNN

#seq

Abbreviazione di recurrent Neural Networks.

Curva ROC (caratteristica operativa del ricevitore)

#fundamentals

Grafico che mostra il tasso di veri positivi rispetto a tasso di falsi positivi per diverse soglie di classificazione in binario per la classificazione.

La forma di una curva ROC suggerisce la capacità di un modello di classificazione binaria per separare le classi positive da quelle negative. Supponiamo, ad esempio, che un modello di classificazione binaria separa perfettamente tutti classi di tutte le classi positive:

Una linea dei numeri con 8 esempi positivi a destra e
          7 esempi negativi a sinistra.

La curva ROC per il modello precedente ha il seguente aspetto:

Una curva ROC. L&#39;asse x indica la percentuale di falsi positivi e l&#39;asse y
          è la percentuale di veri positivi. La curva ha la forma a L invertita. La curva
          inizia a (0.0,0.0) e arriva direttamente a (0.0,1.0). Quindi la curva
          va da (0,0,1,0) a (1,0,1,0).

Al contrario, l'illustrazione seguente mostra un grafico della regressione logistica non elaborata. per un modello pessimo che non sia in grado di separare le classi negative classi positive:

Una linea dei numeri con esempi positivi e classi negative
          completamente mescolati.

La curva ROC per questo modello ha il seguente aspetto:

Una curva ROC, che in realtà è una linea retta da (0,0,0,0)
          a (1,0,1,0).

Nel mondo reale, la maggior parte dei modelli di classificazione binaria classi positive e negative in una certa misura, ma di solito non perfettamente. Quindi, una tipica curva ROC ricade a metà tra i due estremi:

Una curva ROC. L&#39;asse x indica la percentuale di falsi positivi e l&#39;asse y
          è la percentuale di veri positivi. La curva ROC approssima un arco instabile
          attraversando i punti della bussola da ovest a nord.

Il punto su una curva ROC più vicina a (0,0,1,0) identifica in teoria soglia di classificazione ideale. Tuttavia, molti altri problemi del mondo reale influenzare la scelta della soglia di classificazione ideale. Ad esempio: forse i falsi negativi causano molto più sofferenza dei falsi positivi.

Una metrica numerica chiamata AUC riassume la curva ROC in un singolo valore con virgola mobile.

prompt di ruolo

#language
#generativeAI

Una parte facoltativa di un prompt che identifica un pubblico di destinazione per la risposta di un modello di IA generativa. Senza un ruolo , un modello linguistico di grandi dimensioni (LLM) fornisce una risposta che può o non può essere utile per la persona che pone le domande. Con un prompt di ruolo, un modello modello può rispondere in modo più appropriato e utile per un a un pubblico di destinazione specifico. Ad esempio, la parte del prompt del ruolo I prompt sono in grassetto:

  • Riassumi questo articolo per un dottorato di ricerca in economia.
  • Descrivi come funzionano le maree per un bambino di dieci anni.
  • Spiegare la crisi finanziaria del 2008. Parla come a un bambino piccolo, o un golden retriever.

root

#df

Il nodo iniziale (il primo condition) in un albero decisionale. Per convenzione, i diagrammi mettono la radice nella parte superiore dell'albero decisionale. Ad esempio:

Un albero decisionale con due condizioni e tre foglie. La
          la condizione iniziale (x > 2) è la radice.

directory root

#TensorFlow

La directory specificata per l'hosting delle sottodirectory di TensorFlow checkpoint ed eventi di più modelli.

Errore quadratico medio (RMSE)

#fundamentals

La radice quadrata dell'errore quadratico medio.

invarianza rotazionale

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di a classificare le immagini anche quando cambia l'orientamento. Ad esempio: l'algoritmo può comunque identificare una racchetta da tennis sia rivolta verso l'alto, di lato o verso il basso. Nota che l'invarianza rotazionale non è sempre desiderabile; Ad esempio, un 9 capovolto non deve essere classificato come 9.

Vedi anche invarianza traslazionale e invarianza delle dimensioni.

R al quadrato

Una metrica di regressione che indica la variazione in un L'etichetta è dovuta a una singola funzionalità o a un insieme di caratteristiche. R al quadrato è un valore compreso tra 0 e 1, che puoi interpretare come segue:

  • Un R al quadrato pari a 0 indica che nessuna variazione di un'etichetta è dovuta alla un insieme di caratteristiche.
  • Un R al quadrato pari a 1 indica che tutte le variazioni di un'etichetta sono dovute alla un insieme di caratteristiche.
  • Una R al quadrato compreso tra 0 e 1 indica in che misura la variazione può essere prevista da una particolare caratteristica o dall'insieme di caratteristiche. Ad esempio, un R al quadrato di 0,10 significa che il 10% della varianza nell'etichetta è dovuto all'insieme di caratteristiche, un R al quadrato di 0,20 significa che Il 20% è dovuto all'insieme di caratteristiche e così via.

R al quadrato è il quadrato del Correlazione Pearson coefficiente tra i valori previsti da un modello e i dati empirici reali.

S

bias di campionamento

#fairness

Vedi bias di selezione.

campionamento con sostituzione

#df

Un metodo per scegliere elementi da un insieme di elementi candidati in cui lo stesso l'elemento può essere selezionato più volte. La frase "con sostituzione" significa che dopo ogni selezione l'elemento selezionato venga restituito di candidati. Il metodo inverso, campionamento senza sostituzione, significa che un elemento candidato può essere selezionato una sola volta.

Ad esempio, considera il seguente insieme di frutta:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supponiamo che il sistema scelga in modo casuale fig come primo elemento. Se si utilizza il campionamento con sostituzione, il sistema seleziona secondo elemento della serie seguente:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sì, è lo stesso set di prima, quindi il sistema potrebbe scegli di nuovo fig.

Se si utilizza il campionamento senza sostituzione, una volta scelto, un campione non può scelto di nuovo. Ad esempio, se il sistema sceglie in modo casuale fig come primo campione, fig non può più essere selezionato. Pertanto, il sistema sceglie il secondo campione dal seguente set (ridotto):

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Formato consigliato per salvare e recuperare i modelli TensorFlow. SavedModel è un formato di serializzazione recuperabile e indipendente dal linguaggio, che consente sistemi e strumenti di livello superiore per produrre, utilizzare e trasformare TensorFlow di grandi dimensioni.

Consulta il capitolo Salvataggio e ripristino nella Guida per i programmatori TensorFlow per i dettagli completi.

Economico

#TensorFlow

Un oggetto TensorFlow responsabile del salvataggio dei checkpoint del modello.

scalare

Un singolo numero o una singola stringa che può essere rappresentata come un tensore di ranking 0. Ad esempio, righe di codice creano ognuna uno scalare in TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

scalabilità

Qualsiasi trasformazione o tecnica matematica che cambia l'intervallo di un'etichetta e/o valore delle caratteristiche. Alcune forme di scalabilità sono molto utili per le trasformazioni come la normalizzazione.

Le forme più comuni di scalabilità utili nel machine learning includono:

  • la scalabilità lineare, che in genere utilizza una combinazione di sottrazioni e divisione per sostituire il valore originale con un numero compreso tra -1 e +1 oppure tra 0 e 1.
  • la scalabilità logaritmica, che sostituisce il valore originale con il suo e il logaritmo.
  • Normalizzazione del punteggio z, che sostituisce il valore originale con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di quella caratteristica.

scikit-learn

Una popolare piattaforma di machine learning open source. Consulta: scikit-learn.org.

calcolo punteggio

#recsystems

La parte di un sistema di consigli che fornisce un valore o un ranking per ogni articolo prodotto dal nella fase di generazione dei candidati.

bias di selezione

#fairness

Errori nelle conclusioni tratte dai dati campionati a causa di un processo di selezione che genera differenze sistematiche tra i campioni osservati nei dati e quelli non osservati. Esistono le seguenti forme di bias di selezione:

  • differenziazione di copertura: la popolazione rappresentata nel set di dati non corrisponde corrispondono alla popolazione che sta creando il modello di machine learning le tue previsioni.
  • Bias di campionamento: i dati non vengono raccolti in modo casuale dal gruppo target.
  • bias da mancata risposta (chiamato anche bias di partecipazione): utenti di alcuni gruppi disattivano i sondaggi con frequenze diverse rispetto a quelle degli utenti e altri gruppi.

Ad esempio, supponiamo che tu stia creando un modello di machine learning che prevede la fruizione di un film da parte delle persone. Per raccogliere dati di addestramento, distribuirai un sondaggio a tutte le persone che si trovano in prima fila in un teatro che mostra il film. Potrebbe sembrare un modo ragionevole per raccogliere un set di dati; Tuttavia, questa forma di raccolta dei dati può introducono le seguenti forme di bias di selezione:

  • bias di copertura: in base a un campionamento da una popolazione che ha scelto di visualizzare per il film, le previsioni del modello potrebbero non essere generalizzate che non hanno manifestato già quel livello di interesse nei confronti del film.
  • bias di campionamento: invece di eseguire un campionamento casuale popolazione prevista (tutte le persone presenti nel film), hai campionato solo le persone in prima fila. È possibile che le persone sedute in prima fila erano più interessati al film rispetto a quelli in altre righe.
  • non risposta: in generale, le persone con opinioni forti tendono a rispondere ai sondaggi facoltativi con maggiore frequenza rispetto alle persone con lieve entità opinioni personali. Poiché il sondaggio sui film è facoltativo, le risposte hanno maggiori probabilità di formare distribuzione bimodale rispetto a una normale distribuzione (a forma di campana).

auto-attenzione (detto anche livello di auto-attenzione)

#language

Uno strato della rete neurale che trasforma una sequenza di incorporamenti (ad esempio, incorporamenti token) in un'altra sequenza di incorporamenti. Ogni incorporamento nella sequenza di output costruiti integrando le informazioni dagli elementi della sequenza di input attraverso un meccanismo di attenzione.

La parte relativa al dell'auto-attenzione si riferisce alla sequenza che segue piuttosto che in un altro contesto. L'auto-attenzione è uno dei i componenti di base per i trasformatori e utilizza la ricerca nel dizionario come "query", "chiave" e "valore".

Uno strato di auto-attenzione inizia con una sequenza di rappresentazioni di input, una per ogni parola. La rappresentazione di input per una parola può essere una semplice incorporamento. Per ogni parola in una sequenza di input, la rete valuta la pertinenza della parola per ogni elemento nell'intera sequenza di parole. I punteggi di pertinenza determinano in che misura la rappresentazione finale della parola incorpora le rappresentazioni di altre parole.

Ad esempio, considera la seguente frase:

L'animale non ha attraversato la strada perché era troppo stanco.

L'illustrazione seguente (da Transformer: una nuova architettura di rete neurale per il linguaggio Comprensione) mostra lo schema di attenzione di uno strato di auto-attenzione per il pronome it, con l'oscurità di ogni riga, che indica quanto ogni parola contribuisca alla rappresentazione:

La seguente frase appare due volte: L&#39;animale non ha attraversato la
          via perché era troppo stanco. Le righe collegano il pronome in cui è
          da una frase a cinque token (The, animale, street, it,
          il punto) nell&#39;altra frase.  La linea tra il pronome
          e la parola animale è la più forte.

Il livello di auto-attenzione evidenzia le parole pertinenti. In questo caso, lo strato di attenzione ha imparato a evidenziare le parole che potrebbe facendo riferimento, assegnando il peso più alto ad animal.

Per una sequenza di n token, l'auto-attenzione trasforma una sequenza di incorporamenti n volte separate, una in ciascuna posizione nella sequenza.

Fai riferimento anche alle sezioni Attenzione e auto-attenzione multi-testa.

apprendimento autonomo

Una famiglia di tecniche per convertire un problema di machine learning non supervisionato in un problema di machine learning supervisionato creando etichette surrogate da esempi senza etichetta.

Alcuni modelli basati su Transformer, ad esempio BERT, utilizzano l'apprendimento autonomo.

La formazione autonoma è una apprendimento semi-supervisionato.

autoaddestramento

Una variante dell'apprendimento autonomo che è particolarmente utile quando tutte le seguenti condizioni sono vere:

L'autoaddestramento prevede l'iterazione dei due passaggi seguenti finché il modello smette di migliorare:

  1. Usare il machine learning supervisionato per addestrare un modello sulla base degli esempi etichettati.
  2. Utilizza il modello creato nel passaggio 1 per generare previsioni (etichette) sulla di esempi non etichettati, spostando quelli con un'alta confidenza gli esempi etichettati con l'etichetta prevista.

Nota che ogni iterazione del Passaggio 2 aggiunge altri esempi etichettati per il Passaggio 1 eseguire l'addestramento.

apprendimento semi-supervisionato

Addestramento di un modello su dati in cui alcuni esempi di addestramento hanno etichette ma altre no. Una tecnica per l'apprendimento semi-supervisionato è quella di dedurre le etichette per gli esempi non etichettati e poi eseguire l'addestramento sulle etichette dedotte per creare un nuovo un modello di machine learning. L'apprendimento semi-supervisionato può essere utile se le etichette sono costose da ottenere ma gli esempi non etichettati sono numerosi.

L'autoaddestramento è una tecnica per l'apprendimento machine learning.

attributo sensibile

#fairness
Un attributo umano che può essere preso in considerazione in particolare per motivi legali, etici, sociali o personali.

analisi del sentiment

#language

L'utilizzo di algoritmi statistici o di machine learning per determinare la un atteggiamento generale, positivo o negativo, nei confronti di un servizio, un prodotto, organizzazione o argomento. Ad esempio, utilizzando comprensione del linguaggio naturale, un algoritmo potrebbe eseguire l'analisi del sentiment sul feedback testuale da un corso universitario per determinare il grado di specializzazione degli studenti in generale gli è piaciuto o non mi è piaciuto il corso.

modello di sequenza

#seq

Un modello i cui input hanno una dipendenza sequenziale. Ad esempio, prevedendo al video successivo da una sequenza di video guardati in precedenza.

attività da sequenza a sequenza

#language

Un'attività che converte una sequenza di input di token in un output una sequenza di token. Ad esempio, due tipi popolari di sequenza sono:

  • Traduttori:
    • Sequenza di input di esempio: "Ti amo".
    • Esempio di sequenza di output: "Je t'aime".
  • Risposta alle domande:
    • Sequenza di input di esempio: "Devo avere la mia auto a New York?"
    • Esempio di sequenza di output: "No. Per favore, porta l'auto a casa".

del modello.

Il processo per rendere disponibile un modello addestrato al fine di fornire previsioni tramite inferenza online o inferenza offline.

forma (Tensor)

Il numero di elementi in ogni dimensione di una tensore. La forma è rappresentata da un elenco di numeri interi. Ad esempio: il seguente tensore bidimensionale ha la forma di [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow utilizza il formato riga maggiore (stile C) per rappresentare l'ordine di grandi dimensioni, motivo per cui la forma in TensorFlow è [3,4] anziché [4,3]. In altre parole, in un TensorFlow Tensor bidimensionale, la forma è [numero di righe, numero di colonne].

Una forma statica è una forma di tensore nota al momento della compilazione.

Una forma dinamica è sconosciuta al momento della compilazione e viene perciò dipendono dai dati di runtime. Questo tensore può essere rappresentato con un segnaposto in TensorFlow, ad esempio [3, ?].

shard

#TensorFlow
#GoogleCloud

Una divisione logica del set di addestramento o del model. In genere, alcuni processi creano shard dividendo gli esempi o parametri in (di solito) in blocchi di uguali dimensioni. Ogni shard viene quindi assegnato a una macchina diversa.

Lo sharding di un modello è chiamato parallelismo del modello; Il partizionamento orizzontale dei dati è chiamato parallelismo dei dati.

restringimento

#df

Un iperparametro in l'incremento del gradiente che controlla overfitting. Riduzione nell'incremento del gradiente è analogo al tasso di apprendimento in discesa del gradiente. Lo restringimento è un numero decimale compreso tra 0,0 e 1,0. Un valore di shrinkage più basso riduce l'overfitting di un valore di shrinkage maggiore.

funzione sigmoidea

#fundamentals

Una funzione matematica che "schiaccia" un valore di input in un intervallo vincolato, generalmente da 0 a 1 o da -1 a +1. Ciò significa che puoi passare un numero qualsiasi (due, un milione, un miliardo negativo o altro) in una funzione sigmoidea e l'output sarà comunque intervallo vincolato. Un grafico della funzione di attivazione sigmoidea ha il seguente aspetto:

Un grafico curvo bidimensionale con valori x che coprono il dominio
          da infinito a +positivo, mentre i valori di y coprono l&#39;intervallo da quasi 0 a +positivo
          quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre
          positiva, con la pendenza più alta a 0,0.5 e che diminuisce gradualmente
          pendenze all&#39;aumento del valore assoluto di x.

La funzione sigmoidea ha diversi utilizzi nel machine learning, tra cui:

misura di somiglianza

#clustering

Negli algoritmi di clustering, la metrica utilizzata per determinare la somiglianza tra due esempi.

programma singolo / più dati (SPMD)

Una tecnica di parallelismo in cui lo stesso calcolo viene eseguito su input diversi in parallelo su dispositivi diversi. L'obiettivo dell'SPMD è ottenere risultati più rapidamente. È lo stile più comune di programmazione parallela.

invarianza delle dimensioni

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di a classificare le immagini anche se cambiano le loro dimensioni. Ad esempio: l'algoritmo può comunque identificare 2M pixel o 200.000 pixel. Ricorda che anche i modelli gli algoritmi di classificazione delle immagini presentano comunque limiti pratici di invarianza delle dimensioni. Ad esempio, è improbabile che un algoritmo (o una persona) classifichi correttamente un'immagine gatto che consuma solo 20 pixel.

Vedi anche invarianza traslazionale e invarianza rotazionale.

disegno

#clustering

Nel machine learning non supervisionato, una categoria di algoritmi che eseguono un'analisi preliminare delle somiglianze esempi. Gli algoritmi per disegnare utilizzano funzione hash sensibile a livello di località per identificare i punti che potrebbero essere simili, quindi raggruppa in bucket.

Gli schizzi riducono il calcolo necessario per i calcoli delle somiglianze su set di dati di grandi dimensioni. Invece di calcolare la somiglianza per ogni singolo coppia di esempi nel set di dati, calcoliamo la somiglianza solo per coppia di punti all'interno di ogni bucket.

skip-gram

#language

Un elemento n-gram che può omettere (o "saltare") parole dall'originale contesto, il che significa che le N parole potrebbero non essere state originariamente adiacenti. Altro precisamente, un "k-skip-n-gram" è un n-grammo per cui possono esistere fino a k parole saltate.

Ad esempio, "volpe volpe marrone" ha i seguenti 2 grammi possibili:

  • "l'accelerato"
  • "marrone rapido"
  • "volpe marrone"

A "1-salto-2 grammi" è costituito da un paio di parole separate da massimo 1 parola. Pertanto, "l'uomo delle volpi" ha i seguenti 1 o 2 grammi:

  • "marrone"
  • "Fast Volpe"

Inoltre, tutti i 2 grammi sono anche 1 o 2 grammi, in quanto meno può essere saltata più di una parola.

I grammi ignorabili sono utili per comprendere meglio il contesto circostante di una parola. Nell'esempio, "volpe" è stato direttamente associato a "rapido" nel set 1-saltare-2 grammi, ma non nel set di 2 grammi.

Salta grammi per addestrare di incorporamento delle parole.

softmax

#fundamentals

Una funzione che determina le probabilità per ogni possibile classe in una modello di classificazione multi-classe. Le probabilità si sommano esattamente a 1,0. Ad esempio, la tabella seguente mostra la modalità di distribuzione delle varie probabilità:

L'immagine è... Probabilità
cane 0,85
gatto 0,13
cavallo 0,02

Softmax è anche noto come full softmax.

Contrasta il campionamento dei candidati.

ottimizzazione dei prompt flessibili

#language
#generativeAI

Una tecnica per ottimizzare un modello linguistico di grandi dimensioni (LLM) per un'attività specifica, senza consumare risorse perfezionamenti. Invece di riaddestrare tutti i Ponderazioni nel modello, ottimizzazione dei prompt soft regola automaticamente un prompt per raggiungere lo stesso obiettivo.

Data un prompt testuale, l'ottimizzazione dei prompt soft in genere aggiunge ulteriori incorporamenti di token al prompt e utilizza la retropropagazione dell'errore per ottimizzare l'input.

Un "complesso" contiene token effettivi anziché incorporamenti di token.

caratteristica sparsa

#language
#fundamentals

Una caratteristica i cui valori sono prevalentemente zero o vuoti. Ad esempio, una caratteristica contenente un singolo valore 1 e un milione di valori 0 è sparsa. Al contrario, una caratteristica densa ha valori che non sono prevalentemente zero o vuoti.

Nel machine learning, un numero sorprendente di caratteristiche sono caratteristiche sparse. Le caratteristiche categoriche sono di solito caratteristiche sparse. Ad esempio, delle 300 possibili specie di alberi in una foresta, un singolo esempio potrebbe identificare solo un albero di acero. O dei milioni di utenti di possibili video in una raccolta video, un singolo esempio potrebbe identificare semplicemente "Casablanca".

In un modello, di solito rappresenti le caratteristiche sparse con codifica one-hot. Se la codifica one-hot è di grandi dimensioni, puoi inserire uno strato di incorporamento sopra lo una codifica one-hot per una maggiore efficienza.

rappresentazione sparsa

#language
#fundamentals

Memorizzare solo le posizioni di elementi diversi da zero in una caratteristica sparsa.

Ad esempio, supponiamo che una caratteristica categorica denominata species identifichi il 36 specie di alberi di una determinata foresta. Supponiamo inoltre che ogni example identifica solo una singola specie.

Potresti utilizzare un vettore one-hot per rappresentare le specie di alberi in ogni esempio. Un vettore one-hot conterrebbe un singolo 1 (per rappresentare la particolare specie di alberi nell'esempio) e 35 0 (per rappresentare le 35 specie di alberi che non sono presenti nell'esempio). Quindi, la rappresentazione one-hot di maple potrebbe avere il seguente aspetto:

Un vettore in cui le posizioni da 0 a 23 contengono il valore 0, posizione
          24 contiene il valore 1, mentre le posizioni da 25 a 35 mantengono il valore 0.

In alternativa, la rappresentazione sparsa dovrebbe semplicemente identificare la posizione del specie particolari. Se maple è in posizione 24, allora la rappresentazione sparsa di maple sarebbe:

24

Nota che la rappresentazione sparsa è molto più compatta della una rappresentazione visiva.

vettore sparso

#fundamentals

Un vettore i cui valori sono prevalentemente zeri. Vedi anche sparse caratteristiche e sparsità.

sparsità

Il numero di elementi impostati su zero (o nulli) in un vettore o una matrice diviso per il numero totale di voci in quel vettore o matrice. Ad esempio: consideriamo una matrice di 100 elementi in cui 98 celle contengono zero. Il calcolo la sparsità è la seguente:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La sparsità delle caratteristiche si riferisce alla sparsità di un vettore di caratteristiche. sparsità del modello si riferisce alla sparsità dei pesi del modello.

pooling spaziale

#image

Consulta la sezione pooling.

Spalato

#df

In un albero decisionale, un altro nome per condition.

divisore

#df

Durante l'addestramento di un albero decisionale, la routine (e algoritmo) responsabile di trovare condition a ogni nodo.

SPMD

Abbreviazione di programma singolo / più dati.

perdita cerniera al quadrato

Il quadrato della perdita della cerniera. La perdita della cerniera quadrata penalizza valori anomali in modo più rigido rispetto alla normale perdita di cerniere.

perdita quadratica

#fundamentals

Sinonimo di L2 loss.

addestramento graduale

#language

Una tattica per addestrare un modello in una sequenza di fasi discrete. L'obiettivo può essere per accelerare il processo di addestramento o per ottenere una migliore qualità del modello.

Di seguito è riportata un'illustrazione dell'approccio di impilamento progressivo:

  • La fase 1 contiene 3 strati nascosti, la fase 2 contiene 6 strati nascosti e la fase 3 contiene 12 strati nascosti.
  • La Fase 2 inizia l'addestramento con i pesi appresi nei 3 strati nascosti. della fase 1. La Fase 3 inizia l'addestramento con i pesi appresi nel 6 gli strati nascosti della Fase 2.

Tre fasi, che sono etichettate Fase 1, Fase 2 e Fase 3.
          Ogni fase contiene un numero diverso di livelli: la fase 1 contiene
          3 strati, la Fase 2 contiene 6 strati e la Fase 3 contiene 12 strati.
          I 3 livelli dello Stage 1 diventano i primi 3 livelli dello Stage 2.
          Analogamente, i 6 livelli della Fase 2 diventano i primi 6
          Fase 3.

Vedi anche pipelining.

stato

#rl

Nell'apprendimento per rinforzo, i valori dei parametri che descrivono la della configurazione dell'ambiente, che l'agente utilizza per scegli un'azione.

funzione valore azione-stato

#rl

Sinonimo di Q-function.

static

#fundamentals

Un'operazione eseguita una sola volta anziché in modo continuativo. I termini statico e offline sono sinonimi. Di seguito sono riportati gli utilizzi comuni dell'espressione statica e offline nel computer apprendimento:

  • Il modello statico (o modello offline) è un modello addestrato una volta e poi usato per un po' di tempo.
  • L'addestramento statico (o addestramento offline) è il processo di addestramento di un un modello statico.
  • inferenza statica (o inferenza offline) è un in cui un modello genera un batch di previsioni alla volta.

Confrontare con dinamico.

inferenza statica

#fundamentals

Sinonimo di inferenza offline.

stazionarie

#fundamentals

Una caratteristica i cui valori non cambiano in una o più dimensioni, di solito nel tempo. Ad esempio, una caratteristica i cui valori sono pressoché uguali nel 2021 e Il 2023 mostra la stazionarietà.

Nel mondo reale, pochissime caratteristiche mostrano stazionarietà. Funzionalità persino sinonimo di stabilità (come il livello del mare) dei cambiamenti nel tempo.

Confrontare con nonstationarity.

fase

Un passaggio in avanti e uno all'indietro di un batch.

Per saperne di più, consulta la retropropagazione tra il passaggio in avanti e il passaggio all'indietro.

dimensione del passo

Sinonimo di tasso di apprendimento.

discesa stocastica del gradiente (SGD)

#fundamentals

Un algoritmo di discesa del gradiente in cui la dimensione del batch è uno. In altre parole, SGD addestra un singolo esempio scelto in modo uniforme casuale da un set di addestramento.

stride

#image

In un'operazione convoluzionale o in un pooling, il delta in ogni dimensione successiva di sezioni di input. Ad esempio, la seguente animazione mostra un passo (1,1) durante un'operazione convoluzionale. Pertanto, la sezione di input successiva inizia una posizione a destra dell'input precedente sezione. Quando l'operazione raggiunge il bordo destro, la sezione successiva è verso sinistra, ma una posizione più in basso.

Una matrice 5x5 di input e un filtro convoluzionale 3x3. Poiché
     passo è (1,1), verrà applicato un filtro convoluzionale 9 volte. Il primo
     la sezione convoluzionale valuta la sottomatrice 3x3 in alto a sinistra dell&#39;input
     . La seconda sezione valuta il rapporto 3x3 in alto al centro
     sottomatrice. La terza sezione convoluzionale valuta il formato 3 x 3 in alto a destra
     sottomatrice.  La quarta sezione valuta la sottomatrice 3x3 al centro-sinistra.
     La quinta sezione valuta la sottomatrice 3x3 centrale. La sesta sezione
     valuta la sottomatrice 3x3 al centro-destra. La settima sezione valuta
     la sottomatrice 3x3 in basso a sinistra.  L&#39;ottava sezione valuta la
     sottomatrice 3x3 al centro e in basso. La nona sezione valuta il rapporto 3x3 in basso a destra
     sottomatrice.

L'esempio precedente mostra un passo bidimensionale. Se l'input di massa è tridimensionale, anche la lunghezza del passo sarà tridimensionale.

minimizzazione del rischio strutturale (SRM)

Un algoritmo che bilancia due obiettivi:

  • La necessità di creare il modello più predittivo (ad esempio, la perdita più bassa).
  • La necessità di mantenere il modello il più semplice possibile (ad esempio, regolarizzazione).

Ad esempio, una funzione che minimizza la perdita e la regolarizzazione è un algoritmo di minimizzazione del rischio strutturale.

Mettersi a confronto con la minimizzazione empirica del rischio.

sottocampionamento

#image

Consulta la sezione pooling.

token della sottoparola

#language

Nei modelli linguistici, si tratta di un token sottostringa di una parola, che potrebbe essere l'intera parola.

Ad esempio, una parola come "itemize" potrebbe essere suddiviso in diversi pezzi, "item" (una parola radice) e "ize" (un suffisso), ognuno dei quali è rappresentato da una propria di accesso. Suddividere le parole non comuni in parti simili, denominate sottoparole, consente linguistici di grandi dimensioni per operare sulle parti costitutive più comuni della parola, come prefissi e suffissi.

Al contrario, parole comuni come "andare" potrebbero non essere suddivisi e rappresentati da un singolo token.

riepilogo

#TensorFlow

In TensorFlow, un valore o insieme di valori calcolati in base a un determinato step, in genere utilizzata per monitorare le metriche del modello durante l'addestramento.

machine learning supervisionato

#fundamentals

Addestramento di un modello dalle funzionalità e dai relativi etichette corrispondenti. Il machine learning supervisionato è analogo all'apprendimento di una materia esaminando una serie di domande e risposte corrispondenti. Dopo aver padroneggiato la mappatura tra domande e risposte, uno studente potrà quindi fornire delle risposte a nuove domande (mai viste in precedenza) domande sullo stesso argomento.

Confronta con machine learning non supervisionato.

caratteristica sintetica

#fundamentals

Una caratteristica non presente tra le caratteristiche di input, ma assemblati da uno o più di essi. Metodi per la creazione di caratteristiche sintetiche include:

  • Bucketing di una funzionalità continua in fasce di intervallo.
  • Creare un incrocio di caratteristiche.
  • Moltiplicare (o dividere) un valore della caratteristica per altri valori della caratteristica o da sola. Ad esempio, se a e b sono caratteristiche di input, allora il valore Ecco alcuni esempi di caratteristiche sintetiche:
      .
    • ab
    • A2
  • Applicazione di una funzione trascendentale a un valore di caratteristica. Ad esempio, se c è una caratteristica di input, i seguenti sono esempi di caratteristiche sintetiche:
    • sin(c)
    • ln(c)

Funzionalità create normalizzando o scalando da sole non sono considerate caratteristiche sintetiche.

T

T5

#language

Un modello di transfer learning da testo a testo introdotto da L'IA di Google nel 2020. T5 è un modello encoder-decoder, basato sul Transformer, addestrata su un modello del set di dati. È efficace in una varietà di attività di elaborazione del linguaggio naturale, ad esempio generando testi, tradurre lingue e rispondere a domande in in modo colloquiale.

T5 prende il nome dalle cinque "T" in "Text-to-Text Transfer Transformer".

T5X

#language

Un framework di machine learning open source progettato per creare e addestrare l'elaborazione del linguaggio naturale su larga scala (NLP). T5 è implementato sul codebase T5X (che basata su JAX e Flax).

Q-learning tabulare

#rl

Nel apprendimento per rinforzo, l'implementazione Q-learning mediante l'utilizzo di una tabella in cui archiviare funzioni Q per ogni combinazione di state e azione.

target

Sinonimo di label.

rete di destinazione

#rl

Nel Deep Q-learning, si tratta di una rete neurale stabile approssimazione della rete neurale principale, in cui implementa una funzione Q o un criterio. Quindi, puoi addestrare la rete principale sui valori Q previsti dal target in ogni rete. Di conseguenza, eviterai il ciclo di feedback che si verifica quando l'istanza principale la rete addestra sui valori Q previsti automaticamente. Evitando questo feedback, la stabilità durante l'addestramento.

attività

Un problema che può essere risolto utilizzando tecniche di machine learning come:

temperatura

#language
#image
#generativeAI

Un iperparametro che controlla il grado di casualità dell'output di un modello. Le temperature più alte generano un output più casuale, mentre le temperature più basse si traducono in un output meno casuale.

La scelta della temperatura migliore dipende dall'applicazione specifica e le proprietà preferite dell'output del modello. Ad esempio, probabilmente la temperatura si alzerà durante la creazione di un'applicazione genera risultati creativi. Al contrario, probabilmente abbasseresti la temperatura quando si crea un modello che classifica immagini o testo al fine di migliorare l'accuratezza e la coerenza del modello.

La temperatura viene spesso utilizzata con softmax.

dati temporali

Dati registrati in diversi momenti. Ad esempio, vendite di cappotti invernali registrati per ogni giorno dell'anno sarebbero i dati temporali.

Tensore

#TensorFlow

La struttura di dati principale nei programmi TensorFlow. I tensori sono n-dimensionali (dove N potrebbe essere molto grande) strutture di dati, molto comunemente scalari, vettori, o matrici. Gli elementi di un Tensor possono contenere numeri interi, rappresentazioni in virgola mobile o valori di stringa.

TensorBoard

#TensorFlow

La dashboard che visualizza i riepiloghi salvati durante l'esecuzione di uno o con altri programmi TensorFlow.

TensorFlow

#TensorFlow

Una piattaforma di machine learning distribuita e su larga scala. Il termine si riferisce anche il livello API di base dello stack TensorFlow, che supporta il calcolo sui grafici Dataflow.

Sebbene TensorFlow sia utilizzato principalmente per il machine learning, potresti utilizzare anche TensorFlow per attività non ML che richiedono calcolo numerico utilizzando di Dataflow.

TensorFlow Playground

#TensorFlow

Un programma che mostra come diversi Modello di influenza degli iperparametri (principalmente rete neurale). Vai a http://playground.tensorflow.org per sperimentare con TensorFlow Playground.

Distribuzione di TensorFlow

#TensorFlow

Una piattaforma per il deployment di modelli addestrati in produzione.

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

Un ASIC (Application-Specific Integrated Circuito) che ottimizza delle prestazioni dei carichi di lavoro di machine learning. Questi ASIC vengono implementati come più chip TPU su un dispositivo TPU.

Ranking Tensor

#TensorFlow

Vedi rank (Tensor).

Forma del tensore

#TensorFlow

Il numero di elementi contenuti in un Tensor in varie dimensioni. Ad esempio, un tensore di [5, 10] ha una forma pari a 5 in una dimensione e 10 in un'altra.

Dimensione tensore

#TensorFlow

Il numero totale di scalari contenuti in un Tensor. Ad esempio, un [5, 10] Tensor ha una dimensione di 50.

TensorStore

Una raccolta per leggere e leggere in modo efficiente scrivere grandi array multidimensionali.

condizione di risoluzione

#rl

Nel apprendimento per rinforzo, le condizioni che stabilire quando finisce una puntata, ad esempio quando l'agente raggiunge stato o supera una soglia per le transizioni di stato. Ad esempio, in tris (anche noti come null, un episodio termina quando un giocatore segna tre spazi consecutivi o quando tutti gli spazi sono contrassegnati.

test

#df

In un albero decisionale, un altro nome per condition.

perdita di test

#fundamentals

Una metrica che rappresenta la perdita di un modello rispetto a il set di test. Quando crei un modello, in genere cerca di ridurre al minimo la perdita di dati. Questo perché una perdita di prova bassa è un segnale di qualità più forte rispetto a una bassa perdita dell'addestramento o con una bassa perdita di convalida.

A volte un grande divario tra perdita di test e perdita di addestramento o perdita di convalida suggerisce che è necessario aumentare tasso di regolarizzazione.

set di test

Un sottoinsieme del set di dati riservato per i test un modello addestrato.

Tradizionalmente, gli esempi di un set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

Ogni esempio in un set di dati deve appartenere solo a uno dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non dovrebbe appartenere sia al set di addestramento il set di test.

Il set di addestramento e il set di convalida sono entrambi strettamente legati all'addestramento di un modello. Poiché il set di test è associato solo indirettamente all'addestramento, La perdita nel test è una metrica meno differenziata e di qualità superiore rispetto perdita di addestramento o perdita di convalida.

intervallo di testo

#language

L'intervallo di indice dell'array associato a una sottosezione specifica di una stringa di testo. Ad esempio, la parola good nella stringa Python s="Be good now" occupa l'intervallo di testo è compreso tra 3 e 6.

tf.Example

#TensorFlow

Un modello buffer di protocollo per descrivere i dati di input per l'addestramento o l'inferenza del modello di machine learning.

tf.keras

#TensorFlow

Un'implementazione di Keras integrata TensorFlow:

soglia (per gli alberi decisionali)

#df

In una condizione allineata all'asse, il valore di un con cui viene confrontata la funzionalità feature. Ad esempio, 75 è il di soglia nella seguente condizione:

grade >= 75

analisi delle serie temporali

#clustering

Un campo secondario del machine learning e della statistica che analizza dati temporali. Molti tipi di machine learning problemi richiedono l'analisi delle serie temporali, tra cui classificazione, clustering, previsione e rilevamento di anomalie. Ad esempio, potresti utilizzare analisi delle serie temporali per prevedere le vendite future di cappotti invernali per mese in base ai dati storici delle vendite.

passo temporale

#seq

Uno "non arrotolato" cella all'interno di un rete neurale ricorrente. Ad esempio, la figura seguente mostra tre fasi temporali (etichettate con i pedici t-1, t e t+1):

Tre passi temporali in una rete neurale ricorrente. L&#39;output del
          il primo passo temporale diventa un input per il secondo passo temporale. L&#39;output
          del secondo passo temporale diventa l&#39;input del terzo passo temporale.

token

#language

In un modello linguistico, l'unità atomica del modello è l'addestramento e l'elaborazione delle previsioni. Un token è tipicamente uno dei seguenti:

  • una parola, ad esempio la frase "i cani come i gatti" è composto da tre parole token: "cani", "mi piace" e "gatti".
  • un carattere, ad esempio la frase "pesci bicicletta" è composto da nove di caratteri. Tieni presente che lo spazio vuoto viene conteggiato come uno dei token.
  • sottoparole in cui una singola parola può essere un singolo token o più token. Una sottoparola è composta da una parola radice, un prefisso o un suffisso. Ad esempio: un modello linguistico che utilizza sottoparole come token potrebbe visualizzare la parola "cani" come due token (la parola radice "cane" e il suffisso plurale "s"). Uguale un modello linguistico potrebbe visualizzare la singola parola "più alta" come due sottoparole (il parola principale "alto" e il suffisso "er").

In domini esterni ai modelli linguistici, i token possono rappresentare altri tipi di unità atomiche. Ad esempio, nella visione artificiale, un token potrebbe essere un sottoinsieme di un'immagine.

torre

Un componente di una rete neurale profonda che è una rete neurale profonda. In alcuni casi, ogni torre legge da una un'origine dati indipendente e queste torri rimangono indipendenti fino viene combinato in un livello finale. In altri casi (ad esempio, l'encoder e il decoder della torre molti Transformer), le torri hanno connessioni incrociate l'uno con l'altro.

TPU

#TensorFlow
#GoogleCloud

Abbreviazione di Tensor Processing Unit.

Chip TPU

#TensorFlow
#GoogleCloud

Un acceleratore di algebra lineare programmabile con memoria a larghezza di banda elevata on-chip ottimizzato per carichi di lavoro di machine learning. Viene eseguito il deployment di più chip TPU su un dispositivo TPU.

Dispositivo TPU

#TensorFlow
#GoogleCloud

Una scheda per circuiti stampati (PCB) con più chip TPU. interfacce di rete a larghezza di banda elevata e hardware di raffreddamento del sistema.

Master TPU

#TensorFlow
#GoogleCloud

Il processo di coordinamento centrale in esecuzione su una macchina host che invia e riceve dati, risultati, programmi, prestazioni e informazioni sullo stato del sistema ai Worker TPU. Il master TPU gestisce anche la configurazione e l'arresto dei dispositivi TPU.

Nodo TPU

#TensorFlow
#GoogleCloud

Una risorsa TPU su Google Cloud con un indirizzo Tipo TPU: Il nodo TPU si connette Rete VPC da una rete VPC peer. I nodi TPU sono una risorsa definita API Cloud TPU.

pod di TPU

#TensorFlow
#GoogleCloud

Una configurazione specifica dei dispositivi TPU in un ambiente data center. Tutti i dispositivi in un pod di TPU sono connessi tra loro su una rete dedicata ad alta velocità. Un pod di TPU è la configurazione più grande Dispositivi TPU disponibili per una versione specifica di TPU.

Risorsa TPU

#TensorFlow
#GoogleCloud

Un'entità TPU su Google Cloud che crei, gestisci o utilizzi. Per Ad esempio, i nodi TPU e i tipi di TPU sono delle risorse TPU.

Sezione TPU

#TensorFlow
#GoogleCloud

Una sezione TPU è una parte frazionaria dei dispositivi TPU in un pod TPU. Tutti i dispositivi in una sezione TPU sono connessi tramite una rete dedicata ad alta velocità.

Tipo di TPU

#TensorFlow
#GoogleCloud

Una configurazione di uno o più dispositivi TPU con una specifica Versione hardware TPU. Selezioni un tipo di TPU durante la creazione un nodo TPU su Google Cloud. Ad esempio, un v2-8 Il tipo di TPU è un singolo dispositivo TPU v2 con 8 core. Un tipo di TPU v3-2048 ha 256 di dispositivi TPU v3 in rete e un totale di 2048 core. I tipi di TPU sono definita nel API Cloud TPU.

Worker TPU

#TensorFlow
#GoogleCloud

Un processo che viene eseguito su una macchina host ed esegue programmi di machine learning sui dispositivi TPU.

formazione

#fundamentals

Il processo di determinazione dei parametri ideali (ponderazioni e pregiudizi) che comprende un modello. Durante l'addestramento, un sistema legge esempi e regola gradualmente i parametri. L'addestramento utilizza ogni ad esempio da poche a miliardi di volte.

perdita di addestramento

#fundamentals

Una metrica che rappresenta la perdita di un modello durante una a una particolare iterazione di addestramento. Ad esempio, supponiamo che la funzione di perdita è errore quadratico medio. Forse la perdita di addestramento (la media scarto quadratico) per la decima iterazione è 2.2, e la perdita di addestramento la 100a iterazione è 1,9.

Una curva di perdita traccia la perdita di addestramento rispetto al numero di Google Cloud. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:

  • Una pendenza verso il basso implica che il modello sta migliorando.
  • Una pendenza verso l'alto implica che il modello sta peggiorando.
  • Una pendenza piatta implica che il modello abbia raggiunto convergenza.

Ad esempio, la seguente curva di perdita un po' idealizzata mostra:

  • Una ripida pendenza verso il basso durante le iterazioni iniziali, che implica il rapido miglioramento dei modelli.
  • Una pendenza gradualmente crescente (ma sempre verso il basso) fino alla fine di addestramento, il che implica un miglioramento continuo del modello un ritmo più lento durante le iterazioni iniziali.
  • Una pendenza piatta verso la fine dell'addestramento, che suggerisce la convergenza.

Il grafico della perdita di addestramento e delle iterazioni. Questa curva di perdita inizia
     con una ripida pendenza in discesa. La pendenza si appiattisce gradualmente finché
     la pendenza diventa zero.

Sebbene la perdita dell'addestramento sia importante, vedi anche generalizzazione.

disallineamento addestramento/produzione

#fundamentals

La differenza tra le prestazioni di un modello durante addestramento e le prestazioni dello stesso modello durante pubblicazione.

set di addestramento

#fundamentals

Il sottoinsieme del set di dati utilizzato per addestrare un modello.

Tradizionalmente, gli esempi nel set di dati sono suddivisi nei seguenti tre sottoinsiemi distinti:

Idealmente, ogni esempio nel set di dati dovrebbe appartenere solo a uno sottoinsiemi precedenti. Ad esempio, un singolo esempio non dovrebbe appartenere sia il set di addestramento sia il set di convalida.

traiettoria

#rl

Nel apprendimento per rinforzo, una sequenza di tuple che rappresentano una sequenza di transizioni di stato dell'agente, dove ogni tupla corrisponde allo stato, action, premio e stato successivo per una determinata transizione di stato.

Transfer Learning

Trasferimento di informazioni da un'attività di machine learning a un'altra. Ad esempio, nell'apprendimento multitasking, un singolo modello risolve più attività, ad esempio un modello profondo con diversi nodi di output per diverse attività. Il Transfer Learning può implicare il trasferimento delle conoscenze dalla soluzione di un'attività più semplice a una più complessa, oppure trasferire la conoscenza da un'attività con più dati a un'altra in cui ci sono meno dati.

La maggior parte dei sistemi di machine learning risolve una singola attività. Il Transfer Learning è una un piccolo passo verso l'intelligenza artificiale in cui un singolo programma può risolvere più attività.

Transformer

#language

Un'architettura di rete neurale sviluppata da Google che fa affidamento su meccanismi di auto-attenzione per trasformare sequenza di incorporamenti di input in una sequenza di output senza fare affidamento su convoluzioni o reti neurali ricorrenti. Un Transformer può essere vista come uno stack di strati di auto-attenzione.

Un Transformer può includere uno qualsiasi dei seguenti elementi:

Un encoder trasforma una sequenza di incorporamenti in una nuova sequenza di della stessa lunghezza. Un encoder include N strati identici, ognuno dei quali contiene due e i sottolivelli. Questi due sottolivelli vengono applicati in ciascuna posizione dell'input sequenza di incorporamento, trasformando ogni elemento della sequenza in un nuovo incorporamento. Il primo livello secondario dell'encoder aggrega informazioni da una sequenza di input. Il secondo sottolivello dell'encoder trasforma i dati aggregati le informazioni in un incorporamento di output.

Un decoder trasforma una sequenza di incorporamenti di input in una sequenza di incorporamenti di output, possibilmente con una lunghezza diversa. Un decoder include anche N strati identici con tre sottostrati, due dei quali sono simili nei sottolivelli dell'encoder. Il terzo sottolivello del decoder prende l'output del dell'encoder e applica il meccanismo di auto-attenzione raccogliere informazioni al suo interno.

Il blog post Transformer: A Novel Neural Network Architecture for Language Comprensione offre un'ottima introduzione ai Transformer.

invarianza traslazionale

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di a classificare le immagini anche quando la posizione degli oggetti all'interno dell'immagine cambia. Ad esempio, l'algoritmo può comunque identificare un cane, che sia nel al centro o all'estremità sinistra dell'inquadratura.

Vedi anche invarianza delle dimensioni e invarianza rotazionale.

trigramma

#seq
#language

Un N-gram in cui N=3.

vero negativo (VN)

#fundamentals

Un esempio in cui il modello prevede correttamente la classe esclusa. Ad esempio, il modello deduce un particolare messaggio email non è spam e tale messaggio è davvero non spam.

veri positivi (VP)

#fundamentals

Un esempio in cui il modello prevede correttamente la classe positiva. Ad esempio, il modello deduce un particolare messaggio email è spam e in realtà si tratta di spam.

tasso di veri positivi (TPR)

#fundamentals

Sinonimo di richiamo. Ossia:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Il tasso di veri positivi è l'asse y in una curva ROC.

U

inconsapevolezza (a un attributo sensibile)

#fairness

Situazione in cui gli attributi sensibili vengono presenti, ma non incluse nei dati di addestramento. Poiché gli attributi sensibili sono spesso correlati con altri attributi dei propri dati, un modello addestrato se non conosce un attributo sensibile potrebbe avere un impatto non soddisfacente rispetto a quell'attributo, o violare altri vincoli di equità.

underfitting

#fundamentals

Produzione di un modello con scarsa capacità predittiva perché il modello di non aver acquisito completamente la complessità dei dati di addestramento. Molti problemi possono causare l'underfitting, tra cui:

sottocampionamento

Rimuovendo gli esempi dal classe di maggioranza in una set di dati sbilanciati dalla classe per crea un set di addestramento più equilibrato.

Ad esempio, consideriamo un set di dati in cui il rapporto tra la classe di maggioranza e la classe di minoranza è 20:1. Per superare questo corso squilibrato, potresti creare un set di addestramento composto da tutte le minoranze ma solo un decimo di quelli di classi maggiori, il che crea un rapporto della classe del set di addestramento di 2:1. A causa del sottocampionamento, questo di addestramento bilanciato può produrre un modello migliore. In alternativa, un set di addestramento più bilanciato potrebbe contenere esempi insufficienti per addestrare un modello efficace.

Confrontare con il sovracampionamento.

unidirezionale

#language

Un sistema che valuta solo il testo che precede una sezione di testo target. Al contrario, un sistema bidirezionale valuta sia testo che precede e segue una sezione di testo di destinazione. Per ulteriori dettagli, consulta la sezione bidirezionale.

modello linguistico unidirezionale

#language

Un modello linguistico che basa le sue probabilità solo sulla token visualizzati prima, non dopo dei token di destinazione. Confrontare con il modello linguistico bidirezionale.

esempio senza etichetta

#fundamentals

Un esempio contenente le caratteristiche, ma senza un'etichetta. Ad esempio, la tabella seguente mostra tre esempi senza etichetta di una casa di valutazione, ciascuna con tre caratteristiche ma senza valore della casa:

Numero di camere Numero di bagni Età della casa
3 2 15
2 1 72
4 2 34

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni esempi senza etichetta.

In semi-supervisionato e apprendimento non supervisionato, durante l'addestramento vengono usati esempi non etichettati.

Confronta l'esempio senza etichetta con l'esempio con etichetta.

machine learning non supervisionato

#clustering
#fundamentals

Addestramento di un modello per trovare pattern in un set di dati, in genere una senza etichetta.

L'uso più comune del machine learning non supervisionato è dati cluster in gruppi di esempi simili. Ad esempio, una macchina non supervisionata algoritmo di apprendimento può raggruppare i brani in base a varie della musica. I cluster risultanti possono diventare un input per un'altra macchina algoritmi di apprendimento (ad esempio a un servizio di consigli musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini come anti-abuso e attività fraudolente, i cluster possono aiutare le persone a comprendere meglio i dati.

Effettuare il confronto con il machine learning supervisionato.

modellazione dell'incremento

Una tecnica di modellazione, comunemente utilizzata nel marketing, che modella il "effetto causale" (noto anche come "impatto incrementale") di un "trattamento" su un "individuo". Di seguito sono riportati due esempi:

  • I medici potrebbero utilizzare modelli di incremento per prevedere la diminuzione della mortalità (effetto causale) di una procedura medica (trattamento) in base al età e storia clinica di un paziente (individuo).
  • I professionisti del marketing potrebbero utilizzare la definizione del modello di incremento per prevedere l'aumento delle probabilità di un acquisto (effetto causale) a causa di una pubblicità (trattamento) su una persona (individuo).

La modellazione dell'incremento è diversa dalla classificazione o regressione in quanto alcune etichette (ad esempio, metà delle etichette nei trattamenti binari) mancano sempre nella modellazione dell'incremento. Ad esempio, un paziente può ricevere o meno un trattamento; perciò possiamo solo osservare se il paziente guarisce o non guarire solo in una di queste due situazioni (ma mai in entrambe). Il vantaggio principale di un modello di incremento è che può generare previsioni per la situazione non osservata (controfattuale) e usarla per calcolare l'effetto causale.

ponderazione

Applicazione di una ponderazione alla classe downsampled uguale al fattore in base al quale hai eseguito il sottocampionamento.

matrice utente

#recsystems

Nei sistemi di consigli, una vettore di incorporamento generato da fattorizzazione matriciale che contengono indicatori latenti sulle preferenze dell'utente. Ogni riga della matrice utente contiene informazioni sul relativo l'intensità di vari indicatori latenti per un singolo utente. Ad esempio, considera un sistema di consigli sui film. In questo sistema, i segnali latenti nella matrice dell'utente possono rappresentare l'interesse di ciascun utente generi specifici o potrebbero essere segnali di difficile interpretazione che implicano interazioni complesse su più fattori.

La matrice utente ha una colonna per ogni caratteristica latente e una riga per ogni utente. Ciò significa che la matrice utente ha lo stesso numero di righe del target matrice che viene fattorizzata. Ad esempio, dato un film di consigli per 1.000.000 utenti, la matrice dell'utente avrà 1.000.000 di righe.

V

convalida

#fundamentals

La valutazione iniziale della qualità di un modello. La convalida controlla la qualità delle previsioni di un modello rispetto set di convalida.

Poiché il set di convalida è diverso dal set di addestramento, la convalida aiuta a prevenire l'overfitting.

Si potrebbe pensare di valutare il modello rispetto al set di convalida come prima fase di test e valutazione del modello rispetto set di test come seconda fase di test.

perdita di convalida

#fundamentals

Una metrica che rappresenta la perdita di un modello su il set di convalida durante una determinata iterazione dell'addestramento.

Vedi anche la curva di generalizzazione.

set di convalida

#fundamentals

Il sottoinsieme del set di dati che esegue della valutazione rispetto a un modello addestrato. Di solito, valuti il modello addestrato a fronte del set di convalida di diversi volte prima di valutare il modello rispetto al set di test.

Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

Idealmente, ogni esempio nel set di dati dovrebbe appartenere solo a uno sottoinsiemi precedenti. Ad esempio, un singolo esempio non dovrebbe appartenere sia il set di addestramento sia il set di convalida.

imputazione del valore

Procedura di sostituzione di un valore mancante con un valore sostitutivo accettabile. Quando manca un valore, puoi ignorare l'intero esempio oppure possiamo usare l'imputazione del valore per salvare l'esempio.

Ad esempio, considera un set di dati contenente una caratteristica temperature che è dovrebbe essere registrato ogni ora. Tuttavia, la lettura della temperatura era non disponibile per un'ora specifica. Ecco una sezione del set di dati:

Timestamp Temperatura
1680561000 10
1680564600 12
1680568200 mancante
1680571800 20
1680575400 21
1680579000 21

Un sistema potrebbe eliminare l'esempio mancante o attribuire quello mancante temperatura di 12, 16, 18 o 20, a seconda dell'algoritmo di imputazione.

problema della scomparsa del gradiente

#seq

La tendenza dei gradienti dei primi strati nascosti di alcune reti neurali profonde per diventare sorprendentemente piatto (basso). Gradienti sempre più bassi si traducono in un aumento variazioni più piccole delle ponderazioni sui nodi in una rete neurale profonda, con conseguente poco o nessun apprendimento. Modelli interessati dal problema della scomparsa del gradiente diventano difficili o impossibili da addestrare. Le celle di memoria a breve termine a lungo risolvono questo problema.

Confronta con il problema del gradiente con esplosione.

importanza delle variabili

#df

Un insieme di punteggi che indica l'importanza relativa di ciascuno feature al modello.

Ad esempio, considera un albero decisionale che stima i prezzi delle abitazioni. Supponiamo che questo albero decisionale utilizzi caratteristiche: taglia, età e stile. Se un insieme di valori di importanza per le tre caratteristiche vengono calcolate come {size=5.8, age=2.5, style=4.7}, la taglia è più importante per la albero decisionale rispetto all'età o allo stile.

Esistono diverse metriche di importanza delle variabili, che possono esperti di ML su diversi aspetti dei modelli.

autoencoder variazionale (VAE)

#language

Un tipo di autoencoder che sfrutta la discrepanza tra input e output per generare versioni modificate degli input. Gli autoencoder variazionali sono utili per l'IA generativa.

Gli VAE si basano sull'inferenza variazionale: una tecnica per stimare il valore parametri di un modello di probabilità.

vettoriale

Termine molto sovraccarico il cui significato varia a seconda della formula matematica e campi scientifici. Nel machine learning, un vettore ha due proprietà:

  • Tipo di dati: i vettori nel machine learning di solito contengono numeri in virgola mobile.
  • Numero di elementi: la lunghezza o la dimensione del vettore.

Ad esempio, considera un vettore di caratteristiche che contiene otto numeri con rappresentazione in virgola mobile. Questo vettore di caratteristiche ha una lunghezza o una dimensione di otto. Tieni presente che i vettori di machine learning hanno spesso un numero enorme di dimensioni.

È possibile rappresentare come vettori molti tipi diversi di informazioni. Ad esempio:

  • Qualsiasi posizione sulla superficie della Terra può essere rappresentata come un vettoriale in cui una dimensione è la latitudine e l'altra la longitudine.
  • I prezzi correnti di ciascuno dei 500 titoli azionari possono essere rappresentati come una Vettore a 500 dimensioni.
  • Può essere rappresentata una distribuzione di probabilità per un numero finito di classi come vettore. Ad esempio, un di classificazione multiclasse prevede che uno dei tre colori di output (rosso, verde o giallo) potrebbe restituire il vettore (0.3, 0.2, 0.5) per indicare P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

I vettori possono essere concatenati; di conseguenza, è possibile creare una varietà di media diversi rappresentato come un singolo vettore. Alcuni modelli operano direttamente concatenazione di molte codifiche one-hot.

I processori specializzati come le TPU sono ottimizzati per le prestazioni operazioni matematiche sui vettori.

Un vettore è un tensore di ranking 1.

M

Perdita di Wasserstein

Una delle funzioni di perdita comunemente utilizzate reti generative avversarie, in base alla distanza del movimento terra tra la distribuzione dei dati generati e reali.

peso

#fundamentals

Un valore moltiplicato da un modello per un altro valore. L'addestramento è il processo di determinazione dei pesi ideali di un modello. L'inferenza è il processo di utilizzo dei pesi appresi per per fare previsioni.

Alternativa ponderata (WALS)

#recsystems

Un algoritmo per ridurre al minimo la funzione obiettivo durante scomposizione matriciale in sistemi di consigli, che consentono la ponderazione degli esempi mancanti. WALS minimizza il carico errore quadratico tra la matrice originale e la ricostruzione per alternando la fattorizzazione delle righe a quella delle colonne. Ognuna di queste ottimizzazioni può essere risolta con i minimi quadrati ottimizzazione convessa: Per maggiori dettagli, consulta Recommendation Systems.

somma ponderata

#fundamentals

La somma di tutti i valori di input pertinenti moltiplicati per i corrispondenti i pesi. Ad esempio, supponiamo che gli input pertinenti siano costituiti da quanto segue:

valore di input peso inserito
2 -1,3
-1 0,6
3 0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una somma ponderata è l'argomento di input di una funzione di attivazione.

modello Wide

Un modello lineare che in genere ha molti caratteristiche di input sparse. Definiamo "wide" dal giorno Un modello di questo tipo è un tipo speciale di rete neurale con una un numero elevato di input che si connettono direttamente al nodo di output. Modelli Wide sono spesso più facili da sottoporre a debug e ispezionare rispetto ai modelli diretti. Sebbene i modelli Wide non possono esprimere le non linearità tramite gli strati nascosti, LLM possono utilizzare trasformazioni come incrocio di caratteristiche e bucketing per modellare le non linearità in modi diversi.

Contrasta con il modello profondo.

larghezza

Il numero di neuroni in un determinato strato di una rete neurale.

saggezza della folla

#df

L'idea che la media delle opinioni o delle stime di un grande gruppo di persone ("la folla") spesso produce risultati sorprendenti. Ad esempio, considera un gioco in cui le persone indovinano il numero caramelle gommose in un barattolo grande. Sebbene la maggior parte dei singoli non saranno precise, la media di tutte le ipotesi è stata dimostrato empiricamente essere sorprendentemente vicino al numero effettivo caramelle gommose nel barattolo.

Gli insiemi sono un analogo del software alla saggezza della folla. Anche se i singoli modelli fanno previsioni molto imprecise, la media delle previsioni di molti modelli genera spesso in modo sorprendente buone previsioni. Ad esempio, anche se un individuo albero decisionale potrebbe generare previsioni sbagliate, le foreste decisionali spesso fornisce previsioni molto buone.

incorporamento di parole

#language

Rappresentare ogni parola in un insieme di parole all'interno di un vettore di incorporamento; cioè rappresentare ogni parola un vettore di valori in virgola mobile compresi tra 0,0 e 1,0. Parole con simili significati hanno rappresentazioni più simili delle parole con significati diversi. Ad esempio, carote, sedano e cetrioli avrebbero avuto un rendimento relativamente rappresentazioni simili, che sarebbero molto diverse dalle rappresentazioni come aereo, occhiali da sole e dentifricio.

X

XLA (Accelerated Linear Algebra)

Un compilatore open source di machine learning per GPU, CPU e acceleratori ML.

Il compilatore XLA prende modelli dai framework ML più diffusi PyTorch TensorFlow e JAX e le ottimizza. per un'esecuzione ad alte prestazioni su diverse piattaforme hardware, tra cui GPU, CPU e acceleratori ML.

Z

apprendimento zero-shot

È un tipo di addestramento di machine learning in cui model deduce una previsione per un'attività su cui non era già stato addestrato specificamente. In altre parole, il modello non vengono forniti esempi di addestramento specifico per le attività, ma viene chiesto fare inferenza per quell'attività.

Prompt zero-shot

#language
#generativeAI

Un prompt che non fornisce un esempio di come vuoi il modello linguistico di grandi dimensioni (LLM). Ad esempio:

Parti di un prompt Note
Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.
India: La query effettiva.

Il modello linguistico di grandi dimensioni (LLM) potrebbe rispondere con uno dei seguenti elementi:

  • Rupia
  • INR
  • Rupia indiana
  • La rupia
  • Rupia indiana

Tutte le risposte sono corrette, anche se potresti preferire un formato particolare.

Confronta e contrapponi i prompt zero-shot con i seguenti termini:

Normalizzazione dello z-score

#fundamentals

Una tecnica di scalabilità che sostituisce un elemento non elaborato Il valore feature con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di quella caratteristica. Ad esempio, consideriamo una caratteristica la cui media è 800 e il cui standard la deviazione è 100. La tabella seguente mostra come la normalizzazione dello Z-Score il valore non elaborato verrà mappato al suo Z-Score:

Valore non elaborato Punteggio z
800 0
950 +1,5
575 -2,25

Il modello di machine learning viene quindi addestrato utilizzando i punteggi Z per quella caratteristica anziché sui valori non elaborati.