Glossario del machine learning: nozioni di base del machine learning

Questa pagina contiene i termini del glossario ML Fundamentals. Per tutti i termini del glossario, fai clic qui.

A

accuracy

#fundamentals

Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 errate le previsioni avrebbero un'accuratezza di:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Quindi, la formula dell'accuratezza per la classificazione binaria è il seguente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dove:

Confrontare e contrapporre l'accuratezza con precision e richiamo:

funzione di attivazione

#fundamentals

Una funzione che consente alle reti neurali di apprendere Relazioni nonlinear (complesse) tra le caratteristiche e l'etichetta.

Le funzioni di attivazione più comuni includono:

I grafici delle funzioni di attivazione non sono mai linee rette singole. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:

Un grafico cartesiano di due linee. La prima riga ha una costante
          valore y pari a 0, lungo l'asse x da -infinito,0 a 0,-0.
          La seconda riga inizia da 0,0. Questa linea ha una pendenza di +1, quindi
          va da 0,0 a +infinito,+infinito.

Un grafico della funzione di attivazione sigmoidea ha il seguente aspetto:

Un grafico curvo bidimensionale con valori x che coprono il dominio
          da infinito a +positivo, mentre i valori di y coprono l'intervallo da quasi 0 a +positivo
          quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre
          positiva, con la pendenza più alta a 0,0.5 e che diminuisce gradualmente
          pendenze all'aumento del valore assoluto di x.

intelligenza artificiale

#fundamentals

Un programma o un modello generato da strumenti automatici in grado di risolvere attività sofisticate. Ad esempio, un programma o modello che traduce un testo, oppure un programma o modello che identifica le malattie dalle immagini radiologiche entrambi esibiscono intelligenza artificiale.

formalmente, il machine learning è un campo secondario dell'intelligenza l'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.

AUC (area sotto la curva ROC)

#fundamentals

Un numero compreso tra 0,0 e 1,0 che rappresenta un del modello di classificazione binaria capacità di separare i classi positivi da classi escluse. Più l'AUC è vicina a 1,0, migliore è la capacità del modello di separare classi l'uno dall'altro.

Ad esempio, l'illustrazione seguente mostra un modello di classificazione che separa le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello non realisticamente perfetto ha una AUC di 1,0:

Una linea dei numeri con 8 esempi positivi su un lato e
          9 esempi negativi dall'altro lato.

Al contrario, l'illustrazione seguente mostra i risultati per un classificatore modello che ha generato risultati casuali. Questo modello ha un'AUC di 0,5:

Una linea dei numeri con 6 esempi positivi e 6 esempi negativi.
          La sequenza di esempi è positiva, negativa
          positivo, negativo, positivo, negativo, positivo, negativo, positivo
          negative, positive, negative.

Sì, il modello precedente ha un'AUC di 0,5, non di 0,0.

La maggior parte dei modelli si trova a metà tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi e i negativi, quindi ha un'AUC compresa tra 0,5 e 1,0:

Una linea dei numeri con 6 esempi positivi e 6 esempi negativi.
          La sequenza di esempi è negativa, negativa, negativa, negativa,
          positivo, negativo, positivo, positivo, negativo, positivo,
          positivo.

L'AUC ignora qualsiasi valore impostato soglia di classificazione. Invece, l'AUC prende in considerazione tutte le possibili soglie di classificazione.

B

retropropagazione dell'errore

#fundamentals

L'algoritmo che implementa discesa del gradiente in reti neurali.

L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:

  1. Durante il passaggio in avanti, il sistema elabora un batch di esempi per ottenere previsioni. Il sistema confronta ogni la previsione per ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite per tutti gli esempi per calcolare il totale per il batch corrente.
  2. Durante il passaggio a ritroso (retropropagazione dell'errore), il sistema riduce la perdita regolando le ponderazioni di tutti i neuroni in tutte le strati nascosti.

Le reti neurali spesso contengono molti neuroni in molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione dell'errore determina se aumentare o diminuire le ponderazioni applicati a particolari neuroni.

Il tasso di apprendimento è un moltiplicatore che controlla il grado in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenta o diminuisce ogni peso di più di una un tasso di apprendimento ridotto.

In termini di calcolo, la retropropagazione implementa la regola della catena. dal calcolo. Ciò significa che la retropropagazione dell'errore calcola derivata parziale dell'errore con rispetto a ogni parametro.

Anni fa, i professionisti del ML dovevano scrivere codice per implementare la retropropagazione dell'errore. Le API ML moderne come TensorFlow ora implementano la retropropagazione dell'errore per te. Finalmente.

batch

#fundamentals

L'insieme di esempi utilizzati in un addestramento iterazione. La dimensione del batch determina il numero di esempi in un batch.

Consulta la sezione epoch per una spiegazione della relazione tra un batch e l'altro un'epoca.

dimensione del batch

#fundamentals

Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.

Di seguito sono riportate alcune strategie molto comuni per la dimensione dei batch:

  • Stochastic Gradient Descent (SGD), con dimensione del batch pari a 1.
  • Batch completo, in cui la dimensione del batch corrisponde al numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch sarà un milione esempi. Generalmente, l'intero batch è una strategia inefficiente.
  • mini-batch in cui la dimensione del batch di solito è compresa 10 e 1000. Il mini-batch è in genere la strategia più efficiente.

pregiudizi (etica/equità)

#fairness
#fundamentals

1. Stereotipi, pregiudizi o pregiudizi nei confronti di alcune cose, persone o gruppi rispetto ad altri. Questi pregiudizi possono influenzare la raccolta interpretazione dei dati, la progettazione di un sistema e il modo in cui gli utenti interagiscono con un sistema. Le forme di questo tipo di bias includono:

2. Errore sistematico introdotto da una procedura di campionamento o di reporting. Le forme di questo tipo di bias includono:

Da non confondere con il termine di bias nei modelli di machine learning o bias di previsione.

bias (matematico) o termine bias

#fundamentals

Un'intercetta o un offset da un'origine. Il bias è un parametro di machine learning, che è simboleggiato da uno dei seguenti:

  • B
  • s0

Ad esempio, la parzialità è la b nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In una semplice linea bidimensionale, il bias significa semplicemente "intercetta y". Ad esempio, la parzialità della linea nell'illustrazione seguente è 2.

Traccia di una retta con pendenza pari a 0,5 e bias (intercetta y) pari a 2.

Il bias esiste perché non tutti i modelli partono dall'origine (0,0). Ad esempio: supponiamo che l'ingresso a un parco divertimenti costi 2 euro e una 0,5 € per ogni ora di soggiorno del cliente. Di conseguenza, un modello che mappa il costo totale è di 2 perché il costo più basso è di 2 euro.

I pregiudizi non devono essere confusi con i pregiudizi etici e corretti o bias di previsione.

classificazione binaria

#fundamentals

Un tipo di attività di classificazione che prevede una delle due classi che si escludono a vicenda:

Ad esempio, ognuno dei due modelli di machine learning seguenti per la classificazione binaria:

  • Un modello che determina se i messaggi email vengono spam (classe positiva) o non spam (classe esclusa).
  • Un modello che valuta i sintomi medici per determinare se una persona ha una particolare malattia (la classe positiva) o non ha questa patologia malattia (la classe negativa).

Confrontare con la classificazione multi-classe.

Vedi anche regressione logistica e soglia di classificazione.

il bucketing

#fundamentals

Conversione di una singola caratteristica in più caratteristiche binarie chiamati bucket o bin, di solito in base a un intervallo di valori. La caratteristica suddivisa è in genere una funzionalità continua.

Ad esempio, invece di rappresentare la temperatura come un singolo funzione rappresentazione in virgola mobile continua, potresti tagliare intervalli di temperature in bucket discreti come:

  • <= 10 gradi Celsius corrisponde alla temperatura "freddo" di sincronizzare la directory di una VM con un bucket.
  • 11-24 gradi Celsius sarebbe la temperatura "temperata" di sincronizzare la directory di una VM con un bucket.
  • >= 25 gradi Celsius è la temperatura "calda" di sincronizzare la directory di una VM con un bucket.

Il modello tratterà in modo identico tutti i valori nello stesso bucket. Per Ad esempio, i valori 13 e 22 si trovano entrambi nel bucket temperato, quindi tratta i due valori in modo identico.

C

dati categorici

#fundamentals

Caratteristiche con un insieme specifico di valori possibili. Ad esempio: prendi in considerazione una caratteristica categorica denominata traffic-light-state, che può solo avere uno dei seguenti tre valori possibili:

  • red
  • yellow
  • green

Rappresentando traffic-light-state come caratteristica categorica, un modello può apprendere impatti diversi di red, green e yellow sul comportamento del conducente.

Le caratteristiche categoriche vengono a volte chiamate caratteristiche discrete.

Confrontare con i dati numerici.

classe

#fundamentals

Una categoria a cui può appartenere un'etichetta. Ad esempio:

  • In un modello di classificazione binaria che rileva spam, le due classi potrebbero essere spam e non spam.
  • In un modello di classificazione multi-classe che identificano le razze canine, le classi possono essere barboncini, beagle, carlini, e così via.

Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero piuttosto che una classe.

modello di classificazione

#fundamentals

Un modello la cui previsione è una classe. Ad esempio, di seguito sono riportati tutti i modelli di classificazione:

  • Un modello che prevede la lingua di una frase di input (francese? Spagnolo? l'italiano?).
  • Un modello che prevede le specie di alberi (Maple? Quercia? Baobab?).
  • Un modello che prevede la classe positiva o negativa per una particolare condizione medica.

Al contrario, i modelli di regressione prevedono i numeri anziché in classi.

Due tipi comuni di modelli di classificazione sono:

soglia di classificazione

#fundamentals

In una classificazione binaria, una numero compreso tra 0 e 1 che converte l'output non elaborato di un Modello di regressione logistica in una previsione della classe positiva o la classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non è un valore scelto dall'addestramento del modello.

Un modello di regressione logistica restituisce un valore non elaborato compreso tra 0 e 1. Quindi:

  • Se questo valore non elaborato è superiore alla soglia di classificazione, viene prevista la classe positiva.
  • Se questo valore non elaborato è inferiore alla soglia di classificazione, viene prevista la classe negativa.

Ad esempio, supponiamo che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.

La scelta della soglia di classificazione influenza fortemente il numero di falsi positivi e falsi negativi.

set di dati class-imbalanced

#fundamentals

Un set di dati per un problema di classificazione in cui il numero totale delle etichette di ogni classe differisce in modo significativo. Considera ad esempio un set di dati di classificazione binaria le cui etichette sono suddivise come segue:

  • 1.000.000 di etichette negative
  • 10 etichette positive

Il rapporto tra etichette negative e positive è 100.000 a 1, quindi questo è un set di dati di tipo sbilanciato delle classi.

Al contrario, il seguente set di dati non è di tipo sbilanciato a livello di classe perché il rapporto tra etichette negative ed etichette positive è relativamente vicino a 1:

  • 517 etichette escluse
  • 483 etichette positive

I set di dati multiclasse possono anche essere sbilanciati di classe. Ad esempio, il set di dati di classificazione multiclasse è anch'esso sbilanciato dalle classi perché un'etichetta contiene molti più esempi rispetto agli altri due:

  • 1.000.000 di etichette con la classe "verde"
  • 200 etichette con la classe "viola"
  • 350 etichette con la classe "arancione"

Vedi anche entropia, classe di maggioranza, e classe di minoranza.

ritaglio

#fundamentals

Una tecnica per gestire gli outlier mediante una o entrambe le seguenti opzioni:

  • Ridurre i valori di feature superiori a un valore massimo fino alla soglia massima.
  • Aumento dei valori delle caratteristiche che sono inferiori a una soglia minima fino a quel momento una soglia minima.

Ad esempio, supponiamo che <0,5% dei valori di una particolare caratteristica rientri al di fuori dell'intervallo 40-60. In questo caso, potresti procedere nel seguente modo:

  • Ritaglia tutti i valori superiori a 60 (la soglia massima) in modo che siano esattamente 60.
  • Ritaglia tutti i valori inferiori a 40 (la soglia minima) in modo che siano esattamente 40.

I valori anomali possono danneggiare i modelli, a volte causando ponderazioni durante l'addestramento. Alcuni outlier possono anche danneggiare significativamente come la accuratezza. Il ritaglio è una tecnica comune per limitare il danno.

Forze taglio della sfumatura valori di gradiente entro un intervallo designato durante l'addestramento.

matrice di confusione

#fundamentals

Tabella NxN che riassume il numero di previsioni corrette ed errate creato da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per di classificazione binaria:

Tumore (previsto) Nessun tumore (previsto)
Tumore (dati empirici reali) 18 (VP) 1 (FN)
Non tumori (dati empirici reali) 6 (FP) 452 (VN)

La matrice di confusione precedente mostra quanto segue:

  • Delle 19 previsioni in cui i dati empirici reali riguardavano Tumor, il modello è classificato correttamente 18 e classificato in modo errato 1.
  • Delle 458 previsioni in cui i dati di fatto erano non tumori, il modello la classificazione 452 e la classificazione errata 6.

La matrice di confusione per una classificazione multiclasse problema può aiutarti a identificare schemi di errori. Considera ad esempio la seguente matrice di confusione per un modello a 3 classi modello di classificazione multiclasse che classifica tre diversi tipi di iris (Virginica, Versicolor e Setosa). Quando la verità di fondo fu Virginica, la matrice di confusione mostra che il modello era molto più propenso a generare prevedere Versicolor anziché Setosa:

  Setosa (previsto) Versicolor (previsto) Virginica (previsto)
Setosa (dati empirici reali) 88 12 0
Versicolor (dati empirici reali) 6 141 7
Virginica (dati empirici reali) 2 27 109

Un altro esempio è che una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere le cifre scritte a mano libera tende a prevedere erroneamente 9 anziché 4, o prevedere erroneamente 1 invece di 7.

Le matrici di confusione contengono informazioni sufficienti per calcolare una serie di metriche delle prestazioni, tra cui la precisione e richiamo.

funzionalità continua

#fundamentals

Una caratteristica in virgola mobile con una gamma infinita di possibili come temperatura o peso.

Contrasta con funzionalità discrete.

convergenza

#fundamentals

Uno stato raggiunto quando i valori di perdita cambiano molto poco o del tutto a ogni iterazione. Ad esempio, La curva di perdita suggerisce la convergenza a circa 700 iterazioni:

grafico cartesiano. L&#39;asse X è in perdita. L&#39;asse Y è il numero di addestramento
          di Google Cloud. La perdita è molto elevata nelle prime iterazioni, ma
          cala drasticamente. Dopo circa 100 iterazioni, la perdita è ancora
          in discesa, ma molto più gradualmente. Dopo circa 700 iterazioni,
          la perdita rimane piatta.

Un modello converge quando non serve addestramento aggiuntivo migliorare il modello.

Nel deep learning, i valori di perdita a volte rimangono costanti o quasi per molte iterazioni, prima di scendere. Per un lungo periodo di valori di perdita costante, potresti avere temporaneamente un falso senso di convergenza.

Vedi anche interruzione anticipata.

D

DataFrame

#fundamentals

Un tipo di dati panda molto diffuso per la rappresentazione set di dati in memoria.

Un DataFrame è analogo a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.

Ogni colonna di un DataFrame è strutturata come un array 2D, ad eccezione del fatto che a ciascuna colonna può essere assegnato un proprio tipo di dati.

Vedi anche i link ufficiali Riferimento pandas.DataFrame alla pagina di destinazione.

set di dati o set di dati

#fundamentals

Una raccolta di dati non elaborati, comunemente (ma non esclusivamente) organizzati in un dei seguenti formati:

  • un foglio di lavoro
  • un file in formato CSV (valori separati da virgola)

modello di analisi approfondita

#fundamentals

Una rete neurale contenente più di una strato nascosto.

Un modello profondo è anche chiamato rete neurale profonda.

Contrasta con il modello largo.

caratteristica densa

#fundamentals

Una caratteristica in cui la maggior parte o tutti i valori sono diversi da zero, in genere un Tensor di valori in virgola mobile. Ad esempio, Il Tensor a 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:

8 3 7 5 2 4 0 4 9 6

Contrasta la caratteristica sparsa.

profondità

#fundamentals

La somma di quanto segue in una rete neurale:

Ad esempio, una rete neurale con cinque strati nascosti e uno di output ha una profondità di 6.

Nota che il livello di input non influenza in profondità.

caratteristica discreta

#fundamentals

Una caratteristica con un insieme finito di valori possibili. Ad esempio: una caratteristica i cui valori possono essere solo animal, vegetable o mineral è un caratteristica discreta (o categorica).

Contrasta la funzionalità continua.

dinamico

#fundamentals

Operazione frequente o continuativa. I termini dinamico e online sono sinonimi nel machine learning. Di seguito sono riportati gli utilizzi comuni di dinamico e online nelle macchine apprendimento:

  • Un modello dinamico (o modello online) è un modello che viene riaddestrato di frequente o di continuo.
  • L'addestramento dinamico (o formazione online) è il processo di addestramento frequentemente o continuativamente.
  • L'inferenza dinamica (o inferenza online) è il processo di per generare previsioni on demand.

modello dinamico

#fundamentals

Un modello che è frequente (forse anche continuamente) riaddestrato. Un modello dinamico impara tutta la vita che si adatta costantemente ai dati in continua evoluzione. Un modello dinamico è anche noto come modello online.

Contrasta il modello statico.

E

interruzione anticipata

#fundamentals

Un metodo di regolarizzazione che prevede la fine addestramento prima della fine della perdita dell'addestramento in diminuzione. Con l'interruzione anticipata, interrompi intenzionalmente l'addestramento del modello quando la perdita su un set di dati di convalida inizia increase; cioè quando le prestazioni di generalizzazione peggiorano.

strato di incorporamento

#language
#fundamentals

Uno speciale strato nascosto che viene addestrato su una caratteristica categorica ad alta dimensionalità per apprenderanno gradualmente un vettore di incorporamento di dimensione inferiore. Un consente a una rete neurale di addestrare molto in modo efficiente rispetto all'addestramento della caratteristica categorica ad alta dimensionalità.

Ad esempio, al momento Earth supporta circa 73.000 specie di alberi. Supponiamo che specie di albero è una caratteristica nel modello, quindi la classe strato di input include un vettore one-hot 73.000 elementi. Ad esempio, baobab potrebbe essere rappresentato in modo simile a questo:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore
     0. L&#39;elemento successivo contiene il valore 1. Gli ultimi 66.767 elementi contengono
     il valore zero.

Un array di 73.000 elementi è molto lungo. Se non aggiungi uno strato di incorporamento al modello, l'addestramento richiederà molto tempo a causa moltiplicando 72.999 zeri. Forse scegli lo strato di incorporamento da consistere di 12 dimensioni. Di conseguenza, lo strato di incorporamento apprenderà gradualmente un nuovo vettore di incorporamento per ogni specie di albero.

In alcune situazioni, l'hashing è un'alternativa ragionevole in uno strato di incorporamento.

periodo

#fundamentals

Un pass completo per l'addestramento dell'intero set di formazione in modo che ogni esempio venga elaborato una sola volta.

Un'epoca rappresenta N/dimensione del batch iterazioni dell'addestramento, dove N è numero totale di esempi.

Supponiamo, ad esempio, che:

  • Il set di dati è composto da 1000 esempi.
  • La dimensione del batch è di 50 esempi.

Pertanto, una singola epoca richiede 20 iterazioni:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

esempio

#fundamentals

I valori di una riga di features ed eventualmente un'etichetta. Esempi in L'apprendimento supervisionato si suddividono in due categorie generali:

  • Un esempio con etichetta è costituito da una o più caratteristiche e un'etichetta. Durante l'addestramento vengono usati esempi etichettati.
  • Un esempio senza etichetta è costituito da uno o più funzionalità, ma senza etichette. Durante l'inferenza vengono utilizzati esempi non etichettati.

Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteo nei punteggi dei test degli studenti. Ecco tre esempi etichettati:

Funzionalità Etichetta
Temperatura Umidità Pressione Punteggio del test
15 47 998 Buono
19 34 1020 Eccellente
18 92 1012 Scadente

Ecco tre esempi senza etichetta:

Temperatura Umidità Pressione  
12 62 1014  
21 47 1017  
19 41 1021  

La riga di un set di dati è in genere l'origine non elaborata di un esempio. Ciò significa che un esempio è generalmente costituito da un sottoinsieme di colonne del set di dati. Inoltre, le funzionalità di un esempio possono includere anche caratteristiche sintetiche, come incroci di caratteristiche.

F

falso negativo (FN)

#fundamentals

Esempio in cui il modello prevede erroneamente classe negativa. Ad esempio, il modello prevede che un determinato messaggio email non è spam (la classe negative), ma in realtà quel messaggio email è spam.

falso positivo (FP)

#fundamentals

Esempio in cui il modello prevede erroneamente classe positiva. Ad esempio, il modello prevede che un particolare messaggio email è spam (la classe positiva), ma che un messaggio email in realtà non è spam.

tasso di falsi positivi (FPR)

#fundamentals

La proporzione di esempi negativi effettivi per cui il modello ha erroneamente ha previsto la classe positiva. La seguente formula calcola il falso tasso positivo:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Il tasso di falsi positivi è l'asse x in una curva ROC.

caratteristica

#fundamentals

Una variabile di input a un modello di machine learning. Un esempio è costituito da una o più caratteristiche. Ad esempio, supponiamo che tu stia addestrando modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. La tabella seguente mostra tre esempi, ognuno dei quali contiene tre caratteristiche e un'etichetta:

Funzionalità Etichetta
Temperatura Umidità Pressione Punteggio del test
15 47 998 92
19 34 1020 84
18 92 1012 87

Contrasta con label.

incrocio di caratteristiche

#fundamentals

Una caratteristica sintetica formata da "attraversamento" Caratteristiche categoriche o in bucket.

Ad esempio, considera le "previsioni del tuo stato d'animo" modello che rappresenta della temperatura in uno dei seguenti quattro bucket:

  • freezing
  • chilly
  • temperate
  • warm

e rappresenta la velocità del vento in uno dei seguenti tre bucket:

  • still
  • light
  • windy

Senza incroci di caratteristiche, il modello lineare si addestra in modo indipendente su ciascuno prima di sette diversi bucket. Il modello viene addestrato, ad esempio, freezing indipendentemente dall'addestramento, ad esempio windy.

In alternativa, potresti creare un incrocio di caratteristiche di temperatura e velocità del vento. Questa funzionalità sintetica avrebbe le seguenti 12 possibili valori:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Grazie agli incroci di caratteristiche, il modello può apprendere le differenze di umore tra freezing-windy giorno e freezing-still giorno.

Se crei una caratteristica sintetica partendo da due caratteristiche con molte in diversi bucket, l'incrocio di caratteristiche risultante avrà un numero enorme delle possibili combinazioni. Ad esempio, se una caratteristica ha 1000 bucket l'altra caratteristica ha 2.000 bucket, l'incrocio di caratteristiche risultante ha 2.000.000 bucket.

Formalmente, una croce è una Prodotto cartesiano.

Gli incroci di caratteristiche vengono utilizzati principalmente con i modelli lineari e vengono utilizzati raramente con le reti neurali.

e applicazione del feature engineering.

#fundamentals
#TensorFlow

Un processo che prevede le seguenti fasi:

  1. Determinare quali funzionalità potrebbero essere utili durante l'addestramento di un modello.
  2. Conversione dei dati non elaborati dal set di dati in versioni efficienti queste funzionalità.

Ad esempio, potresti determinare che temperature potrebbe essere un utile funzionalità. In seguito, puoi eseguire un esperimento con il bucket. per ottimizzare ciò che il modello può apprendere dai diversi intervalli temperature.

Il feature engineering è a volte chiamato l'estrazione delle caratteristiche o funzionalità.

insieme di caratteristiche

#fundamentals

Il gruppo di caratteristiche del tuo machine learning Viene eseguito l'addestramento di model. Ad esempio, codice postale, dimensioni e condizioni della proprietà potrebbero costituiscono un semplice set di caratteristiche per un modello che prevede i prezzi delle abitazioni.

vettore di caratteristiche

#fundamentals

L'array di valori feature che comprende un esempio. Il vettore di caratteristiche viene inserito durante addestramento e durante l'inferenza. Ad esempio, il vettore di caratteristiche per un modello con due caratteristiche discrete potrebbe essere:

[0.92, 0.56]

Quattro livelli: uno di input, due nascosti e uno di output.
          Il livello di input contiene due nodi, uno contenente il valore
          0,92 e l&#39;altra contenente il valore 0,56.

Ogni esempio fornisce valori diversi per il vettore di caratteristiche, quindi il il vettore di caratteristiche per il prossimo esempio potrebbe essere qualcosa del genere:

[0.73, 0.49]

Il feature engineering determina come rappresentare caratteristiche nel vettore di caratteristiche. Ad esempio, una caratteristica binaria categorica con possono essere rappresentati cinque valori codifica one-hot. In questo caso, la parte il vettore di caratteristiche per un particolare esempio è costituito da quattro zeri e un singolo 1.0 nella terza posizione, come segue:

[0.0, 0.0, 1.0, 0.0, 0.0]

Come ulteriore esempio, supponiamo che il tuo modello abbia tre caratteristiche:

  • una caratteristica categorica binaria con cinque possibili valori rappresentati con codifica one-hot; ad esempio: [0.0, 1.0, 0.0, 0.0, 0.0]
  • un'altra caratteristica categorica binaria con tre valori possibili rappresentati con codifica one-hot; ad esempio: [0.0, 0.0, 1.0]
  • una caratteristica con rappresentazione in virgola mobile; ad esempio: 8.3.

In questo caso, il vettore di caratteristiche per ogni esempio sarebbe rappresentato per nove valori. Dati i valori di esempio nell'elenco precedente, il valore il vettore di caratteristiche sarebbe:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ciclo di feedback

#fundamentals

Nel machine learning, si tratta di una situazione in cui le previsioni di un modello influenzano di addestramento per lo stesso modello o per un altro. Ad esempio, un modello consiglia film influenzerà i film visti dalle persone, il che a sua volta influenzare i modelli successivi di consigli per i film.

G

generalizzazione

#fundamentals

La capacità di un modello di fare previsioni corrette su nuovi, di dati non visti in precedenza. Un modello in grado di generalizzare è l'opposto di un modello in caso di overfitting.

curva di generalizzazione

#fundamentals

Un grafico sia della perdita di addestramento che perdita di convalida in funzione del numero di iterazioni.

Una curva di generalizzazione può aiutarti a rilevare possibili overfitting. Ad esempio, la curva di generalizzazione suggerisce l'overfitting, poiché la perdita di convalida diventa significativamente più alto della perdita dell'addestramento.

Un grafico cartesiano in cui l&#39;asse y è etichettato come la perdita e l&#39;asse x
          è etichettato come iterazioni. Vengono visualizzati due grafici. Un grafico mostra
          la perdita di addestramento e l&#39;altra mostra la perdita di convalida.
          I due grafici iniziano in modo simile, ma alla fine la perdita di addestramento
          di molto inferiori a quello della perdita di convalida.

discesa del gradiente

#fundamentals

Una tecnica matematica per ridurre al minimo la perdita. La discesa del gradiente si regola in modo iterativo ponderazioni e pregiudizi, trovare gradualmente la combinazione migliore per ridurre al minimo la perdita.

La discesa del gradiente è più vecchia, molto più vecchia del machine learning.

dato di fatto

#fundamentals

Realtà.

Ciò che è effettivamente successo.

Ad esempio, considera una classificazione binaria modello che prevede se uno studente al primo anno di università si laurea entro sei anni. I dati di fatto per questo modello sono se che lo studente si sia effettivamente laureato nel giro di sei anni.

H

strato nascosto

#fundamentals

Uno strato di una rete neurale tra livello di input (le caratteristiche) e il strato di output (la previsione). Ogni strato nascosto è costituito da uno o più neuroni. Ad esempio, la seguente rete neurale contiene due strati nascosti, la prima con tre neuroni e la seconda con due neuroni:

Quattro livelli. Il primo strato è uno strato di input contenente
          le funzionalità di machine learning. Il secondo è uno strato nascosto contenente
          neuroni. Il terzo è uno strato nascosto
          neuroni. Il quarto livello è uno strato di output. Ogni caratteristica
          contiene tre lati, ognuno dei quali punta a un diverso neurone
          nel secondo livello. Ciascuno dei neuroni del secondo strato
          contiene due lati, ognuno dei quali punta a un diverso neurone
          nel terzo livello. Ciascuno dei neuroni del terzo strato contiene
          su un bordo, ognuno dei quali punta al livello di output.

Una rete neurale profonda contiene più di una strato nascosto. Ad esempio, l'illustrazione precedente mostra una rete neurale profonda perché il modello contiene due strati nascosti.

iperparametro

#fundamentals

Le variabili che tu o un servizio di ottimizzazione degli iperparametri regolare durante esecuzioni successive di addestramento di un modello. Ad esempio: Il tasso di apprendimento è un iperparametro. Potresti e impostare il tasso di apprendimento a 0,01 prima di una sessione di addestramento. Se determinare che 0,01 è troppo alto, potresti forse impostare a 0,003 per la prossima sessione di addestramento.

Al contrario, i parametri sono i vari ponderazioni e pregiudizi che il modello imparare durante l'addestramento.

I

in modo indipendente e distribuito in modo identico (i.i.d)

#fundamentals

Dati estratti da una distribuzione che non cambia e in cui ogni valore non dipendono dai valori tracciati in precedenza. Un i.i.d. è il gas ideale della macchina dell'apprendimento: un costrutto matematico utile ma quasi mai trovato esattamente nel mondo reale. Ad esempio, la distribuzione dei visitatori di una pagina web può essere i.i.d. in un breve arco di tempo: cioè la distribuzione non durante questo breve periodo e la visita di una persona solitamente indipendenti dalla visita di un'altra. Tuttavia, se espandi la finestra di tempo, potrebbero apparire differenze stagionali nei visitatori della pagina web.

Vedi anche nonstationarity.

inferenza

#fundamentals

Nel machine learning, il processo di elaborazione di previsioni applicando un modello addestrato a esempi senza etichetta.

L'inferenza ha un significato leggermente diverso in statistica. Consulta le Articolo di Wikipedia sull'inferenza statistica per maggiori dettagli.

livello di input

#fundamentals

Il livello di una rete neurale che contiene il vettore di caratteristiche. Vale a dire, lo strato di input fornisce esempi di addestramento inferenza. Ad esempio, il livello di input nel seguente la rete neurale è composta da due funzionalità:

Quattro livelli: uno di input, due nascosti e uno di output.

interpretabilità

#fundamentals

La capacità di spiegare o presentare il ragionamento di un modello ML in comprensibili per un essere umano.

La maggior parte dei modelli di regressione lineare, ad esempio, ha una capacità elevata interpretabili. (devi solo esaminare i pesi addestrati per ogni feature.) Anche le foreste di decisioni sono altamente interpretabili. Alcuni modelli, tuttavia, richiedono una visualizzazione sofisticata per diventare interpretabili.

Puoi utilizzare lo Strumento di interpretabilità dell'apprendimento (LIT) per interpretare i modelli di ML.

iterazione

#fundamentals

Un singolo aggiornamento dei parametri di un modello, ponderazioni e pregiudizi: durante formazione. La dimensione del batch determina il numero di esempi elaborati dal modello in una singola iterazione. Ad esempio, se la dimensione del batch è 20, il modello elabora 20 esempi prima regolare i parametri.

Durante l'addestramento di una rete neurale, una singola iterazione prevede le seguenti due tessere:

  1. Un passaggio in avanti per valutare la perdita su un singolo batch.
  2. Un passaggio all'indietro (retropropagazione) per regolare i parametri del modello in base alla perdita e al tasso di apprendimento.

L

Regolarizzazione L0

#fundamentals

Un tipo di regolarizzazione che penalizza il numero totale di ponderazioni diverse da zero in un modello. Ad esempio, un modello con 11 pesi diversi da zero sarebbe penalizzato più di un modello simile con 10 pesi diversi da zero.

La regolarizzazione L0 viene a volte chiamata regolarizzazione secondo la norma L0.

Perdita L1

#fundamentals

Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi di etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L1 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Valore assoluto del delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 perdita

La perdita L1 è meno sensibile agli outlier rispetto alla perdita di L2.

L'errore medio assoluto è la media Perdita di 1 per esempio.

Regolarizzazione L1

#fundamentals

Un tipo di regolarizzazione che penalizza ponderazioni in proporzione alla somma del valore assoluto di i pesi. La regolarizzazione L1 aiuta a gestire la ponderazione di elementi o funzionalità appena pertinenti su 0. Una caratteristica con una ponderazione pari a 0 viene effettivamente rimossa dal modello.

Confrontare con la regolarizzazione L2.

Perdita L2

#fundamentals

Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi di etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L2 per un batch di cinque esempi:

Valore effettivo dell'esempio Valore previsto del modello Quadrato del delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perdita L2

A causa del quadrato, la perdita L2 amplifica l'influenza del outlier: Vale a dire che la perdita L2 reagisce più fortemente a previsioni errate rispetto a perdita di L1. Ad esempio, la perdita L1 per il batch precedente sarebbe 8 anziché 16. Nota che una singola i valori anomali rappresentano 9 dei 16.

I modelli di regressione in genere usano la perdita L2 come funzione di perdita.

L'errore quadratico medio è il valore medio Perdita di 2 per esempio. Perdita al quadrato è un altro nome per la perdita L2.

Regolarizzazione L2

#fundamentals

Un tipo di regolarizzazione che penalizza ponderazioni in proporzione alla somma dei quadrati dei pesi. La regolarizzazione L2 aiuta a generare ponderazioni outlier (ovvero con valori positivi o negativi bassi) più vicini a 0 ma non proprio a 0. Le caratteristiche con valori molto vicini a 0 rimangono nel modello ma non influiscono molto sulla previsione del modello.

La regolarizzazione L2 migliora sempre la generalizzazione nelle modelli lineari.

Confrontare con la regolarizzazione L1.

etichetta

#fundamentals

Nel machine learning supervisionato, "risposta" o "risultato" di un esempio.

Ogni esempio con etichetta è costituito da uno o più features e a un'etichetta. Ad esempio, in uno spam di rilevamento, l'etichetta sarà probabilmente "spam" o "non spam." In un set di dati sulle precipitazioni, l'etichetta potrebbe essere la quantità pioggia caduta in un determinato periodo.

esempio etichettato

#fundamentals

Un esempio contenente una o più caratteristiche e una etichetta. Ad esempio, la tabella seguente mostra tre esempi etichettati da un modello di valutazione delle case, ciascuno con tre caratteristiche e un'etichetta:

Numero di camere Numero di bagni Età della casa Prezzo casa (etichetta)
3 2 15 345.000 $
2 1 72 179.000 $
4 2 34 392.000 $

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni esempi senza etichetta.

Confronta l'esempio etichettato con gli esempi senza etichetta.

Lambda

#fundamentals

Sinonimo di tasso di regolarizzazione.

Lambda è un termine sovraccarico. In questo caso ci concentriamo sul definizione all'interno della regolarizzazione.

livello

#fundamentals

Un insieme di neuroni in una rete neurale. Tre tipi comuni di strati sono i seguenti:

Ad esempio, l'illustrazione seguente mostra una rete neurale con uno di input, due nascosti e uno di output:

Una rete neurale con uno strato di input, due strati nascosti e uno
          livello di output. Il livello di input è costituito da due caratteristiche. Il primo
          è composto da tre neuroni e il secondo strato nascosto
          è composto da due neuroni. Il livello di output è costituito da un singolo nodo.

In TensorFlow, anche i livelli sono funzioni Python che prendono Tensori e opzioni di configurazione come input e produrre altri tensori come output.

tasso di apprendimento

#fundamentals

Un numero in virgola mobile che indica la discesa del gradiente all'algoritmo la forza di regolare le ponderazioni e i bias su iterazione. Ad esempio, un tasso di apprendimento pari a 0,3 bilanciare ponderazioni e bias in modo tre volte più efficace rispetto a un tasso di apprendimento pari a 0,1.

Il tasso di apprendimento è un iperparametro fondamentale. Se imposti il tasso di apprendimento è troppo basso, l'addestramento richiederà troppo tempo. Se imposti un tasso di apprendimento troppo alto, la discesa del gradiente spesso presenta raggiungendo la convergenza.

lineare

#fundamentals

Una relazione tra due o più variabili che possono essere rappresentate esclusivamente mediante addizioni e moltiplicazioni.

Il diagramma di una relazione lineare è una linea.

Contrasta con nonlinear.

modello lineare

#fundamentals

Un modello che assegna un peso per feature per fare previsioni. I modelli lineari incorporano anche un bias. Al contrario, la relazione delle caratteristiche con le previsioni nei modelli diretti è generalmente nonlinear.

I modelli lineari sono in genere più facili da addestrare e interpretabili dei modelli deep. Tuttavia, I modelli profondi possono apprendere relazioni complesse tra le caratteristiche.

Regressione lineare e La regressione logistica sono due tipi di modelli lineari.

regressione lineare

#fundamentals

Un tipo di modello di machine learning in cui si verificano entrambe le seguenti condizioni:

  • Il modello è un modello lineare.
  • La previsione è un valore in virgola mobile. (Questo è il regressione parte della regressione lineare).

Confrontare la regressione lineare con la regressione logistica. Inoltre, metti a confronto la regressione con la classificazione.

regressione logistica

#fundamentals

Un tipo di modello di regressione che prevede una probabilità. I modelli di regressione logistica hanno le seguenti caratteristiche:

  • L'etichetta è categorica. Il termine logistica La regressione di solito si riferisce alla regressione logistica binaria, in base a un modello che calcola le probabilità per le etichette con due valori possibili. Una variante meno comune, la regressione logistica multinomiale, calcola probabilità di etichette con più di due valori possibili.
  • La funzione di perdita durante l'addestramento è perdita logaritmica. (È possibile posizionare più unità di perdita di log in parallelo per le etichette) con più di due valori possibili).
  • Il modello ha un'architettura lineare, non una rete neurale profonda. Tuttavia, il resto di questa definizione si applica anche modelli profondi che prevedono le probabilità per le etichette categoriche.

Ad esempio, considera un modello di regressione logistica che calcola il la probabilità che un'email di input sia spam o non spam. Durante l'inferenza, supponiamo che il modello preveda 0,72. Pertanto, stima:

  • 72% di probabilità che l'email sia spam.
  • 28% di probabilità che l'email non sia spam.

Un modello di regressione logistica utilizza la seguente architettura in due fasi:

  1. Il modello genera una previsione non elaborata (y') applicando una funzione lineare di caratteristiche di input.
  2. Il modello utilizza questa previsione non elaborata come input per un funzione sigmoidale, che converte i dati non elaborati la previsione in un valore compreso tra 0 e 1, esclusi.

Come ogni modello di regressione, anche quello logistica prevede un numero. Tuttavia, questo numero in genere diventa parte di una classificazione binaria modello come segue:

  • Se il numero previsto è maggiore del valore soglia di classificazione, il modello di classificazione binaria prevede la classe positiva.
  • Se il numero previsto è inferiore alla soglia di classificazione, il modello di classificazione binaria prevede la classe negativa.

Log Loss

#fundamentals

La funzione di perdita utilizzata in file binario regressione logistica.

log-odd

#fundamentals

Il logaritmo delle probabilità di un evento.

perdita

#fundamentals

Durante l'addestramento di un modello supervisionato, una misura di quanto la previsione del modello proviene dalla sua etichetta.

Una funzione di perdita calcola la perdita.

curva di perdita

#fundamentals

Un grafico della perdita in funzione del numero di addestramento iterazioni. Il grafico seguente mostra una perdita tipica curva:

Un grafico cartesiano delle iterazioni di perdita e addestramento, che mostra una
          un rapido calo della perdita per le iterazioni iniziali, seguite da una graduale
          e poi una pendenza piatta durante le iterazioni finali.

Le curve di perdita possono aiutarti a determinare quando il modello convergente o overfitting.

Le curve di perdita possono tracciare tutti i seguenti tipi di perdita:

Vedi anche la curva di generalizzazione.

funzione di perdita

#fundamentals

Durante l'addestramento o il test, funzione matematica che calcola su un batch di esempi. Una funzione di perdita restituisce una perdita minore per i modelli che fanno buone previsioni piuttosto che per i modelli che generano previsioni errate.

L'obiettivo dell'addestramento è in genere minimizzare la perdita che una funzione di perdita i resi.

Esistono molti tipi diversi di funzioni di perdita. Scegli la perdita appropriata per il tipo di modello che stai creando. Ad esempio:

M

machine learning

#fundamentals

Un programma o sistema che addestra una model dai dati di input. Il modello addestrato può fare previsioni utili sulla base di nuovi (mai visti) dati ricavati la stessa distribuzione di quella usata per addestrare il modello.

Il machine learning si riferisce anche all'ambito di studio con questi programmi o sistemi.

classe di maggioranza

#fundamentals

L'etichetta più comune set di dati classe-imbalanced. Ad esempio: dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette negative costituiscono la classe maggioritaria.

Contrasta con classe di minoranza.

mini-batch

#fundamentals

Piccolo sottoinsieme selezionato in modo casuale di un batch elaborato in un iterazione. La dimensione del batch di un mini-batch è di solito tra 10 e 1000 esempi.

Supponi, ad esempio, l'intero set di addestramento (il batch completo) è composto da 1000 esempi. Supponiamo inoltre di impostare dimensione del batch di ogni mini-batch a 20. Pertanto, ogni l'iterazione determina la perdita su un 20 casuale dei 1.000 esempi regola le ponderazioni e facilità di conseguenza.

È molto più efficiente calcolare la perdita su un mini-batch rispetto alla per tutti gli esempi nel batch completo.

classe di minoranze

#fundamentals

L'etichetta meno comune in set di dati classe-imbalanced. Ad esempio: dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette positive appartengono alla minoranza.

Contrasta la classe di maggioranza.

modello

#fundamentals

In generale, qualsiasi costrutto matematico che elabora i dati di input e restituisce come output. Espresso in modo diverso, un modello è l'insieme di parametri e struttura necessaria a un sistema per fare previsioni. Nel machine learning supervisionato, un modello prende un esempio come input e deduce previsione come output. Nell'ambito del machine learning supervisionato, sono leggermente diversi. Ad esempio:

  • Un modello di regressione lineare è costituito da un insieme di ponderazioni e un pregiudizio.
  • Un modello di rete neurale è costituito da:
    • Un insieme di livelli nascosti, ciascuno contenente uno o più neuroni.
    • Le ponderazioni e i bias associati a ciascun neurone.
  • Un modello albero decisionale è costituito da:
    • La forma dell'albero; cioè il pattern in cui le condizioni e le foglie sono collegate.
    • Le condizioni e se ne va.

Puoi salvare, ripristinare o creare copie di un modello.

Inoltre, il machine learning non supervisionato genera modelli, solitamente una funzione in grado di mappare un esempio di input il cluster più appropriato.

classificazione multiclasse

#fundamentals

Nell'apprendimento supervisionato, un problema di classificazione in cui il set di dati contiene più di due classi di etichette. Ad esempio, le etichette nel set di dati Iris devono essere una delle seguenti tre classi:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

Un modello addestrato sul set di dati Iris che prevede il tipo Iris su nuovi esempi esegue la classificazione multiclasse.

Al contrario, i problemi di classificazione che distinguono esattamente due sono modelli di classificazione binaria. Ad esempio, un modello email che prevede spam o non spam è un modello di classificazione binaria.

Nei problemi di clustering, la classificazione multiclasse si riferisce a più di due cluster.

N

classe esclusa

#fundamentals

Nella classificazione binaria, una classe è viene definito positivo, mentre l'altro viene definito negativo. La classe positiva è l'elemento o l'evento su cui il modello sta eseguendo il test, mentre la classe negativa è un'altra possibilità. Ad esempio:

  • La classe negativa in un test medico potrebbe essere "non tumore".
  • La classe esclusa in un classificatore email potrebbe essere "non spam".

Contrasta con classe positiva.

feed-forward

#fundamentals

Un modello contenente almeno uno strato nascosto. Una rete neurale profonda è un tipo di rete neurale che contengono più di uno strato nascosto. Ad esempio, il seguente diagramma mostra una rete neurale profonda contenente due strati nascosti.

Una rete neurale con uno strato di input, due strati nascosti e
          livello di output.

Ogni neurone di una rete neurale si connette a tutti i nodi dello strato successivo. Ad esempio, nel diagramma precedente, nota che ciascuno dei tre neuroni nel primo strato nascosto si collegano separatamente a entrambi i due neuroni secondo strato nascosto.

Le reti neurali implementate sui computer sono a volte chiamate reti neurali artificiali per distinguerli dalle reti neurali del cervello e di altri sistemi nervosi.

Alcune reti neurali possono imitare relazioni non lineari estremamente complesse tra le diverse caratteristiche e l'etichetta.

Vedi anche rete neurale convoluzionale e rete neurale ricorrente.

neurone

#fundamentals

Nel machine learning, un'unità distinta all'interno di uno strato nascosto di una rete neurale. Ogni neurone esegue le seguenti operazioni in due passaggi:

  1. Calcola la somma ponderata dei valori di input moltiplicata in base ai pesi corrispondenti.
  2. Passa la somma ponderata come input a un funzione di attivazione.

Un neurone nel primo strato nascosto accetta input dai valori delle caratteristiche nel livello di input. Un neurone in qualsiasi strato nascosto oltre la prima accetta input dai neuroni dello strato nascosto precedente. Ad esempio, un neurone nel secondo strato nascosto accetta input dalla neuroni nel primo strato nascosto.

L'illustrazione seguente evidenzia due neuroni e i loro di input.

Una rete neurale con uno strato di input, due strati nascosti e
          livello di output. Sono evidenziati due neuroni: uno nel primo
          uno nel secondo strato nascosto. Gli elementi evidenziati
          il neurone del primo strato nascosto riceve input da entrambe le caratteristiche
          nel livello di input. Il neurone evidenziato nel secondo strato nascosto
          riceve input da ciascuno dei tre neuroni della prima istanza
          livello di sicurezza.

Un neurone in una rete neurale imita il comportamento dei neuroni nel cervello e altre parti del sistema nervoso.

nodo (rete neurale)

#fundamentals

Un neurone in uno strato nascosto.

nonlinear

#fundamentals

Una relazione tra due o più variabili che non possono essere rappresentate esclusivamente mediante addizioni e moltiplicazioni. Una relazione lineare può essere rappresentato come una linea; una relazione nonlinear non può essere rappresentato da una linea. Ad esempio, considera due modelli correlati una singola caratteristica a una singola etichetta. Il modello a sinistra è lineare mentre quello a destra non è lineare:

Due diagrammi. Un grafico è una linea, quindi questa è una relazione lineare.
          L&#39;altro grafico è una curva, quindi questa è una relazione non lineare.

non stazionarietà

#fundamentals

Una caratteristica i cui valori cambiano in una o più dimensioni, di solito nel tempo. Considera ad esempio i seguenti esempi di non stazionarietà:

  • Il numero di costumi da bagno venduti in un determinato negozio varia in base alla stagione.
  • La quantità di un particolare frutto raccolto in una determinata regione è pari a zero per gran parte dell'anno, ma elevato per un breve periodo.
  • A causa del cambiamento climatico, le temperature medie annuali stanno cambiando.

Contrasta la stationarità.

normalizzazione

#fundamentals

In termini generali, il processo di conversione dell'intervallo effettivo di una variabile di valori in un intervallo standard di valori, come ad esempio:

  • Da -1 a +1
  • Da 0 a 1
  • la normale distribuzione

Ad esempio, supponiamo che l'intervallo effettivo di valori di una determinata caratteristica sia Da 800 a 2400. Nell'ambito del feature engineering, puoi normalizzare i valori effettivi fino a un intervallo standard, da -1 a +1.

La normalizzazione è un'attività comune il feature engineering. In genere i modelli si addestrano più velocemente (e produrre previsioni migliori) quando ogni caratteristica numerica nel vettore di caratteristiche ha più o meno lo stesso intervallo.

dati numerici

#fundamentals

Caratteristiche rappresentate come numeri interi o numeri reali. Ad esempio, un modello di valutazione di una casa rappresenterebbe probabilmente la dimensione di una casa (in piedi quadrati o metri quadrati) come dati numerici. Rappresentazione una caratteristica come dati numerici indica che i valori della caratteristica hanno una relazione matematica con l'etichetta. In altre parole, il numero di metri quadrati di una casa probabilmente ha relazione matematica con il valore della casa.

Non tutti i dati interi devono essere rappresentati come dati numerici. Ad esempio: i codici postali in alcune parti del mondo sono numeri interi, mentre il codice postale intero i codici non devono essere rappresentati come dati numerici nei modelli. Questo perché il codice postale di 20000 non è due (o la metà) più potente di un codice postale di 10.000. Inoltre, sebbene diversi codici postali possano essere correlati valori immobiliari, non possiamo presumere che i valori degli immobili al codice postale 20000 sono il doppio del valore degli immobili con codice postale 10000. I codici postali devono essere rappresentati come dati categorici .

Le caratteristiche numeriche a volte vengono chiamate funzionalità continue.

O

offline

#fundamentals

Sinonimo di statico.

inferenza offline

#fundamentals

Il processo con cui un modello genera un batch di previsioni e quindi memorizzare nella cache (salvare) queste previsioni. Le app possono quindi accedere la previsione dalla cache anziché eseguire nuovamente il modello.

Ad esempio, considera un modello che genera le previsioni meteo locali (previsioni) una volta ogni quattro ore. Dopo l'esecuzione di ogni modello, il sistema memorizza nella cache tutte le previsioni meteo locali. Le app meteo recuperano le previsioni dalla cache.

L'inferenza offline è chiamata anche inferenza statica.

Confrontare con l'inferenza online.

codifica one-hot

#fundamentals

Rappresentazione dei dati categorici come un vettore in cui:

  • Un elemento è impostato su 1.
  • Tutti gli altri elementi sono impostati su 0.

La codifica one-hot viene comunemente utilizzata per rappresentare stringhe o identificatori che hanno un insieme finito di valori possibili. Supponiamo, ad esempio, che una determinata caratteristica categorica denominata Scandinavia ha cinque valori possibili:

  • "Danimarca"
  • "Svezia"
  • "Norvegia"
  • "Finlandia"
  • "Islanda"

La codifica one-hot potrebbe rappresentare ciascuno dei cinque valori come segue:

country Vettoriale
"Danimarca" 1 0 0 0 0
"Svezia" 0 1 0 0 0
"Norvegia" 0 0 1 0 0
"Finlandia" 0 0 0 1 0
"Islanda" 0 0 0 0 1

Grazie alla codifica one-hot, un modello può apprendere diverse connessioni in base a ciascuno dei cinque paesi.

La rappresentazione di una caratteristica come dati numerici è una un'alternativa alla codifica one-hot. Purtroppo, la rappresentanza Dal punto di vista numerico i paesi scandinavi non sono una buona scelta. Ad esempio: considera la seguente rappresentazione numerica:

  • "Danimarca" è 0
  • "Svezia" è 1
  • "Norvegia" è 2
  • "Finlandia" è 3
  • "Islanda" è 4

Con la codifica numerica, un modello interpreta i numeri non elaborati matematicamente e cercheremo di allenarsi su questi numeri. Tuttavia, l'Islanda non è il doppio (o la metà) delle qualcosa come la Norvegia, quindi il modello giunge ad alcune strane conclusioni.

uno contro tutti

#fundamentals

Dato un problema di classificazione con le classi N, soluzione costituita da N separate classificatori binari: un classificatore binario per ogni possibile risultato. Ad esempio, dato un modello che classifica gli esempi animale, vegetale o minerale, una soluzione unica contro tutti fornirebbe seguenti tre classificatori binari separati:

  • animale/non animale
  • vegetale/non vegetale
  • minerale/non minerale

online

#fundamentals

Sinonimo di Dynamic.

inferenza online

#fundamentals

Generazione di previsioni on demand. Ad esempio: supponiamo che un'app passi l'input a un modello ed emetta una richiesta per la previsione. Un sistema che utilizza l'inferenza online risponde alla richiesta eseguendo del modello (e restituendo la previsione all'app).

Confrontare con l'inferenza offline.

livello di output

#fundamentals

Il "finale" livello di una rete neurale. Il livello di output contiene la previsione.

L'illustrazione seguente mostra una piccola rete neurale profonda con un input due strati nascosti e uno di output:

Una rete neurale con uno strato di input, due strati nascosti e uno
          livello di output. Il livello di input è costituito da due caratteristiche. Il primo
          è composto da tre neuroni e il secondo strato nascosto
          è composto da due neuroni. Il livello di output è costituito da un singolo nodo.

overfitting

#fundamentals

Creazione di un modello che corrisponda addestrare i dati a un livello tale che il modello non riesce a fare previsioni corrette sui nuovi dati.

La regolarizzazione può ridurre l'overfitting. L'addestramento con un set di dati ampio e diversificato può anche ridurre l'overfitting.

P

panda

#fundamentals

Un'API di analisi dei dati orientata a colonne basata su numpy. Molti framework di machine learning, tra cui TensorFlow, supportano le strutture dati Pandas come input. Consulta le documentazione di Pandas per maggiori dettagli.

parametro

#fundamentals

Le ponderazioni e i pregiudizi che un modello apprende durante per la formazione. Ad esempio, in una di regressione lineare, i parametri sono costituiti da il bias (b) e tutti i pesi (w1, w2, e così via) nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Al contrario, gli iperparametri sono i valori che tu (o un servizio di tornitura degli iperparametri) fornisci al modello. Ad esempio, il tasso di apprendimento è un iperparametro.

classe positiva

#fundamentals

Il corso per cui stai eseguendo il test.

Ad esempio, la classe positiva in un modello di cancro potrebbe essere "tumora". La classe positiva in un classificatore di email potrebbe essere "spam".

Contrasta con classe negativa.

post-elaborazione

#fairness
#fundamentals

Modifica dell'output di un modello dopo l'esecuzione del modello. La post-elaborazione può essere utilizzata per applicare vincoli di equità senza modificare i modelli stessi.

Ad esempio, si potrebbe applicare la post-elaborazione a un classificatore binario impostando una soglia di classificazione che viene mantenuta la uguaglianza di opportunità per alcuni attributi, controllando che il tasso di veri positivi è uguale per tutti i valori dell'attributo.

previsione

#fundamentals

L'output di un modello. Ad esempio:

  • La previsione di un modello di classificazione binaria è o la classe negativa.
  • La previsione di un modello di classificazione multiclasse è una classe.
  • La previsione di un modello di regressione lineare è un numero.

etichette proxy

#fundamentals

Dati utilizzati per approssimare le etichette non direttamente disponibili in un set di dati.

Ad esempio, supponiamo che tu debba addestrare un modello per prevedere livello di stress. Il set di dati contiene molte caratteristiche predittive, non contiene un'etichetta denominata livello di stress. Per forza, scegli "incidenti sul posto di lavoro" come etichetta proxy livello di stress. Dopotutto, i dipendenti sotto stress ad alto stress entrano in più incidenti che rilassare i dipendenti. O no? Forse incidenti sul posto di lavoro aumentano e diminuiscono per vari motivi.

Come secondo esempio, supponi di voler usare sta piove? come etichetta booleana. per il tuo set di dati, ma non contiene dati sulle precipitazioni. Se fotografie sono disponibili, potresti creare immagini di persone che trasportano ombrelli come etichetta sostitutiva del messaggio sta piovendo? È quello un'etichetta proxy valida? È possibile, ma in alcune culture le persone ha più probabilità di portare ombrelli per proteggersi dal sole che dalla pioggia.

Le etichette del proxy sono spesso imperfette. Se possibile, scegli le etichette effettive etichette proxy. Detto questo, quando non è presente un'etichetta, scegli il proxy etichetta con molta attenzione, scegliendo l'etichetta proxy meno orribile candidata.

R

RAG

#fundamentals

Abbreviazione di generazione potenziata dal recupero.

classificatore

#fundamentals

Una persona che fornisce le etichette per gli esempi. "Annotatore" è un altro nome per recensore.

Unità lineare rettificata (ReLU)

#fundamentals

Una funzione di attivazione con il seguente comportamento:

  • Se l'input è negativo o pari a zero, l'output è 0.
  • Se l'input è positivo, l'output è uguale all'input.

Ad esempio:

  • Se l'input è -3, l'output è 0.
  • Se l'ingresso è +3, l'output è 3.0.

Ecco un grafico di ReLU:

Un grafico cartesiano di due linee. La prima riga ha una costante
          valore y pari a 0, lungo l&#39;asse x da -infinito,0 a 0,-0.
          La seconda riga inizia da 0,0. Questa linea ha una pendenza di +1, quindi
          va da 0,0 a +infinito,+infinito.

ReLU è una funzione di attivazione molto diffusa. Nonostante il suo semplice comportamento, La ReLU consente comunque a una rete neurale di apprendere contenuti nonlinear relazioni tra le caratteristiche e l'etichetta.

modello di regressione

#fundamentals

Informale, un modello che genera una previsione numerica. (Al contrario, un modello di classificazione genera una classe prediction.) Ad esempio, di seguito sono riportati tutti i modelli di regressione:

  • Un modello che prevede il valore di una certa casa, come 423.000 euro.
  • Un modello che prevede la aspettativa di vita di un determinato albero, ad esempio 23,2 anni.
  • Un modello che prevede la quantità di pioggia che cadrà in una determinata città nelle successive sei ore, ad esempio 0,48 pollici.

Due tipi comuni di modelli di regressione sono:

  • Regressione lineare, che trova la retta migliore Adatta i valori delle etichette alle caratteristiche.
  • Regressione logistica, che genera una probabilità compresa tra 0,0 e 1,0 che un sistema di solito appartenga a una classe la previsione.

Non tutti i modelli che producono previsioni numeriche sono modelli di regressione. In alcuni casi, una previsione numerica è solo un modello di classificazione che ha nomi di classi numerici. Ad esempio, un modello che prevede un codice postale numerico è un modello di classificazione, non un modello di regressione.

regolarizzazione

#fundamentals

Qualsiasi meccanismo che riduca l'overfitting. I tipi di regolarizzazione più comuni includono:

La regolarizzazione può anche essere definita come la penalizzazione sulla complessità di un modello.

tasso di regolarizzazione

#fundamentals

Un numero che specifica l'importanza relativa di regolarizzazione durante l'addestramento. Aumentando la percentuale di regolarizzazione riduce l'overfitting, ma può riducono la capacità predittiva del modello. Al contrario, la riduzione o l'omissione il tasso di regolarizzazione aumenta l'overfitting.

ReLU

#fundamentals

Abbreviazione di Rectified Linear Unit.

RAG (Retrieval Augmented Generation)

#fundamentals

Una tecnica per migliorare la qualità Output del modello linguistico di grandi dimensioni (LLM) basandosi su fonti di conoscenza recuperate dopo l'addestramento del modello. RAG migliora l'accuratezza delle risposte LLM fornendo all'LLM addestrato accesso a informazioni recuperate da knowledge base o documenti attendibili.

Le motivazioni comuni per l'utilizzo della generazione aumentata con il recupero includono:

  • Aumentare l'accuratezza oggettiva delle risposte generate da un modello.
  • Concedere al modello l'accesso alle conoscenze su cui non è stato addestrato.
  • Modifica delle conoscenze utilizzate dal modello.
  • Attivazione del modello per citare le fonti.

Ad esempio, supponiamo che un'app di chimica utilizzi PaLM API per generare riepiloghi correlate alle query degli utenti. Quando il backend dell'app riceve una query, il backend:

  1. Consente di cercare ("recuperare") dati pertinenti alla query dell'utente.
  2. Aggiunge ("augment") i dati chimici pertinenti alla query dell'utente.
  3. Indica all'LLM di creare un riepilogo in base ai dati aggiunti.

Curva ROC (caratteristica operativa del ricevitore)

#fundamentals

Grafico che mostra il tasso di veri positivi rispetto a tasso di falsi positivi per diverse soglie di classificazione in binario classificazione.

La forma di una curva ROC suggerisce la capacità di un modello di classificazione binaria per separare le classi positive da quelle negative. Supponiamo, ad esempio, che un modello di classificazione binaria separa perfettamente tutti classi di tutte le classi positive:

Una linea dei numeri con 8 esempi positivi a destra e
          7 esempi negativi a sinistra.

La curva ROC per il modello precedente ha il seguente aspetto:

Una curva ROC. L&#39;asse x indica la percentuale di falsi positivi e l&#39;asse y
          è la percentuale di veri positivi. La curva ha la forma a L rovesciata. La curva
          inizia a (0.0,0.0) e arriva direttamente a (0.0,1.0). Quindi la curva
          va da (0,0,1,0) a (1,0,1,0).

Al contrario, l'illustrazione seguente mostra un grafico della regressione logistica non elaborata. per un modello pessimo che non sia in grado di separare le classi negative classi positive:

Una linea dei numeri con esempi positivi e classi negative
          completamente mescolati.

La curva ROC per questo modello ha il seguente aspetto:

Una curva ROC, che in realtà è una linea retta da (0,0,0,0)
          a (1,0,1,0).

Nel mondo reale, la maggior parte dei modelli di classificazione binaria classi positive e negative in una certa misura, ma di solito non perfettamente. Quindi, una tipica curva ROC ricade a metà tra i due estremi:

Una curva ROC. L&#39;asse x indica la percentuale di falsi positivi e l&#39;asse y
          è la percentuale di veri positivi. La curva ROC approssima un arco instabile
          attraversando i punti della bussola da ovest a nord.

Il punto su una curva ROC più vicina a (0,0,1,0) identifica in teoria soglia di classificazione ideale. Tuttavia, molti altri problemi del mondo reale influenzare la scelta della soglia di classificazione ideale. Ad esempio: forse i falsi negativi causano molto più sofferenza dei falsi positivi.

Una metrica numerica chiamata AUC riassume la curva ROC in un singolo valore con virgola mobile.

Errore quadratico medio (RMSE)

#fundamentals

La radice quadrata dell'errore quadratico medio.

S

funzione sigmoidea

#fundamentals

Una funzione matematica che "schiaccia" un valore di input in un intervallo vincolato, generalmente da 0 a 1 o da -1 a +1. Ciò significa che puoi passare un numero qualsiasi (due, un milione, un miliardo negativo o altro) in una funzione sigmoidea e l'output sarà comunque intervallo vincolato. Un grafico della funzione di attivazione sigmoidea ha il seguente aspetto:

Un grafico curvo bidimensionale con valori x che coprono il dominio
          da infinito a +positivo, mentre i valori di y coprono l&#39;intervallo da quasi 0 a +positivo
          quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre
          positiva, con la pendenza più alta a 0,0.5 e che diminuisce gradualmente
          pendenze all&#39;aumento del valore assoluto di x.

La funzione sigmoidea ha diversi utilizzi nel machine learning, tra cui:

softmax

#fundamentals

Una funzione che determina le probabilità per ogni possibile classe in una modello di classificazione multi-classe. Le probabilità si sommano esattamente a 1,0. Ad esempio, la tabella seguente mostra la modalità di distribuzione delle varie probabilità:

L'immagine è... Probabilità
cane 0,85
gatto 0,13
cavallo 0,02

Softmax è anche noto come full softmax.

Contrasta il campionamento dei candidati.

caratteristica sparsa

#language
#fundamentals

Una caratteristica i cui valori sono prevalentemente zero o vuoti. Ad esempio, una caratteristica contenente un singolo valore 1 e un milione di valori 0 è sparsa. Al contrario, una caratteristica densa ha valori che non sono prevalentemente zero o vuoti.

Nel machine learning, un numero sorprendente di caratteristiche sono caratteristiche sparse. Le caratteristiche categoriche sono di solito caratteristiche sparse. Ad esempio, delle 300 possibili specie di alberi in una foresta, un singolo esempio potrebbe identificare solo un albero di acero. O dei milioni di utenti di possibili video in una raccolta video, un singolo esempio potrebbe identificare semplicemente "Casablanca".

In un modello, di solito rappresenti le caratteristiche sparse con codifica one-hot. Se la codifica one-hot è di grandi dimensioni, puoi inserire uno strato di incorporamento sopra lo codifica one-hot per una maggiore efficienza.

rappresentazione sparsa

#language
#fundamentals

Memorizzare solo le posizioni di elementi diversi da zero in una caratteristica sparsa.

Ad esempio, supponiamo che una caratteristica categorica denominata species identifichi il 36 specie di alberi di una determinata foresta. Supponiamo inoltre che ogni example identifica solo una singola specie.

Potresti utilizzare un vettore one-hot per rappresentare le specie di alberi in ogni esempio. Un vettore one-hot conterrebbe un singolo 1 (per rappresentare la particolare specie di alberi nell'esempio) e 35 0 (per rappresentare le 35 specie di alberi che non sono presenti nell'esempio). Quindi, la rappresentazione one-hot di maple potrebbe avere il seguente aspetto:

Un vettore in cui le posizioni da 0 a 23 contengono il valore 0, posizione
          24 contiene il valore 1, mentre le posizioni da 25 a 35 mantengono il valore 0.

In alternativa, la rappresentazione sparsa dovrebbe semplicemente identificare la posizione del specie particolari. Se maple è in posizione 24, allora la rappresentazione sparsa di maple sarebbe:

24

Nota che la rappresentazione sparsa è molto più compatta della una rappresentazione visiva.

vettore sparso

#fundamentals

Un vettore i cui valori sono prevalentemente zeri. Vedi anche sparse caratteristiche e sparsità.

perdita quadratica

#fundamentals

Sinonimo di L2 loss.

static

#fundamentals

Un'operazione eseguita una sola volta anziché in modo continuativo. I termini statico e offline sono sinonimi. Di seguito sono riportati gli utilizzi comuni dell'espressione statica e offline nel computer apprendimento:

  • Il modello statico (o modello offline) è un modello addestrato una volta e poi usato per un po' di tempo.
  • L'addestramento statico (o addestramento offline) è il processo di addestramento di un un modello statico.
  • inferenza statica (o inferenza offline) è un in cui un modello genera un batch di previsioni alla volta.

Confrontare con dinamico.

inferenza statica

#fundamentals

Sinonimo di inferenza offline.

stazionarie

#fundamentals

Una caratteristica i cui valori non cambiano in una o più dimensioni, di solito nel tempo. Ad esempio, una caratteristica i cui valori sono pressoché uguali nel 2021 e Il 2023 mostra la stazionarietà.

Nel mondo reale, pochissime caratteristiche mostrano stazionarietà. Funzionalità persino sinonimo di stabilità (come il livello del mare) dei cambiamenti nel tempo.

Confrontare con nonstationarity.

discesa stocastica del gradiente (SGD)

#fundamentals

Un algoritmo di discesa del gradiente in cui la dimensione del batch è uno. In altre parole, SGD addestra un singolo esempio scelto in modo uniforme casuale da un set di addestramento.

machine learning supervisionato

#fundamentals

Addestramento di un modello dalle funzionalità e dai relativi etichette corrispondenti. Il machine learning supervisionato è analogo all'apprendimento di una materia esaminando una serie di domande e risposte corrispondenti. Dopo aver padroneggiato la mappatura tra domande e risposte, uno studente potrà quindi fornire delle risposte a nuove domande (mai viste in precedenza) domande sullo stesso argomento.

Confronta con machine learning non supervisionato.

caratteristica sintetica

#fundamentals

Una caratteristica non presente tra le caratteristiche di input, ma assemblati da uno o più di essi. Metodi per la creazione di caratteristiche sintetiche include:

  • Bucketing di una funzionalità continua in fasce di intervallo.
  • Creare un incrocio di caratteristiche.
  • Moltiplicare (o dividere) un valore della caratteristica per altri valori della caratteristica o da sola. Ad esempio, se a e b sono caratteristiche di input, allora il valore Ecco alcuni esempi di caratteristiche sintetiche:
      .
    • ab
    • A2
  • Applicazione di una funzione trascendentale a un valore di caratteristica. Ad esempio, se c è una caratteristica di input, i seguenti sono esempi di caratteristiche sintetiche:
    • sin(c)
    • ln(c)

Funzionalità create normalizzando o scalando da sole non sono considerate caratteristiche sintetiche.

T

perdita di test

#fundamentals

Una metrica che rappresenta la perdita di un modello rispetto a il set di test. Quando crei un modello, in genere cerca di ridurre al minimo la perdita di dati. Questo perché una perdita di prova bassa è un segnale di qualità più forte rispetto a una bassa perdita dell'addestramento o con una bassa perdita di convalida.

A volte un grande divario tra perdita di test e perdita di addestramento o perdita di convalida suggerisce che è necessario aumentare tasso di regolarizzazione.

formazione

#fundamentals

Il processo di determinazione dei parametri ideali (ponderazioni e pregiudizi) che comprende un modello. Durante l'addestramento, un sistema legge esempi e regola gradualmente i parametri. L'addestramento utilizza ogni ad esempio da poche a miliardi di volte.

perdita di addestramento

#fundamentals

Una metrica che rappresenta la perdita di un modello durante una a una particolare iterazione di addestramento. Ad esempio, supponiamo che la funzione di perdita è errore quadratico medio. Forse la perdita di addestramento (la media scarto quadratico) per la decima iterazione è 2.2, e la perdita di addestramento la 100a iterazione è 1,9.

Una curva di perdita traccia la perdita di addestramento rispetto al numero di Google Cloud. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:

  • Una pendenza verso il basso implica che il modello sta migliorando.
  • Una pendenza verso l'alto implica che il modello sta peggiorando.
  • Una pendenza piatta implica che il modello abbia raggiunto convergenza.

Ad esempio, la seguente curva di perdita un po' idealizzata mostra:

  • Una ripida pendenza verso il basso durante le iterazioni iniziali, che implica il rapido miglioramento dei modelli.
  • Una pendenza gradualmente crescente (ma sempre verso il basso) fino alla fine di addestramento, il che implica un miglioramento continuo del modello un ritmo più lento durante le iterazioni iniziali.
  • Una pendenza piatta verso la fine dell'addestramento, che suggerisce la convergenza.

Il grafico della perdita di addestramento e delle iterazioni. Questa curva di perdita inizia
     con una ripida pendenza in discesa. La pendenza si appiattisce gradualmente finché
     la pendenza diventa zero.

Sebbene la perdita dell'addestramento sia importante, vedi anche generalizzazione.

disallineamento addestramento/produzione

#fundamentals

La differenza tra le prestazioni di un modello durante addestramento e le prestazioni dello stesso modello durante pubblicazione.

set di addestramento

#fundamentals

Il sottoinsieme del set di dati utilizzato per addestrare un modello.

Tradizionalmente, gli esempi nel set di dati sono suddivisi nei seguenti tre sottoinsiemi distinti:

Idealmente, ogni esempio nel set di dati dovrebbe appartenere solo a uno sottoinsiemi precedenti. Ad esempio, un singolo esempio non dovrebbe appartenere sia il set di addestramento sia il set di convalida.

vero negativo (VN)

#fundamentals

Un esempio in cui il modello prevede correttamente la classe esclusa. Ad esempio, il modello deduce un particolare messaggio email non è spam e tale messaggio è davvero non spam.

veri positivi (VP)

#fundamentals

Un esempio in cui il modello prevede correttamente la classe positiva. Ad esempio, il modello deduce un particolare messaggio email è spam e in realtà si tratta di spam.

tasso di veri positivi (TPR)

#fundamentals

Sinonimo di richiamo. Ossia:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Il tasso di veri positivi è l'asse y in una curva ROC.

U

underfitting

#fundamentals

Produzione di un modello con scarsa capacità predittiva perché il modello di non aver acquisito completamente la complessità dei dati di addestramento. Molti problemi possono causare l'underfitting, tra cui:

esempio senza etichetta

#fundamentals

Un esempio contenente le caratteristiche, ma senza un'etichetta. Ad esempio, la tabella seguente mostra tre esempi senza etichetta di una casa di valutazione, ciascuna con tre caratteristiche ma senza valore della casa:

Numero di camere Numero di bagni Età della casa
3 2 15
2 1 72
4 2 34

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni esempi senza etichetta.

In semi-supervisionato e apprendimento non supervisionato, durante l'addestramento vengono usati esempi non etichettati.

Confronta l'esempio senza etichetta con l'esempio con etichetta.

machine learning non supervisionato

#clustering
#fundamentals

Addestramento di un modello per trovare pattern in un set di dati, in genere una senza etichetta.

L'uso più comune del machine learning non supervisionato è dati cluster in gruppi di esempi simili. Ad esempio, una macchina non supervisionata algoritmo di apprendimento può raggruppare i brani in base a varie della musica. I cluster risultanti possono diventare un input per un'altra macchina algoritmi di apprendimento (ad esempio a un servizio di consigli musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini come anti-abuso e attività fraudolente, i cluster possono aiutare le persone a comprendere meglio i dati.

Effettuare il confronto con il machine learning supervisionato.

V

validation

#fundamentals

La valutazione iniziale della qualità di un modello. La convalida controlla la qualità delle previsioni di un modello rispetto set di convalida.

Poiché il set di convalida è diverso dal set di addestramento, la convalida aiuta a prevenire l'overfitting.

Si potrebbe pensare di valutare il modello rispetto al set di convalida come prima fase di test e valutazione del modello rispetto set di test come seconda fase di test.

perdita di convalida

#fundamentals

Una metrica che rappresenta la perdita di un modello su il set di convalida durante una determinata iterazione dell'addestramento.

Vedi anche la curva di generalizzazione.

set di convalida

#fundamentals

Il sottoinsieme del set di dati che esegue della valutazione rispetto a un modello addestrato. Di solito, valuti il modello addestrato a fronte del set di convalida di diversi volte prima di valutare il modello rispetto al set di test.

Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

Idealmente, ogni esempio nel set di dati dovrebbe appartenere solo a uno sottoinsiemi precedenti. Ad esempio, un singolo esempio non dovrebbe appartenere sia il set di addestramento sia il set di convalida.

M

peso

#fundamentals

Un valore moltiplicato da un modello per un altro valore. L'addestramento è il processo di determinazione dei pesi ideali di un modello. L'inferenza è il processo di utilizzo dei pesi appresi per per fare previsioni.

somma ponderata

#fundamentals

La somma di tutti i valori di input pertinenti moltiplicati per i corrispondenti i pesi. Ad esempio, supponiamo che gli input pertinenti siano costituiti da quanto segue:

valore di input peso inserito
2 -1,3
-1 0,6
3 0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una somma ponderata è l'argomento di input di una funzione di attivazione.

Z

Normalizzazione del punteggio z

#fundamentals

Una tecnica di scalabilità che sostituisce un elemento non elaborato Il valore feature con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di quella caratteristica. Ad esempio, consideriamo una caratteristica la cui media è 800 e il cui standard la deviazione è 100. La tabella seguente mostra come la normalizzazione dello Z-Score il valore non elaborato verrà mappato al suo Z-Score:

Valore non elaborato Punteggio z
800 0
950 +1,5
575 -2,25

Il modello di machine learning viene quindi addestrato utilizzando i punteggi Z per quella caratteristica anziché sui valori non elaborati.