Introduzione al quiz sui modelli di AI su GPU

Qual è la differenza principale tra addestramento e inferenza?

L'addestramento utilizza solo il passaggio in avanti; l'inferenza utilizza il passaggio in avanti e indietro

L'addestramento aggiorna i pesi, l'inferenza no

L'inferenza richiede set di dati più grandi rispetto all'addestramento

L'inferenza utilizza sempre le CPU

Il rapporto di compressione dei log di addestramento

Come vengono serializzati pesi, bias e metadati

Il numero di token che un modello può generare

Come vengono pianificate le GPU

Checkpoint portatili per la ricerca

Formati di scambio indipendenti dal fornitore

Binari ottimizzati per la GPU compilati per hardware specifico

Formati leggeri basati sulla community

Utilizzano meno core

Hanno migliaia di core paralleli ottimizzati per la matematica matriciale

Consumano molta energia per core

Gestiscono istruzioni più diverse

Il valore della latenza in cui il throughput si riduce

Il punto in cui la velocità effettiva migliora senza influire troppo sulla latenza

La latenza osservata più lenta

L'impronta di memoria minima ottenibile per un modello, indipendentemente dai compromessi sulle prestazioni