Quiz zur Einführung in KI-Modelle auf GPUs

Was ist der Hauptunterschied zwischen Training und Inferenz?

Beim Training wird nur der Forward-Pass verwendet, bei der Inferenz der Forward- und der Backward-Pass.

Beim Training werden die Gewichte aktualisiert, bei der Inferenz nicht.

Für die Inferenz sind größere Datasets als für das Training erforderlich.

Für die Inferenz werden immer CPUs verwendet

Das Komprimierungsverhältnis von Trainingslogs

Serialisierung von Gewichten, Bias und Metadaten

Die Anzahl der Tokens, die ein Modell generieren kann

Planung von GPUs

Tragbare Prüfpunkte für die Forschung

Anbieterunabhängige Austauschformate

Für bestimmte Hardware kompilierte GPU-optimierte Binärdateien

Einfache, communitybasierte Formate

Sie verwenden weniger Kerne.

Sie haben Tausende von parallelen Kernen, die für Matrixberechnungen optimiert sind.

Sie verbrauchen viel Strom pro Kern.

Sie können vielfältigere Anweisungen verarbeiten

Der Wert der Latenz, bei dem der Durchsatz einbricht

Der Punkt, an dem sich der Durchsatz verbessert, ohne die Latenz zu stark zu beeinträchtigen

Die langsamste beobachtete Latenz

Der minimale Speicherbedarf, der für ein Modell erreicht werden kann, unabhängig von Leistungseinbußen