Bildbeschriftung

Mit den Image Label APIs von ML Kit können Sie Informationen zu Entitäten in einem Bild in einer Vielzahl von Kategorien erkennen und extrahieren. Mit dem Standard-Bildlabel-Modell können allgemeine Objekte, Orte, Aktivitäten, Tierarten, Produkte und mehr identifiziert werden.

Sie können auch ein benutzerdefiniertes Bildklassifizierungsmodell verwenden, um die Erkennung auf einen bestimmten Anwendungsfall zuzuschneiden. Weitere Informationen finden Sie unter Benutzerdefiniertes TensorFlow Lite-Modell verwenden.

Hauptmerkmale

  • Leistungsstarker allgemeiner Klassifikator für allgemeine Zwecke Erkennt über 400 Kategorien, die die am häufigsten gefundenen Objekte auf Fotos beschreiben.
  • Maßgeschneidert für Ihren Anwendungsfall mit benutzerdefinierten Modellen Verwenden Sie andere vortrainierte Modelle aus TensorFlow Hub oder Ihr eigenes benutzerdefiniertes Modell, das mit TensorFlow, AutoML Vision Edge oder TensorFlow Lite Model Maker trainiert wurde.
  • Nutzerfreundliche APIs auf hoher Ebene Sie müssen sich nicht um die Ein- und Ausgabe von Modellmodellen, die Vor- und Nachbearbeitung von Bildern oder den Aufbau einer Verarbeitungspipeline kümmern. ML Kit extrahiert die Labels aus dem TensorFlow Lite-Modell und stellt sie als Textbeschreibung bereit.

Diese API ist für Bildklassifizierungsmodelle vorgesehen, die das vollständige Bild beschreiben. Für die Klassifizierung von einem oder mehreren Objekten in einem Bild, z. B. Schuhen oder Möbeln, ist die Objekterkennung und -Tracking API möglicherweise besser geeignet.

Unterstützte Modelle zur Bildklassifizierung

Die Image Labeling APIs unterstützen verschiedene Modelle zur Bildklassifizierung:

Unterstützte Modelle zur Bildklassifizierung
Basismodell Standardmäßig verwendet die API ein leistungsstarkes allgemeines Bild-Labeling-Modell, das mehr als 400 Entitäten erkennt, die die gängigsten Konzepte in Fotos abdecken.
Benutzerdefinierte TensorFlow Lite-Modelle Für die Ausrichtung auf anwendungsspezifische Konzepte akzeptiert die API benutzerdefinierte Modelle zur Bildklassifizierung aus einer Vielzahl von Quellen. Dies können vortrainierte Modelle sein, die aus TensorFlow Hub heruntergeladen wurden, oder Ihre eigenen Modelle, die mit AutoML Vision Edge, TensorFlow Lite Model Maker oder TensorFlow selbst trainiert wurden. Modelle können mit Ihrer Anwendung gebündelt oder mit Firebase Machine Learning gehostet und zur Laufzeit heruntergeladen werden.

Basismodell verwenden

Das Basismodell von ML Kit gibt eine Liste von Entitäten zurück, mit denen Personen, Dinge, Orte, Aktivitäten usw. identifiziert werden können. Jede Entität hat einen Wert, der das Vertrauen des ML-Modells in seine Relevanz angibt. Mit diesen Informationen können Sie Aufgaben wie die automatische Metadatengenerierung und Inhaltsmoderation ausführen. Das mit ML Kit bereitgestellte Standardmodell erkennt mehr als 400 verschiedene Entitäten.

iOS Android

Beispiellabels

Das Basismodell in der Image Labeling API unterstützt mehr als 400 Labels, z. B. die folgenden:

KategorieBeispiellabels
Personen Crowd
Selfie
Smile
Aktivitäten Dancing
Eating
Surfing
Dinge Car
Piano
Receipt
Tiere Bird
Cat
Dog
Pflanzen Flower
Fruit
Vegetable
Orte Beach
Lake
Mountain

Beispielergebnisse

Hier ein Beispiel für die Entitäten, die im zugehörigen Foto erkannt wurden.

Foto: Clément Bucco-Lechat/Wikimedia Commons/CC BY-SA 3.0
Label 0
Text Stadien
Zuversicht 0,9205354
Label 1
Text Sport
Zuversicht 0,7531109
Label 2
Text Veranstaltung
Zuversicht 0,66905296
Label 3
Text Freizeit
Zuversicht 0,59904146
Label 4
Text Fußball
Zuversicht 0,56384534
Label 5
Text Netto
Zuversicht 0,54679185
Label 6
Text Pflanze
Zuversicht 0,524364

Benutzerdefiniertes TensorFlow Lite-Modell verwenden

Das Basis-Image-Labeling-Modell von ML Kit wurde für allgemeine Zwecke entwickelt. Es wird so trainiert, dass es 400 Kategorien erkennt, die die am häufigsten gefundenen Objekte auf Fotos beschreiben. Ihre App benötigt möglicherweise ein spezielles Bildklassifizierungsmodell, das eine begrenzte Anzahl von Kategorien detaillierter erkennt, z. B. ein Modell, das zwischen Blumenarten oder Nahrungsmitteln unterscheidet.

Mit dieser API können Sie auf einen bestimmten Anwendungsfall zuschneiden, indem Sie benutzerdefinierte Modelle zur Bildklassifizierung aus einer Vielzahl von Quellen unterstützen. Weitere Informationen finden Sie unter Benutzerdefinierte Modelle mit ML Kit. Benutzerdefinierte Modelle können mit der Anwendung gebündelt oder dynamisch aus der Cloud heruntergeladen werden. Dazu steht der Modellbereitstellungsdienst von Firebase Machine Learning zur Verfügung.

iOS Android

Eingabebild vorverarbeiten

Bei Bedarf werden bilineare Bildskalierung und -streckung verwendet, um die Größe und das Seitenverhältnis des Eingabebilds an die Anforderungen des zugrunde liegenden Modells anzupassen.