Informationen zur Nutzerumgebung im Android SDK (Kotlin/Java)

Scene Semantics API in Ihren eigenen Apps verwenden

Mit der Scene Semantics API können Entwickler die Umgebung des Nutzers verstehen, indem sie auf ML-Modellen basierende semantische Echtzeitinformationen bereitstellt. Bei einem Bild einer Außenszene gibt die API ein Label für jedes Pixel über eine Reihe nützlicher semanischer Klassen zurück, z. B. Himmel, Gebäude, Baum, Straße, Bürgersteig, Fahrzeug, Person und mehr. Zusätzlich zu den Pixellabels bietet die Scene Semantics API auch Konfidenzwerte für jedes Pixellabel und eine einfache Möglichkeit, die Verbreitung eines bestimmten Labels in einer Außenszene abzufragen.

<ph type="x-smartling-placeholder">

Beispiele für ein Eingabebild, das semantische Bild von Pixellabels und das entsprechende Konfidenzbild (von links nach rechts):

Beispiel für ein Eingabebild, ein semantisches Bild und ein semantisches Konfidenzbild.

Vorbereitung

Machen Sie sich mit den grundlegenden AR-Konzepten vertraut. und Konfigurieren einer ARCore-Sitzung beschrieben, bevor du fortfährst.

Szenensemantik aktivieren

Prüfen Sie in einer neuen ARCore-Sitzung, ob das Gerät eines Nutzers die Scene Semantics API unterstützt. Aufgrund von Einschränkungen bei der Verarbeitungsleistung unterstützen nicht alle ARCore-kompatiblen Geräte die Scene Semantics API.

Um Ressourcen zu sparen, ist die Szenensemantik in ARCore standardmäßig deaktiviert. Aktivieren Sie den semantischen Modus, damit Ihre Anwendung die Scene Semantics API verwendet.

Java

Config config = session.getConfig();

// Check whether the user's device supports the Scene Semantics API.
boolean isSceneSemanticsSupported =
    session.isSemanticModeSupported(Config.SemanticMode.ENABLED);
if (isSceneSemanticsSupported) {
  config.setSemanticMode(Config.SemanticMode.ENABLED);
}
session.configure(config);

Kotlin

val config = session.config

// Check whether the user's device supports the Scene Semantics API.
val isSceneSemanticsSupported = session.isSemanticModeSupported(Config.SemanticMode.ENABLED)
if (isSceneSemanticsSupported) {
  config.semanticMode = Config.SemanticMode.ENABLED
}
session.configure(config)

Semantisches Bild abrufen

Sobald die Szenensemantik aktiviert ist, kann das semantische Bild abgerufen werden. Das semantische Bild ist ein ImageFormat.Y8-Bild, wobei jedes Pixel einem semantischen Label entspricht, das durch SemanticLabel definiert wird.

Verwenden Sie Frame.acquireSemanticImage(), um das semantische Bild zu übernehmen:

Java

// Retrieve the semantic image for the current frame, if available.
try (Image semanticImage = frame.acquireSemanticImage()) {
  // Use the semantic image here.
} catch (NotYetAvailableException e) {
  // No semantic image retrieved for this frame.
  // The output image may be missing for the first couple frames before the model has had a
  // chance to run yet.
}

Kotlin

// Retrieve the semantic image for the current frame, if available.
try {
  frame.acquireSemanticImage().use { semanticImage ->
    // Use the semantic image here.
  }
} catch (e: NotYetAvailableException) {
  // No semantic image retrieved for this frame.
}

Semantische Ausgabebilder sollten je nach Gerät nach etwa 1–3 Frames nach Beginn der Sitzung verfügbar sein.

Bild für das Konfidenzniveau abrufen

Zusätzlich zum semantischen Bild, das ein Label für jedes Pixel bereitstellt, liefert die API auch ein Konfidenzbild der entsprechenden Pixel-Konfidenzwerte. Das Konfidenzbild ist ein ImageFormat.Y8-Bild, wobei jedes Pixel einem Wert im Bereich [0, 255] entspricht, der der Wahrscheinlichkeit entspricht, die dem semantischen Label für jedes Pixel zugeordnet ist.

Verwenden Sie Frame.acquireSemanticConfidenceImage(), um das Bild für die semantische Konfidenz zu erhalten:

Java

// Retrieve the semantic confidence image for the current frame, if available.
try (Image semanticImage = frame.acquireSemanticConfidenceImage()) {
  // Use the semantic confidence image here.
} catch (NotYetAvailableException e) {
  // No semantic confidence image retrieved for this frame.
  // The output image may be missing for the first couple frames before the model has had a
  // chance to run yet.
}

Kotlin

// Retrieve the semantic confidence image for the current frame, if available.
try {
  frame.acquireSemanticConfidenceImage().use { semanticConfidenceImage ->
    // Use the semantic confidence image here.
  }
} catch (e: NotYetAvailableException) {
  // No semantic confidence image retrieved for this frame.
}

Die ausgegebenen Konfidenzbilder sollten je nach Gerät nach etwa 1–3 Frames nach Beginn der Sitzung verfügbar sein.

Teil der Pixel für ein semantisches Label abfragen

Sie können auch den Anteil der Pixel im aktuellen Frame abfragen, die zu einer bestimmten Klasse gehören, z. B. „Himmel“. Diese Abfrage ist effizienter, als das semantische Bild zurückzugeben und eine pixelbasierte Suche nach einem bestimmten Label durchzuführen. Der zurückgegebene Bruch ist eine Gleitkommazahl im Bereich [0.0, 1.0].

Verwenden Sie Frame.getSemanticLabelFraction(), um den Bruch für ein bestimmtes Label zu ermitteln:

Java

// Retrieve the fraction of pixels for the semantic label sky in the current frame.
try {
  float outFraction = frame.getSemanticLabelFraction(SemanticLabel.SKY);
  // Use the semantic label fraction here.
} catch (NotYetAvailableException e) {
  // No fraction of semantic labels was retrieved for this frame.
}

Kotlin

// Retrieve the fraction of pixels for the semantic label sky in the current frame.
try {
  val fraction = frame.getSemanticLabelFraction(SemanticLabel.SKY)
  // Use the semantic label fraction here.
} catch (e: NotYetAvailableException) {
  // No fraction of semantic labels was retrieved for this frame.
}