ML Kit bietet zwei optimierte SDKs für die Posenerkennung.
SDK-Name | Posenerkennung | Präzise Erkennung von Posen |
---|---|---|
Implementierung | Code und Assets werden bei der Erstellung statisch mit Ihrer App verknüpft. | Code und Assets werden bei der Erstellung statisch mit Ihrer App verknüpft. |
Auswirkungen auf die App-Größe (einschließlich Code und Assets) | ~10,1 MB | ~13,3 MB |
Leistung | Pixel 3 XL: ca. 30 fps | Pixel 3 XL: ca. 23 fps mit CPU, ~30 fps mit GPU |
Testen
- Probieren Sie die Beispiel-App aus, um sich ein Anwendungsbeispiel dieser API anzusehen.
Hinweis
- In die Datei
build.gradle
auf Projektebene muss das Maven-Repository von Google in die Abschnittebuildscript
undallprojects
aufgenommen werden. Fügen Sie die Abhängigkeiten für die ML Kit-Android-Bibliotheken in die Gradle-Datei des Moduls auf App-Ebene ein. Diese ist normalerweise
app/build.gradle
:dependencies { // If you want to use the base sdk implementation 'com.google.mlkit:pose-detection:18.0.0-beta3' // If you want to use the accurate sdk implementation 'com.google.mlkit:pose-detection-accurate:18.0.0-beta3' }
1. Instanz von PoseDetector
erstellen
Optionen für PoseDetector
Erstellen Sie zuerst eine Instanz von PoseDetector
und geben Sie optional die Detektoreinstellungen an, um eine Pose in einem Image zu erkennen.
Erkennungsmodus
PoseDetector
kann in zwei Erkennungsmodi verwendet werden. Wählen Sie dasjenige aus, das Ihrem Anwendungsfall entspricht.
STREAM_MODE
(Standardeinstellung)- Der Posendetektor erkennt zuerst die prominenteste Person im Bild und führt dann ein Posenerkennungssystem aus. In den nachfolgenden Frames wird der Schritt zur Personenerkennung nur dann ausgeführt, wenn die Person verdeckt wird oder nicht mehr mit hoher Wahrscheinlichkeit erkannt wird. Der Posendetektor versucht, die prominenteste Person zu verfolgen und ihre Position in jeder Ableitung zurückzugeben. Dadurch werden Latenzen und flüssigere Erkennung verringert. Verwende diesen Modus, wenn du bei einem Videostream Pose erkennen möchtest.
SINGLE_IMAGE_MODE
- Der Posenmelder erkennt eine Person und führt dann eine Posenerkennung aus. Der Personenerkennungsschritt wird für jedes Bild ausgeführt, sodass die Latenz höher ist und es keine Personenverfolgung gibt. Verwenden Sie diesen Modus, wenn Sie die Posenerkennung für statische Bilder verwenden oder das Tracking nicht gewünscht ist.
Hardwarekonfiguration
PoseDetector
unterstützt mehrere Hardwarekonfigurationen zur Leistungsoptimierung:
CPU
: Detektor nur mit CPU ausführenCPU_GPU
: Detektor mit CPU und GPU ausführen
Beim Erstellen der Detektoroptionen können Sie die Hardwareauswahl mit der API setPreferredHardwareConfigs
steuern. Standardmäßig sind alle Hardwarekonfigurationen als bevorzugt festgelegt.
ML Kit berücksichtigt Verfügbarkeit, Stabilität, Richtigkeit und Latenz der einzelnen Konfigurationen und wählt die jeweils beste Konfiguration aus. Wenn keine der bevorzugten Konfigurationen zutrifft, wird die CPU
-Konfiguration automatisch als Fallback verwendet. ML Kit führt diese Prüfungen und die damit verbundene Vorbereitung ohne Blockierung durch, bevor die Beschleunigung aktiviert wird. Wenn der Nutzer den Detektor das erste Mal ausführt, verwendet er wahrscheinlich CPU
. Nachdem die gesamte Vorbereitung abgeschlossen ist, wird in den folgenden Ausführungen die beste Konfiguration verwendet.
Beispielverwendungen von setPreferredHardwareConfigs
:
- Rufen Sie diese API nicht auf, damit ML Kit die beste Konfiguration auswählen kann.
- Wenn Sie keine Beschleunigung aktivieren möchten, übergeben Sie nur
CPU
. - Wenn Sie die GPU zum Auslagern der CPU verwenden möchten, auch wenn die GPU langsamer sein könnte, übergeben Sie nur
CPU_GPU
.
Legen Sie die Optionen für den Posen-Detektor fest:
Kotlin
// Base pose detector with streaming frames, when depending on the pose-detection sdk val options = PoseDetectorOptions.Builder() .setDetectorMode(PoseDetectorOptions.STREAM_MODE) .build() // Accurate pose detector on static images, when depending on the pose-detection-accurate sdk val options = AccuratePoseDetectorOptions.Builder() .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE) .build()
Java
// Base pose detector with streaming frames, when depending on the pose-detection sdk PoseDetectorOptions options = new PoseDetectorOptions.Builder() .setDetectorMode(PoseDetectorOptions.STREAM_MODE) .build(); // Accurate pose detector on static images, when depending on the pose-detection-accurate sdk AccuratePoseDetectorOptions options = new AccuratePoseDetectorOptions.Builder() .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE) .build();
Erstellen Sie zum Schluss eine Instanz von PoseDetector
. Übergeben Sie die angegebenen Optionen:
Kotlin
val poseDetector = PoseDetection.getClient(options)
Java
PoseDetector poseDetector = PoseDetection.getClient(options);
2. Eingabebild vorbereiten
Erstellen Sie ein InputImage
-Objekt aus einem Bitmap
, media.Image
, ByteBuffer
, einem Bytearray oder einer Datei auf dem Gerät, um Posen in einem Bild zu erkennen. Übergeben Sie anschließend das Objekt InputImage
an PoseDetector
.
Für die Posenerkennung sollten Sie ein Bild mit einer Größe von mindestens 480 x 360 Pixeln verwenden. Wenn Sie Posen in Echtzeit erkennen, können Sie durch das Erfassen von Frames mit dieser Mindestauflösung die Latenz reduzieren.
Sie können ein InputImage
-Objekt aus verschiedenen Quellen erstellen. Dies wird im Folgenden erläutert.
Mit einem media.Image
Wenn Sie ein InputImage
-Objekt aus einem media.Image
-Objekt erstellen möchten, z. B. wenn Sie ein Bild von der Kamera eines Geräts aufnehmen, übergeben Sie das Objekt media.Image
und die Rotation des Bildes an InputImage.fromMediaImage()
.
Wenn Sie die KameraX-Bibliothek verwenden, berechnen die Klassen OnImageCapturedListener
und ImageAnalysis.Analyzer
den Rotationswert für Sie.
Kotlin
private class YourImageAnalyzer : ImageAnalysis.Analyzer { override fun analyze(imageProxy: ImageProxy) { val mediaImage = imageProxy.image if (mediaImage != null) { val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees) // Pass image to an ML Kit Vision API // ... } } }
Java
private class YourAnalyzer implements ImageAnalysis.Analyzer { @Override public void analyze(ImageProxy imageProxy) { Image mediaImage = imageProxy.getImage(); if (mediaImage != null) { InputImage image = InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees()); // Pass image to an ML Kit Vision API // ... } } }
Wenn Sie keine Kamerabibliothek verwenden, die Ihnen den Grad der Drehung des Bildes angibt, können Sie ihn anhand des Grads der Drehung und der Ausrichtung des Kamerasensors im Gerät berechnen:
Kotlin
private val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 0) ORIENTATIONS.append(Surface.ROTATION_90, 90) ORIENTATIONS.append(Surface.ROTATION_180, 180) ORIENTATIONS.append(Surface.ROTATION_270, 270) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // Get the device's sensor orientation. val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360 } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360 } return rotationCompensation }
Java
private static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 0); ORIENTATIONS.append(Surface.ROTATION_90, 90); ORIENTATIONS.append(Surface.ROTATION_180, 180); ORIENTATIONS.append(Surface.ROTATION_270, 270); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // Get the device's sensor orientation. CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360; } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360; } return rotationCompensation; }
Übergeben Sie dann das Objekt media.Image
und den Rotationsgradwert an InputImage.fromMediaImage()
:
Kotlin
val image = InputImage.fromMediaImage(mediaImage, rotation)
Java
InputImage image = InputImage.fromMediaImage(mediaImage, rotation);
Datei-URI verwenden
Übergeben Sie den Anwendungskontext und den Datei-URI an InputImage.fromFilePath()
, um ein InputImage
-Objekt aus einem Datei-URI zu erstellen. Dies ist nützlich, wenn Sie den Intent ACTION_GET_CONTENT
verwenden, um den Nutzer aufzufordern, ein Bild aus der Galerie-App auszuwählen.
Kotlin
val image: InputImage try { image = InputImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() }
Java
InputImage image; try { image = InputImage.fromFilePath(context, uri); } catch (IOException e) { e.printStackTrace(); }
Mit ByteBuffer
oder ByteArray
Berechnen Sie zum Erstellen eines InputImage
-Objekts aus einem ByteBuffer
oder einem ByteArray
zuerst den Grad der Bilddrehung, wie zuvor für die media.Image
-Eingabe beschrieben.
Erstellen Sie dann das Objekt InputImage
mit dem Zwischenspeicher oder Array, zusammen mit Höhe, Breite, Farbcodierungsformat und Rotationsgrad des Bildes:
Kotlin
val image = InputImage.fromByteBuffer( byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ) // Or: val image = InputImage.fromByteArray( byteArray, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 )
Java
InputImage image = InputImage.fromByteBuffer(byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ); // Or: InputImage image = InputImage.fromByteArray( byteArray, /* image width */480, /* image height */360, rotation, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 );
Mit einem Bitmap
Erstellen Sie zum Anlegen eines InputImage
-Objekts aus einem Bitmap
-Objekt die folgende Deklaration:
Kotlin
val image = InputImage.fromBitmap(bitmap, 0)
Java
InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);
Das Bild wird durch ein Bitmap
-Objekt zusammen mit einem Rotationsgrad dargestellt.
3. Bild verarbeiten
Übergeben Sie das vorbereitete InputImage
-Objekt an die Methode process
von PoseDetector
.
Kotlin
Task<Pose> result = poseDetector.process(image) .addOnSuccessListener { results -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
Java
Task<Pose> result = poseDetector.process(image) .addOnSuccessListener( new OnSuccessListener<Pose>() { @Override public void onSuccess(Pose pose) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });
4. Informationen zur erkannten Pose abrufen
Wenn eine Person im Bild erkannt wird, gibt die Posenerkennungs-API ein Pose
-Objekt mit 33 PoseLandmark
s zurück.
Wenn sich die Person nicht vollständig im Bild befand, weist das Modell die fehlenden Orientierungskoordinaten außerhalb des Frames zu und weist ihm niedrige InFrameConfidence-Werte zu.
Wenn im Frame keine Person erkannt wurde, enthält das Objekt Pose
keine PoseLandmark
s.
Kotlin
// Get all PoseLandmarks. If no person was detected, the list will be empty val allPoseLandmarks = pose.getAllPoseLandmarks() // Or get specific PoseLandmarks individually. These will all be null if no person // was detected val leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER) val rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER) val leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW) val rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW) val leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST) val rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST) val leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP) val rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP) val leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE) val rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE) val leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE) val rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE) val leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY) val rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY) val leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX) val rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX) val leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB) val rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB) val leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL) val rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL) val leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX) val rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX) val nose = pose.getPoseLandmark(PoseLandmark.NOSE) val leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER) val leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE) val leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER) val rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER) val rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE) val rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER) val leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR) val rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR) val leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH) val rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH)
Java
// Get all PoseLandmarks. If no person was detected, the list will be empty List<PoseLandmark> allPoseLandmarks = pose.getAllPoseLandmarks(); // Or get specific PoseLandmarks individually. These will all be null if no person // was detected PoseLandmark leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER); PoseLandmark rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER); PoseLandmark leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW); PoseLandmark rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW); PoseLandmark leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST); PoseLandmark rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST); PoseLandmark leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP); PoseLandmark rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP); PoseLandmark leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE); PoseLandmark rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE); PoseLandmark leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE); PoseLandmark rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE); PoseLandmark leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY); PoseLandmark rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY); PoseLandmark leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX); PoseLandmark rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX); PoseLandmark leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB); PoseLandmark rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB); PoseLandmark leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL); PoseLandmark rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL); PoseLandmark leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX); PoseLandmark rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX); PoseLandmark nose = pose.getPoseLandmark(PoseLandmark.NOSE); PoseLandmark leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER); PoseLandmark leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE); PoseLandmark leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER); PoseLandmark rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER); PoseLandmark rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE); PoseLandmark rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER); PoseLandmark leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR); PoseLandmark rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR); PoseLandmark leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH); PoseLandmark rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH);
Tipps zur Verbesserung der Leistung
Die Qualität der Ergebnisse hängt von der Qualität des Eingabebilds ab:
- Damit ML Kit die Pose korrekt erkennen kann, sollte die Person im Bild ausreichend Pixeldaten haben. Für eine optimale Leistung sollte das Motiv mindestens 256 x 256 Pixel groß sein.
- Wenn Sie Posen in einer Echtzeitanwendung erkennen, sollten Sie auch die Gesamtabmessungen der Eingabebilder berücksichtigen. Kleinere Bilder können schneller verarbeitet werden. Nehmen Sie die Bilder daher mit einer geringeren Auflösung auf, um die Latenz zu verringern. Beachten Sie dabei aber die oben genannten Auflösungsanforderungen und achten Sie darauf, dass das Motiv so viel vom Bild wie möglich einnimmt.
- Ein schlechter Bildfokus kann sich auch auf die Genauigkeit auswirken. Wenn Sie keine akzeptablen Ergebnisse erhalten, bitten Sie den Nutzer, das Bild neu aufzunehmen.
Wenn Sie die Posenerkennung in einer Echtzeitanwendung verwenden möchten, beachten Sie die folgenden Best Practices, um die besten Framerates zu erzielen:
- Verwenden Sie das Basis-SDK zur Erkennung von Posen und
STREAM_MODE
. - Bilder mit einer geringeren Auflösung aufnehmen Beachten Sie jedoch die Anforderungen an die Bildabmessungen dieser API.
- Wenn Sie die
Camera
odercamera2
API verwenden, drosseln Sie Aufrufe an den Detektor. Wenn während der Ausführung des Detektors ein neuer Videoframe verfügbar ist, lassen Sie den Frame fallen. Ein Beispiel finden Sie in der Kurzanleitungs-Beispielanwendung in der KlasseVisionProcessorBase
. - Achten Sie bei Verwendung der
CameraX
API darauf, dass die Rückdruckstrategie auf den StandardwertImageAnalysis.STRATEGY_KEEP_ONLY_LATEST
festgelegt ist. Dadurch wird garantiert, dass jeweils nur ein Bild zur Analyse übermittelt wird. Wenn das Analyseprogramm ausgelastet ist, werden mehr Bilder erstellt, damit sie nicht zur Auslieferung in die Warteschlange gestellt werden. Sobald das analysierte Bild durch Aufrufen von ImageProxy.close() geschlossen wird, wird das nächste neueste Bild gesendet. - Wenn Sie die Ausgabe des Detektors verwenden, um Grafiken auf dem Eingabebild einzublenden, rufen Sie zuerst das Ergebnis aus ML Kit ab und rendern dann das Bild und das Overlay in einem einzigen Schritt. Wird für jeden Eingabeframe nur einmal auf der Anzeigeoberfläche gerendert. Ein Beispiel findest du in den Beispielklassen
CameraSourcePreview
undGraphicOverlay
. - Wenn Sie die Camera2 API verwenden, nehmen Sie Bilder im Format
ImageFormat.YUV_420_888
auf. Wenn Sie die ältere Camera API verwenden, nehmen Sie Bilder im FormatImageFormat.NV21
auf.
Nächste Schritte
- Weitere Informationen dazu, wie Sie Posen mithilfe von Sehenswürdigkeiten klassifizieren, finden Sie in den Tipps zur Klassifizierung von Punkten.