El Kit de AA proporciona dos SDK optimizados para la detección de poses.
Nombre del SDK | detección de poses | pose-detección-precisión |
---|---|---|
Implementación | El código y los elementos se vinculan de forma estática a tu app durante el tiempo de compilación. | El código y los elementos se vinculan de forma estática a tu app durante el tiempo de compilación. |
Impacto del tamaño de la app (incluidos el código y los recursos) | ~10.1MB | ~13.3MB |
Rendimiento | Pixel 3XL: ~30FPS | Pixel 3 XL: ~23 FPS con CPU, ~30 FPS con GPU |
Probar
- Prueba la app de ejemplo para ver un ejemplo de uso de esta API.
Antes de comenzar
- En tu archivo
build.gradle
de nivel de proyecto, asegúrate de incluir el repositorio Maven de Google en las seccionesbuildscript
yallprojects
. Agrega las dependencias para las bibliotecas de Android del Kit de AA al archivo Gradle a nivel de la app de tu módulo, que suele ser
app/build.gradle
:dependencies { // If you want to use the base sdk implementation 'com.google.mlkit:pose-detection:18.0.0-beta4' // If you want to use the accurate sdk implementation 'com.google.mlkit:pose-detection-accurate:18.0.0-beta4' }
1. Crea una instancia de PoseDetector
.
PoseDetector
opciones
Para detectar una pose en una imagen, primero crea una instancia de PoseDetector
y, de manera opcional, especifica la configuración del detector.
Modo de detección
PoseDetector
funciona en dos modos de detección. Asegúrate de elegir la que mejor se adapte
a tu caso de uso.
STREAM_MODE
(predeterminado)- El detector de poses primero detectará a la persona más destacada de la imagen y, luego, ejecutará la detección de poses. En los fotogramas posteriores, no se realizará el paso de detección de personas, a menos que la persona se oculte o ya no se detecte con un alto grado de confianza. El detector de poses intentará rastrear a la persona más destacada y mostrar su pose en cada inferencia. Esto reduce la latencia y suaviza la detección. Úsalo cuando quieras detectar la pose en una transmisión de video por Internet.
SINGLE_IMAGE_MODE
- El detector de poses detectará a una persona y, luego, ejecutará la detección de poses. El paso de detección de personas se ejecutará para cada imagen, por lo que la latencia será mayor y no habrá seguimiento de personas. Usa este modo cuando uses la detección de poses en imágenes estáticas o cuando no desees realizar un seguimiento.
Configuración de hardware
PoseDetector
admite varias configuraciones de hardware para optimizar el rendimiento:
CPU
: Ejecuta el detector solo con CPU.CPU_GPU
: Ejecuta el detector con la CPU y la GPU.
Cuando compilas las opciones del detector, puedes usar la API setPreferredHardwareConfigs
para controlar la selección de hardware. De forma predeterminada, todas las configuraciones de hardware se establecen como preferidas.
El Kit de AA tendrá en cuenta la disponibilidad, estabilidad, corrección y latencia de cada configuración, y elegirá la mejor de las configuraciones preferidas. Si no se aplica ninguna de las configuraciones preferidas, la configuración de CPU
se usará de forma automática como resguardo. El Kit de AA realizará estas verificaciones y la preparación relacionada de una manera sin bloqueo antes de habilitar una aceleración, por lo que es probable que sea la primera vez que tu usuario ejecute el detector, use CPU
. Una vez finalizada
toda la preparación, se usará la mejor configuración en las siguientes ejecuciones.
Ejemplos de usos de setPreferredHardwareConfigs
:
- Para permitir que el Kit de AA elija la mejor configuración, no llames a esta API.
- Si no quieres habilitar ninguna aceleración, pasa solo
CPU
. - Si deseas usar la GPU para descargar la CPU, incluso si la GPU podría ser más lenta, solo pasa
CPU_GPU
.
Especifica las opciones del detector de poses:
Kotlin
// Base pose detector with streaming frames, when depending on the pose-detection sdk val options = PoseDetectorOptions.Builder() .setDetectorMode(PoseDetectorOptions.STREAM_MODE) .build() // Accurate pose detector on static images, when depending on the pose-detection-accurate sdk val options = AccuratePoseDetectorOptions.Builder() .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE) .build()
Java
// Base pose detector with streaming frames, when depending on the pose-detection sdk PoseDetectorOptions options = new PoseDetectorOptions.Builder() .setDetectorMode(PoseDetectorOptions.STREAM_MODE) .build(); // Accurate pose detector on static images, when depending on the pose-detection-accurate sdk AccuratePoseDetectorOptions options = new AccuratePoseDetectorOptions.Builder() .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE) .build();
Por último, crea una instancia de PoseDetector
. Pasa las opciones que especificaste:
Kotlin
val poseDetector = PoseDetection.getClient(options)
Java
PoseDetector poseDetector = PoseDetection.getClient(options);
2. Prepara la imagen de entrada
Para detectar poses en una imagen, crea un objeto InputImage
a partir de un Bitmap
, una media.Image
, un ByteBuffer
, un array de bytes o un archivo ubicado en el dispositivo. Luego, pasa el objeto InputImage
a PoseDetector
.
Para la detección de poses, debes usar una imagen con una dimensión de al menos 480 x 360 píxeles. Si detectas poses en tiempo real, capturar fotogramas con esta resolución mínima puede ayudar a reducir la latencia.
Puedes crear un objeto InputImage
a partir de diferentes fuentes; cada una se explica a continuación.
Usa un media.Image
Para crear un objeto InputImage
a partir de un objeto media.Image
, como cuando capturas una imagen con la cámara de un dispositivo, pasa el objeto media.Image
y la rotación de la imagen a InputImage.fromMediaImage()
.
Si usas la biblioteca
CameraX, las clases OnImageCapturedListener
y ImageAnalysis.Analyzer
calculan el valor de rotación por ti.
Kotlin
private class YourImageAnalyzer : ImageAnalysis.Analyzer { override fun analyze(imageProxy: ImageProxy) { val mediaImage = imageProxy.image if (mediaImage != null) { val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees) // Pass image to an ML Kit Vision API // ... } } }
Java
private class YourAnalyzer implements ImageAnalysis.Analyzer { @Override public void analyze(ImageProxy imageProxy) { Image mediaImage = imageProxy.getImage(); if (mediaImage != null) { InputImage image = InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees()); // Pass image to an ML Kit Vision API // ... } } }
Si no usas una biblioteca de cámaras que te proporcione el grado de rotación de la imagen, puedes calcularla a partir del grado de rotación del dispositivo y la orientación del sensor de la cámara en el dispositivo:
Kotlin
private val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 0) ORIENTATIONS.append(Surface.ROTATION_90, 90) ORIENTATIONS.append(Surface.ROTATION_180, 180) ORIENTATIONS.append(Surface.ROTATION_270, 270) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // Get the device's sensor orientation. val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360 } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360 } return rotationCompensation }
Java
private static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 0); ORIENTATIONS.append(Surface.ROTATION_90, 90); ORIENTATIONS.append(Surface.ROTATION_180, 180); ORIENTATIONS.append(Surface.ROTATION_270, 270); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // Get the device's sensor orientation. CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360; } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360; } return rotationCompensation; }
Luego, pasa el objeto media.Image
y el valor de grado de rotación a InputImage.fromMediaImage()
:
Kotlin
val image = InputImage.fromMediaImage(mediaImage, rotation)
Java
InputImage image = InputImage.fromMediaImage(mediaImage, rotation);
Usa un URI de archivo
Para crear un objeto InputImage
a partir de un URI de archivo, pasa el contexto de la app y el URI de archivo a InputImage.fromFilePath()
. Esto es útil cuando usas un intent ACTION_GET_CONTENT
para solicitarle al usuario que seleccione una imagen de su app de galería.
Kotlin
val image: InputImage try { image = InputImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() }
Java
InputImage image; try { image = InputImage.fromFilePath(context, uri); } catch (IOException e) { e.printStackTrace(); }
Usa un objeto ByteBuffer
o ByteArray
Para crear un objeto InputImage
a partir de un objeto ByteBuffer
o ByteArray
, primero calcula el grado de rotación de la imagen como se describió anteriormente para la entrada media.Image
.
Luego, crea el objeto InputImage
con el búfer o array, junto con la altura,
el ancho, el formato de codificación de color y el grado de rotación de la imagen:
Kotlin
val image = InputImage.fromByteBuffer( byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ) // Or: val image = InputImage.fromByteArray( byteArray, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 )
Java
InputImage image = InputImage.fromByteBuffer(byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ); // Or: InputImage image = InputImage.fromByteArray( byteArray, /* image width */480, /* image height */360, rotation, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 );
Usa un Bitmap
Para crear un objeto InputImage
a partir de un objeto Bitmap
, realiza la siguiente declaración:
Kotlin
val image = InputImage.fromBitmap(bitmap, 0)
Java
InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);
La imagen se representa con un objeto Bitmap
junto con los grados de rotación.
3. Procesa la imagen
Pasa el objeto InputImage
preparado al método process
de PoseDetector
.
Kotlin
Task<Pose> result = poseDetector.process(image) .addOnSuccessListener { results -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
Java
Task<Pose> result = poseDetector.process(image) .addOnSuccessListener( new OnSuccessListener<Pose>() { @Override public void onSuccess(Pose pose) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });
4. Obtén información sobre la pose detectada
Si se detecta una persona en la imagen, la API de detección de poses muestra un objeto Pose
con 33 PoseLandmark
.
Si la persona no estaba completamente dentro de la imagen, el modelo asigna las coordenadas de los puntos de referencia faltantes fuera del marco y les otorga valores bajos de InFrameConfidence.
Si no se detectó ninguna persona en el marco, el objeto Pose
no contiene PoseLandmark
.
Kotlin
// Get all PoseLandmarks. If no person was detected, the list will be empty val allPoseLandmarks = pose.getAllPoseLandmarks() // Or get specific PoseLandmarks individually. These will all be null if no person // was detected val leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER) val rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER) val leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW) val rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW) val leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST) val rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST) val leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP) val rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP) val leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE) val rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE) val leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE) val rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE) val leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY) val rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY) val leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX) val rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX) val leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB) val rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB) val leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL) val rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL) val leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX) val rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX) val nose = pose.getPoseLandmark(PoseLandmark.NOSE) val leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER) val leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE) val leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER) val rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER) val rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE) val rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER) val leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR) val rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR) val leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH) val rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH)
Java
// Get all PoseLandmarks. If no person was detected, the list will be empty List<PoseLandmark> allPoseLandmarks = pose.getAllPoseLandmarks(); // Or get specific PoseLandmarks individually. These will all be null if no person // was detected PoseLandmark leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER); PoseLandmark rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER); PoseLandmark leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW); PoseLandmark rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW); PoseLandmark leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST); PoseLandmark rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST); PoseLandmark leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP); PoseLandmark rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP); PoseLandmark leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE); PoseLandmark rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE); PoseLandmark leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE); PoseLandmark rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE); PoseLandmark leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY); PoseLandmark rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY); PoseLandmark leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX); PoseLandmark rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX); PoseLandmark leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB); PoseLandmark rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB); PoseLandmark leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL); PoseLandmark rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL); PoseLandmark leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX); PoseLandmark rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX); PoseLandmark nose = pose.getPoseLandmark(PoseLandmark.NOSE); PoseLandmark leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER); PoseLandmark leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE); PoseLandmark leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER); PoseLandmark rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER); PoseLandmark rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE); PoseLandmark rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER); PoseLandmark leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR); PoseLandmark rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR); PoseLandmark leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH); PoseLandmark rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH);
Sugerencias para mejorar el rendimiento
La calidad de los resultados depende de la calidad de la imagen de entrada:
- Para que el Kit de AA detecte la pose con precisión, la persona en la imagen debe estar representada con suficientes datos de píxeles. Para obtener el mejor rendimiento, el sujeto debe tener al menos 256 × 256 píxeles.
- Si detectas la pose en una aplicación en tiempo real, te recomendamos que consideres las dimensiones generales de las imágenes de entrada. Las imágenes más pequeñas se pueden procesar más rápido. Por lo tanto, para reducir la latencia, captura imágenes con resoluciones más bajas, pero ten en cuenta los requisitos de resolución anteriores y asegúrate de que el objeto ocupe la mayor parte posible de la imagen.
- Un enfoque de imagen deficiente también puede afectar la precisión. Si no obtienes resultados aceptables, pídele al usuario que vuelva a capturar la imagen.
Si quieres usar la detección de poses en una aplicación en tiempo real, sigue estos lineamientos para lograr la mejor velocidad de fotogramas:
- Usa el SDK básico de detección de poses y
STREAM_MODE
. - Intenta capturar imágenes con una resolución más baja. Sin embargo, también ten en cuenta los requisitos de dimensiones de imágenes de esta API.
- Si usas la API de
Camera
ocamera2
, limita las llamadas al detector. Si hay un fotograma de video nuevo disponible mientras se ejecuta el detector, descártalo. Consulta la claseVisionProcessorBase
en la app de muestra de la guía de inicio rápido para ver un ejemplo. - Si usas la API de
CameraX
, asegúrate de que la estrategia de contrapresión esté configurada en su valor predeterminadoImageAnalysis.STRATEGY_KEEP_ONLY_LATEST
. De esta forma, se garantiza que solo se entregará una imagen a la vez para su análisis. Si se producen más imágenes cuando el analizador está ocupado, se descartarán automáticamente y no se agregarán a la cola para su entrega. Una vez que la imagen que se analiza se cierra mediante una llamada a ImageProxy.close(), se publica la siguiente imagen más reciente. - Si usas la salida del detector para superponer gráficos en la imagen de entrada, primero obtén el resultado del Kit de AA y, luego, procesa la imagen y la superposición en un solo paso. Esto se renderiza en la superficie de visualización solo una vez por cada fotograma de entrada. Consulta las clases
CameraSourcePreview
yGraphicOverlay
en la app de ejemplo de la guía de inicio rápido para ver un ejemplo. - Si usas la API de Camera2, captura imágenes en formato
ImageFormat.YUV_420_888
. Si usas la API de Camera, captura imágenes en formatoImageFormat.NV21
.
Próximos pasos
- Si quieres aprender a usar puntos de referencia para clasificar poses, consulta Sugerencias para la clasificación de poses.