El Kit de AA proporciona dos SDK optimizados para la detección de poses.
Nombre del SDK | pose-detection | pose-detection-accurate |
---|---|---|
Implementación | El código y los elementos se vinculan de forma estática a tu app durante el tiempo de compilación. | El código y los elementos se vinculan de forma estática a tu app durante el tiempo de compilación. |
Impacto del tamaño de la app (incluidos el código y los recursos) | ~10.1MB | ~13.3MB |
Rendimiento | Pixel 3XL: ~30FPS | Pixel 3 XL: ~23 FPS con CPU, ~30 FPS con GPU |
Probar
- Prueba la app de ejemplo para ver un ejemplo de uso de esta API.
Antes de comenzar
- En tu archivo
build.gradle
de nivel de proyecto, asegúrate de incluir el repositorio Maven de Google en las seccionesbuildscript
yallprojects
. Agrega las dependencias para las bibliotecas de Android del Kit de AA al archivo Gradle a nivel de la app de tu módulo, que suele ser
app/build.gradle
:dependencies { // If you want to use the base sdk implementation 'com.google.mlkit:pose-detection:18.0.0-beta5' // If you want to use the accurate sdk implementation 'com.google.mlkit:pose-detection-accurate:18.0.0-beta5' }
1. Crea una instancia de PoseDetector
.
PoseDetector
opciones
Para detectar una pose en una imagen, primero crea una instancia de PoseDetector
y
si lo deseas, puedes especificar
la configuración del detector.
Modo de detección
PoseDetector
funciona en dos modos de detección. Asegúrate de elegir la que coincida
para tu caso de uso.
STREAM_MODE
(predeterminada)- El detector de poses primero detectará a una persona prominente en la imagen y, luego, ejecuta la detección de poses. En los fotogramas posteriores, el paso de detección de personas no se realizará, a menos que la persona sea o se ocultan o ya no se detectan con un alto nivel de confianza. El detector de poses rastrear a la persona más destacada y devolver su pose en cada la inferencia. Esto reduce la latencia y suaviza la detección. Usa este modo cuando detectar la pose en una transmisión de video por Internet.
SINGLE_IMAGE_MODE
- El detector de poses detectará a una persona y, luego, ejecutará la pose de detección de intrusiones. El paso de detección de personas se ejecutará para cada imagen, por lo que ser más altos y no hay seguimiento de personas. Usa este modo cuando uses la postura de detección en imágenes estáticas o en las que no se desea realizar un seguimiento.
Configuración del hardware
PoseDetector
admite varias configuraciones de hardware para optimizar.
rendimiento:
CPU
: Ejecuta el detector solo con CPU.CPU_GPU
: Ejecuta el detector con la CPU y la GPU.
Cuando compilas las opciones del detector, puedes usar la API
setPreferredHardwareConfigs
para controlar la selección de hardware De forma predeterminada,
se establecen todas las configuraciones de hardware como preferidas.
El Kit de AA tomará la disponibilidad, estabilidad, corrección y latencia de cada configuración.
y elijan la mejor de las configuraciones preferidas. Si ninguno de
se aplican los parámetros de configuración preferidos, se usará la configuración CPU
automáticamente
como resguardo. ML Kit realizará estas verificaciones y la preparación relacionada en un
sin bloqueo antes de habilitar una aceleración, por lo que es muy probable
primera vez que el usuario ejecute el detector, usará CPU
. Después de toda la
de preparación, se usará la mejor configuración en las siguientes ejecuciones.
Ejemplos de usos de setPreferredHardwareConfigs
:
- Para permitir que el Kit de AA elija la mejor configuración, no llames a esta API.
- Si no quieres habilitar ninguna aceleración, pasa solo
CPU
. - Si quieres usar la GPU para descargar la CPU, aunque la GPU pueda ser más lenta, pasa
en solo
CPU_GPU
.
Especifica las opciones del detector de poses:
// Base pose detector with streaming frames, when depending on the pose-detection sdk val options = PoseDetectorOptions.Builder() .setDetectorMode(PoseDetectorOptions.STREAM_MODE) .build() // Accurate pose detector on static images, when depending on the pose-detection-accurate sdk val options = AccuratePoseDetectorOptions.Builder() .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE) .build()
// Base pose detector with streaming frames, when depending on the pose-detection sdk PoseDetectorOptions options = new PoseDetectorOptions.Builder() .setDetectorMode(PoseDetectorOptions.STREAM_MODE) .build(); // Accurate pose detector on static images, when depending on the pose-detection-accurate sdk AccuratePoseDetectorOptions options = new AccuratePoseDetectorOptions.Builder() .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE) .build();
Por último, crea una instancia de PoseDetector
. Pasa las opciones que especificaste:
val poseDetector = PoseDetection.getClient(options)
PoseDetector poseDetector = PoseDetection.getClient(options);
2. Prepara la imagen de entrada
Para detectar poses en una imagen, crea un objeto InputImage
.
desde un Bitmap
, media.Image
, ByteBuffer
, array de bytes o un archivo en
el dispositivo. Por último, pasa el objeto InputImage
al
PoseDetector
Para detectar poses, debes usar una imagen con dimensiones de al menos 480 x 360 píxeles Si estás detectando poses en tiempo real, capturando fotogramas con esta resolución mínima puede ayudar a reducir la latencia.
Puedes crear un InputImage
objeto de diferentes fuentes, cada uno se explica a continuación.
Usa un media.Image
Para crear un elemento InputImage
, sigue estos pasos:
objeto de un objeto media.Image
, como cuando capturas una imagen de una
la cámara del dispositivo, pasa el objeto media.Image
y el
rotación a InputImage.fromMediaImage()
.
Si usas
biblioteca de CameraX, los elementos OnImageCapturedListener
y
Las clases ImageAnalysis.Analyzer
calculan el valor de rotación
por ti.
private class YourImageAnalyzer : ImageAnalysis.Analyzer { override fun analyze(imageProxy: ImageProxy) { val mediaImage = imageProxy.image if (mediaImage != null) { val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees) // Pass image to an ML Kit Vision API // ... } } }
private class YourAnalyzer implements ImageAnalysis.Analyzer { @Override public void analyze(ImageProxy imageProxy) { Image mediaImage = imageProxy.getImage(); if (mediaImage != null) { InputImage image = InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees()); // Pass image to an ML Kit Vision API // ... } } }
Si no usas una biblioteca de cámaras que indique el grado de rotación de la imagen, calcularlo a partir del grado de rotación del dispositivo y la orientación de la cámara sensor en el dispositivo:
private val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 0) ORIENTATIONS.append(Surface.ROTATION_90, 90) ORIENTATIONS.append(Surface.ROTATION_180, 180) ORIENTATIONS.append(Surface.ROTATION_270, 270) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // Get the device's sensor orientation. val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360 } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360 } return rotationCompensation }
private static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 0); ORIENTATIONS.append(Surface.ROTATION_90, 90); ORIENTATIONS.append(Surface.ROTATION_180, 180); ORIENTATIONS.append(Surface.ROTATION_270, 270); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // Get the device's sensor orientation. CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360; } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360; } return rotationCompensation; }
Luego, pasa el objeto media.Image
y el
valor de grado de rotación a InputImage.fromMediaImage()
:
val image = InputImage.fromMediaImage(mediaImage, rotation)
InputImage image = InputImage.fromMediaImage(mediaImage, rotation);
Usa un URI de archivo
Para crear un elemento InputImage
, sigue estos pasos:
objeto de un URI de archivo, pasa el contexto de la app y el URI del archivo a
InputImage.fromFilePath()
Esto es útil cuando
usa un intent ACTION_GET_CONTENT
para solicitarle al usuario que seleccione
una imagen de su app de galería.
val image: InputImage try { image = InputImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() }
InputImage image;
try {
image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
e.printStackTrace();
}
Usa un objeto ByteBuffer
o ByteArray
Para crear un elemento InputImage
, sigue estos pasos:
objeto de una ByteBuffer
o ByteArray
, primero calcula la imagen
grado de rotación como se describió anteriormente para la entrada media.Image
.
Luego, crea el objeto InputImage
con el búfer o array, junto con los atributos
El alto, el ancho, el formato de codificación de color y el grado de rotación:
val image = InputImage.fromByteBuffer( byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ) // Or: val image = InputImage.fromByteArray( byteArray, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 )
InputImage image = InputImage.fromByteBuffer(byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ); // Or: InputImage image = InputImage.fromByteArray( byteArray, /* image width */480, /* image height */360, rotation, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 );
Usa un Bitmap
Para crear un elemento InputImage
, sigue estos pasos:
objeto a partir de un objeto Bitmap
, realiza la siguiente declaración:
val image = InputImage.fromBitmap(bitmap, 0)
InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);
La imagen se representa con un objeto Bitmap
junto con los grados de rotación.
3. Procesa la imagen
Pasa el objeto InputImage
preparado al método process
de PoseDetector
.
Task<Pose> result = poseDetector.process(image) .addOnSuccessListener { results -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
Task<Pose> result = poseDetector.process(image) .addOnSuccessListener( new OnSuccessListener<Pose>() { @Override public void onSuccess(Pose pose) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });
4. Obtén información sobre la pose detectada
Si se detecta una persona en la imagen, la API de detección de poses muestra un Pose
.
con 33 PoseLandmark
s.
Si la persona no estaba completamente dentro de la imagen, el modelo asigna las coordenadas de los puntos de referencia faltantes fuera del marco y les InFrameConfidence.
Si no se detectó ninguna persona en el cuadro, Pose
El objeto no contiene PoseLandmark
.
// Get all PoseLandmarks. If no person was detected, the list will be empty val allPoseLandmarks = pose.getAllPoseLandmarks() // Or get specific PoseLandmarks individually. These will all be null if no person // was detected val leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER) val rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER) val leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW) val rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW) val leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST) val rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST) val leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP) val rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP) val leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE) val rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE) val leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE) val rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE) val leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY) val rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY) val leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX) val rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX) val leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB) val rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB) val leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL) val rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL) val leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX) val rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX) val nose = pose.getPoseLandmark(PoseLandmark.NOSE) val leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER) val leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE) val leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER) val rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER) val rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE) val rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER) val leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR) val rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR) val leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH) val rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH)
// Get all PoseLandmarks. If no person was detected, the list will be empty List<PoseLandmark> allPoseLandmarks = pose.getAllPoseLandmarks(); // Or get specific PoseLandmarks individually. These will all be null if no person // was detected PoseLandmark leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER); PoseLandmark rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER); PoseLandmark leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW); PoseLandmark rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW); PoseLandmark leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST); PoseLandmark rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST); PoseLandmark leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP); PoseLandmark rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP); PoseLandmark leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE); PoseLandmark rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE); PoseLandmark leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE); PoseLandmark rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE); PoseLandmark leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY); PoseLandmark rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY); PoseLandmark leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX); PoseLandmark rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX); PoseLandmark leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB); PoseLandmark rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB); PoseLandmark leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL); PoseLandmark rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL); PoseLandmark leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX); PoseLandmark rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX); PoseLandmark nose = pose.getPoseLandmark(PoseLandmark.NOSE); PoseLandmark leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER); PoseLandmark leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE); PoseLandmark leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER); PoseLandmark rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER); PoseLandmark rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE); PoseLandmark rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER); PoseLandmark leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR); PoseLandmark rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR); PoseLandmark leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH); PoseLandmark rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH);
Sugerencias para mejorar el rendimiento
La calidad de los resultados depende de la calidad de la imagen de entrada:
- Para que el Kit de AA detecte la pose con precisión, la persona que aparece en la imagen debe ser se debe representar con datos de píxeles suficientes; para obtener el mejor rendimiento, el sujeto debe Debe ser de, al menos, 256 x 256 píxeles.
- Si detectas la pose en una aplicación en tiempo real, también deberías considerar las dimensiones generales de las imágenes de entrada. Las imágenes más pequeñas se pueden procesar más rápido, así que, para reducir la latencia, captura imágenes con resoluciones más bajas, pero tenga en cuenta los requisitos de resolución anteriores y asegúrese de que el tema se ocupe la mayor parte posible de la imagen.
- Un enfoque de imagen deficiente también puede afectar la precisión. Si no obtienes resultados aceptables, pedirle al usuario que vuelva a capturar la imagen.
Si quieres usar la detección de poses en una aplicación en tiempo real, sigue estos lineamientos para lograr la mejor velocidad de fotogramas:
- Usa el SDK básico de detección de poses y
STREAM_MODE
. - Intenta capturar imágenes con una resolución más baja. Sin embargo, también ten en cuenta los requisitos de dimensiones de imágenes de esta API.
- Si usas
Camera
o API decamera2
, limitar las llamadas al detector. Si un video nuevo esté disponible mientras se ejecuta el detector, descarta el fotograma. Consulta laVisionProcessorBase
en la app de muestra de inicio rápido para ver un ejemplo. - Si usas la API de
CameraX
, asegúrate de que la estrategia de contrapresión se haya establecido en su valor predeterminadoImageAnalysis.STRATEGY_KEEP_ONLY_LATEST
De esta forma, se garantiza que solo se entregará una imagen a la vez para su análisis. Si hay más imágenes que se producen cuando el analizador está ocupado, se eliminarán automáticamente y no se agregarán a la cola la entrega de software. Una vez que la imagen que se está analizando se cierra con una llamada a ImageProxy.close(), se publicará la siguiente imagen más reciente. - Si usas la salida del detector para superponer gráficos
la imagen de entrada, primero obtén el resultado del Kit de AA y, luego, renderiza la imagen
y superponerla en un solo paso. Se renderiza en la superficie de visualización.
solo una vez para cada fotograma de entrada. Consulta la
CameraSourcePreview
yGraphicOverlay
en la app de muestra de inicio rápido para ver un ejemplo. - Si usas la API de Camera2, captura imágenes en
ImageFormat.YUV_420_888
. Si usas la API de Camera, captura imágenes enImageFormat.NV21
.
Próximos pasos
- Si quieres aprender a usar puntos de referencia para clasificar poses, consulta Sugerencias para la clasificación de poses.