Эта страница переведена с помощью Cloud Translation API.

Обнаружение поз с помощью ML Kit на Android

ML Kit предоставляет два оптимизированных SDK для определения позы.

Имя SDK	обнаружение позы	точное определение позы
Выполнение	Код и ресурсы статически связываются с вашим приложением во время сборки.	Код и ресурсы статически связываются с вашим приложением во время сборки.
Влияние размера приложения (включая код и ресурсы)	~10,1 МБ	~13,3 МБ
Производительность	Пиксель 3XL: ~30 кадров в секунду	Pixel 3XL: ~23 кадра в секунду с процессором, ~30 кадров в секунду с графическим процессором.

Попробуйте это

Поэкспериментируйте с примером приложения, чтобы увидеть пример использования этого API.

Прежде чем начать

Для этого API требуется Android API уровня 21 или выше. Убедитесь, что в файле сборки вашего приложения используется значение minSdkVersion 21 или выше.

В файле build.gradle на уровне проекта обязательно включите репозиторий Google Maven как в buildscript , так и в разделы allprojects .

Добавьте зависимости для библиотек Android ML Kit в файл градиента уровня приложения вашего модуля, который обычно имеет app/build.gradle :

dependencies {
  // If you want to use the base sdk
  implementation 'com.google.mlkit:pose-detection:18.0.0-beta5'
  // If you want to use the accurate sdk
  implementation 'com.google.mlkit:pose-detection-accurate:18.0.0-beta5'
}

1. Создайте экземпляр `PoseDetector`

Опции `PoseDetector`

Чтобы обнаружить позу на изображении, сначала создайте экземпляр PoseDetector и при необходимости укажите настройки детектора.

Режим обнаружения

PoseDetector работает в двух режимах обнаружения. Убедитесь, что вы выбрали тот, который соответствует вашему варианту использования.

STREAM_MODE (по умолчанию): Детектор позы сначала обнаружит самого заметного человека на изображении, а затем запустит определение позы. В последующих кадрах этап обнаружения человека не будет выполняться, пока человек не станет скрытым или не будет обнаружен с высокой степенью достоверности. Детектор позы попытается отследить наиболее выдающегося человека и вернуть его позу при каждом выводе. Это уменьшает задержку и упрощает обнаружение. Используйте этот режим, если вы хотите обнаружить позу в видеопотоке.
SINGLE_IMAGE_MODE: Детектор позы обнаружит человека, а затем запустит обнаружение позы. Этап обнаружения человека будет выполняться для каждого изображения, поэтому задержка будет выше, а отслеживание людей не будет выполняться. Используйте этот режим при использовании определения позы на статических изображениях или там, где отслеживание нежелательно.

Конфигурация оборудования

PoseDetector поддерживает несколько конфигураций оборудования для оптимизации производительности:

CPU : запустите детектор, используя только CPU.
CPU_GPU : запустить детектор, используя как ЦП, так и графический процессор.

При создании параметров детектора вы можете использовать API setPreferredHardwareConfigs для управления выбором оборудования. По умолчанию все конфигурации оборудования установлены как предпочтительные.

ML Kit учтет доступность, стабильность, правильность и задержку каждой конфигурации и выберет лучшую из предпочтительных конфигураций. Если ни одна из предпочтительных конфигураций не применима, конфигурация CPU будет автоматически использована в качестве резервной. ML Kit выполнит эти проверки и соответствующую подготовку неблокирующим способом перед включением какого-либо ускорения, поэтому, скорее всего, при первом запуске детектора ваш пользователь будет использовать CPU . После завершения всей подготовки лучшая конфигурация будет использоваться в следующих запусках.

Пример использования setPreferredHardwareConfigs :

Чтобы позволить ML Kit выбрать лучшую конфигурацию, не вызывайте этот API.
Если вы не хотите включать какое-либо ускорение, укажите только CPU .
Если вы хотите использовать графический процессор для разгрузки процессора, даже если графический процессор может работать медленнее, передайте только CPU_GPU .

Укажите параметры детектора позы:

Котлин

// Base pose detector with streaming frames, when depending on the pose-detection sdk
val options = PoseDetectorOptions.Builder()
    .setDetectorMode(PoseDetectorOptions.STREAM_MODE)
    .build()

// Accurate pose detector on static images, when depending on the pose-detection-accurate sdk
val options = AccuratePoseDetectorOptions.Builder()
    .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE)
    .build()

Ява

// Base pose detector with streaming frames, when depending on the pose-detection sdk
PoseDetectorOptions options =
   new PoseDetectorOptions.Builder()
       .setDetectorMode(PoseDetectorOptions.STREAM_MODE)
       .build();

// Accurate pose detector on static images, when depending on the pose-detection-accurate sdk
AccuratePoseDetectorOptions options =
   new AccuratePoseDetectorOptions.Builder()
       .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE)
       .build();

Наконец, создайте экземпляр PoseDetector . Передайте указанные вами параметры:

Котлин

val poseDetector = PoseDetection.getClient(options)

Ява

PoseDetector poseDetector = PoseDetection.getClient(options);

2. Подготовьте входное изображение

Чтобы обнаружить позы на изображении, создайте объект InputImage из Bitmap , media.Image , ByteBuffer , байтового массива или файла на устройстве. Затем передайте объект InputImage в PoseDetector .

Для определения позы следует использовать изображение размером не менее 480x360 пикселей. Если вы распознаете позы в реальном времени, съемка кадров с этим минимальным разрешением может помочь уменьшить задержку.

Вы можете создать объект InputImage из разных источников, каждый из которых описан ниже.

Использование `media.Image`

Чтобы создать объект InputImage из объекта media.Image , например, при захвате изображения с камеры устройства, передайте объект media.Image и поворот изображения в InputImage.fromMediaImage() .

Если вы используете библиотеку CameraX , классы OnImageCapturedListener и ImageAnalysis.Analyzer вычисляют значение поворота за вас.

Котлин

private class YourImageAnalyzer : ImageAnalysis.Analyzer {

    override fun analyze(imageProxy: ImageProxy) {
        val mediaImage = imageProxy.image
        if (mediaImage != null) {
            val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees)
            // Pass image to an ML Kit Vision API
            // ...
        }
    }
}

Ява

private class YourAnalyzer implements ImageAnalysis.Analyzer {

    @Override
    public void analyze(ImageProxy imageProxy) {
        Image mediaImage = imageProxy.getImage();
        if (mediaImage != null) {
          InputImage image =
                InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees());
          // Pass image to an ML Kit Vision API
          // ...
        }
    }
}

Если вы не используете библиотеку камер, которая дает вам степень поворота изображения, вы можете рассчитать ее на основе степени поворота устройства и ориентации датчика камеры в устройстве:

Котлин

private val ORIENTATIONS = SparseIntArray()

init {
    ORIENTATIONS.append(Surface.ROTATION_0, 0)
    ORIENTATIONS.append(Surface.ROTATION_90, 90)
    ORIENTATIONS.append(Surface.ROTATION_180, 180)
    ORIENTATIONS.append(Surface.ROTATION_270, 270)
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
@Throws(CameraAccessException::class)
private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    val deviceRotation = activity.windowManager.defaultDisplay.rotation
    var rotationCompensation = ORIENTATIONS.get(deviceRotation)

    // Get the device's sensor orientation.
    val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager
    val sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION)!!

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360
    }
    return rotationCompensation
}MLKitVisionImage.kt

Ява

private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
static {
    ORIENTATIONS.append(Surface.ROTATION_0, 0);
    ORIENTATIONS.append(Surface.ROTATION_90, 90);
    ORIENTATIONS.append(Surface.ROTATION_180, 180);
    ORIENTATIONS.append(Surface.ROTATION_270, 270);
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing)
        throws CameraAccessException {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
    int rotationCompensation = ORIENTATIONS.get(deviceRotation);

    // Get the device's sensor orientation.
    CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE);
    int sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION);

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360;
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360;
    }
    return rotationCompensation;
}

Затем передайте объект media.Image и значение степени поворота в InputImage.fromMediaImage() :

Котлин

val image = InputImage.fromMediaImage(mediaImage, rotation)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromMediaImage(mediaImage, rotation);

Использование URI файла

Чтобы создать объект InputImage из URI файла, передайте контекст приложения и URI файла в InputImage.fromFilePath() . Это полезно, когда вы используете намерение ACTION_GET_CONTENT , чтобы предложить пользователю выбрать изображение из приложения галереи.

Котлин

val image: InputImage
try {
    image = InputImage.fromFilePath(context, uri)
} catch (e: IOException) {
    e.printStackTrace()
}MLKitVisionImage.kt

Java

InputImage image;
try {
    image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
    e.printStackTrace();
}

Использование `ByteBuffer` или `ByteArray`

Чтобы создать объект InputImage из ByteBuffer или ByteArray , сначала вычислите степень поворота изображения, как описано ранее для ввода media.Image . Затем создайте объект InputImage с буфером или массивом вместе с высотой, шириной изображения, форматом цветовой кодировки и степенью поворота:

Котлин

val image = InputImage.fromByteBuffer(
        byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)MLKitVisionImage.kt
// Or:
val image = InputImage.fromByteArray(
        byteArray,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)
MLKitVisionImage.kt

Ява

InputImage image = InputImage.fromByteBuffer(byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java
// Or:
InputImage image = InputImage.fromByteArray(
        byteArray,
        /* image width */480,
        /* image height */360,
        rotation,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);MLKitVisionImage.java

Использование `Bitmap`

Чтобы создать объект InputImage из объекта Bitmap , сделайте следующее объявление:

Котлин

val image = InputImage.fromBitmap(bitmap, 0)MLKitVisionImage.kt

Java

InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);MLKitVisionImage.java

Изображение представлено объектом Bitmap вместе с градусами поворота.

3. Обработка изображения

Передайте подготовленный объект InputImage в метод process PoseDetector .

Котлин

Task<Pose> result = poseDetector.process(image)
       .addOnSuccessListener { results ->
           // Task completed successfully
           // ...
       }
       .addOnFailureListener { e ->
           // Task failed with an exception
           // ...
       }

Ява

Task<Pose> result =
        poseDetector.process(image)
                .addOnSuccessListener(
                        new OnSuccessListener<Pose>() {
                            @Override
                            public void onSuccess(Pose pose) {
                                // Task completed successfully
                                // ...
                            }
                        })
                .addOnFailureListener(
                        new OnFailureListener() {
                            @Override
                            public void onFailure(@NonNull Exception e) {
                                // Task failed with an exception
                                // ...
                            }
                        });

Примечание. Если вы используете API CameraX , обязательно закройте ImageProxy после завершения его использования, например, добавив OnCompleteListener в Task возвращаемую из метода process . Пример см. в классе VisionProcessorBase в примере приложения для быстрого запуска.

4. Получить информацию об обнаруженной позе

Если на изображении обнаружен человек, API обнаружения позы возвращает объект Pose с 33 объектами PoseLandmark .

Если человек не находился полностью внутри изображения, модель присваивает координаты недостающих ориентиров за пределами кадра и присваивает им низкие значения InFrameConfidence.

Если в кадре не было обнаружено ни одного человека, объект Pose не содержит PoseLandmark s.

Котлин

// Get all PoseLandmarks. If no person was detected, the list will be empty
val allPoseLandmarks = pose.getAllPoseLandmarks()

// Or get specific PoseLandmarks individually. These will all be null if no person
// was detected
val leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER)
val rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER)
val leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW)
val rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW)
val leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST)
val rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST)
val leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP)
val rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP)
val leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE)
val rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE)
val leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE)
val rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE)
val leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY)
val rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY)
val leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX)
val rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX)
val leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB)
val rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB)
val leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL)
val rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL)
val leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX)
val rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX)
val nose = pose.getPoseLandmark(PoseLandmark.NOSE)
val leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER)
val leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE)
val leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER)
val rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER)
val rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE)
val rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER)
val leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR)
val rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR)
val leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH)
val rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH)

Ява

// Get all PoseLandmarks. If no person was detected, the list will be empty
List<PoseLandmark> allPoseLandmarks = pose.getAllPoseLandmarks();

// Or get specific PoseLandmarks individually. These will all be null if no person
// was detected
PoseLandmark leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER);
PoseLandmark rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER);
PoseLandmark leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW);
PoseLandmark rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW);
PoseLandmark leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST);
PoseLandmark rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST);
PoseLandmark leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP);
PoseLandmark rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP);
PoseLandmark leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE);
PoseLandmark rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE);
PoseLandmark leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE);
PoseLandmark rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE);
PoseLandmark leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY);
PoseLandmark rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY);
PoseLandmark leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX);
PoseLandmark rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX);
PoseLandmark leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB);
PoseLandmark rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB);
PoseLandmark leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL);
PoseLandmark rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL);
PoseLandmark leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX);
PoseLandmark rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX);
PoseLandmark nose = pose.getPoseLandmark(PoseLandmark.NOSE);
PoseLandmark leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER);
PoseLandmark leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE);
PoseLandmark leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER);
PoseLandmark rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER);
PoseLandmark rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE);
PoseLandmark rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER);
PoseLandmark leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR);
PoseLandmark rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR);
PoseLandmark leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH);
PoseLandmark rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH);

Советы по повышению производительности

Качество результатов зависит от качества входного изображения:

Чтобы ML Kit мог точно определить позу, человек на изображении должен быть представлен достаточным количеством пиксельных данных; для достижения наилучшего качества размер объекта должен быть не менее 256x256 пикселей.
Если вы обнаруживаете позу в приложении реального времени, вам также может потребоваться учитывать общие размеры входных изображений. Изображения меньшего размера можно обрабатывать быстрее, поэтому, чтобы уменьшить задержку, снимайте изображения с более низким разрешением, но помните о вышеуказанных требованиях к разрешению и следите за тем, чтобы объект занимал как можно большую часть изображения.
Плохая фокусировка изображения также может повлиять на точность. Если вы не получили приемлемых результатов, попросите пользователя повторно сделать снимок.

Если вы хотите использовать определение позы в приложении реального времени, следуйте этим рекомендациям для достижения наилучшей частоты кадров:

Используйте базовый SDK для обнаружения поз и STREAM_MODE .
Рассмотрите возможность захвата изображений с более низким разрешением. Однако также имейте в виду требования к размеру изображения этого API.
Если вы используете API-интерфейс Camera или camera2 , регулируйте вызовы детектора. Если новый видеокадр становится доступным во время работы детектора, удалите этот кадр. Пример см. в классе VisionProcessorBase в примере приложения для быстрого запуска.
Если вы используете API CameraX , убедитесь, что для стратегии обратного давления установлено значение по умолчанию ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST . Это гарантирует, что для анализа одновременно будет передано только одно изображение. Если во время занятости анализатора создаются дополнительные изображения, они будут автоматически удалены и не будут поставлены в очередь для доставки. Как только анализируемое изображение будет закрыто с помощью вызова ImageProxy.close(), будет доставлено следующее последнее изображение.
Если вы используете выходные данные детектора для наложения графики на входное изображение, сначала получите результат из ML Kit, затем визуализируйте изображение и наложите его за один шаг. Это визуализируется на поверхности дисплея только один раз для каждого входного кадра. Пример см. в классах CameraSourcePreview и GraphicOverlay в примере приложения для быстрого запуска.
Если вы используете API Camera2, захватывайте изображения в формате ImageFormat.YUV_420_888 . Если вы используете более старый API камеры, захватывайте изображения в формате ImageFormat.NV21 .

Следующие шаги

Чтобы узнать, как использовать ориентиры поз для классификации поз, см. Советы по классификации поз .

Обнаружение поз с помощью ML Kit на Android

Попробуйте это

Прежде чем начать

1. Создайте экземпляр PoseDetector

Опции PoseDetector

Режим обнаружения

Конфигурация оборудования

Котлин

Ява

Котлин

Ява

2. Подготовьте входное изображение

Использование media.Image

Котлин

Ява

Котлин

Ява

Котлин

Java

Использование URI файла

Котлин

Java

Использование ByteBuffer или ByteArray

Котлин

Ява

Использование Bitmap

Котлин

Java

3. Обработка изображения

Котлин

Ява

4. Получить информацию об обнаруженной позе

Котлин

Ява

Советы по повышению производительности

Следующие шаги

1. Создайте экземпляр `PoseDetector`

Опции `PoseDetector`

Использование `media.Image`

Использование `ByteBuffer` или `ByteArray`

Использование `Bitmap`