ML Kit udostępnia 2 zoptymalizowane pakiety SDK do wykrywania pozycji.
Nazwa pakietu SDK | wykrywanie pozycji | precyzyjne wykrywanie pozycji |
---|---|---|
Implementacja | Kod i zasoby są statycznie połączone z aplikacją w czasie kompilacji. | Kod i zasoby są statycznie połączone z aplikacją w czasie kompilacji. |
Wpływ na rozmiar aplikacji (w tym kod i komponenty) | Ok.10,1 MB | Ok.13,3 MB |
Występy | Pixel 3XL: ~30 kl./s | Pixel 3XL: ~23 FPS z CPU, ~30 FPS z GPU |
Wypróbuj
- Przetestuj przykładową aplikację, aby zobaczyć przykład użycia tego interfejsu API.
Zanim zaczniesz
- Upewnij się, że w sekcji
buildscript
iallprojects
w plikubuild.gradle
na poziomie projektu znajduje się repozytorium Google Maven. Dodaj zależności dla bibliotek ML Kit na Androida do pliku Gradle na poziomie modułu. Zwykle ma on postać
app/build.gradle
:dependencies { // If you want to use the base sdk implementation 'com.google.mlkit:pose-detection:18.0.0-beta4' // If you want to use the accurate sdk implementation 'com.google.mlkit:pose-detection-accurate:18.0.0-beta4' }
1. Utwórz instancję PoseDetector
Opcje: PoseDetector
Aby wykryć pozę na obrazie, najpierw utwórz instancję PoseDetector
i opcjonalnie określ ustawienia wzorca do wykrywania treści.
Tryb wykrywania
PoseDetector
działa w 2 trybach wykrywania. Wybierz taki, który pasuje
do Twojego przypadku użycia.
STREAM_MODE
(domyślnie)- Wykrywanie pozycji najpierw wykryje najwyższą osobę na zdjęciu, a potem uruchomi wykrywanie pozycji. W kolejnych klatkach etap wykrywania osoby nie zostanie przeprowadzony, chyba że osoba ta pojawi się w cieniu lub nie będzie już wykryta z dużym prawdopodobieństwem. Wykrywanie pozycji spróbuje śledzić najbardziej widoczną osobę i przy każdym wnioskowaniu określać pozycję. Pozwala to skrócić czas oczekiwania i płynnie wykrywać wykrywanie. Użyj tego trybu, gdy chcesz wykryć pozę w strumieniu wideo.
SINGLE_IMAGE_MODE
- Wykrywanie pozycji wykryje osobę, a następnie uruchomi wykrywanie pozycji. Etap wykrywania osób będzie przeprowadzany dla każdego obrazu, więc opóźnienia będą większe i nie będzie funkcji śledzenia osób. Użyj tego trybu, gdy wykrywasz pozycję na obrazach statycznych lub gdy śledzenie nie jest pożądane.
Konfiguracja sprzętowa
PoseDetector
obsługuje wiele konfiguracji sprzętowych w celu optymalizacji wydajności:
CPU
: uruchom detektor tylko przy użyciu procesoraCPU_GPU
: uruchom detektor przy użyciu CPU i GPU
Podczas tworzenia opcji wykrywania możesz użyć interfejsu API setPreferredHardwareConfigs
do kontrolowania wyboru sprzętu. Domyślnie wszystkie konfiguracje sprzętowe są ustawione jako preferowane.
ML Kit uwzględni dostępność, stabilność, poprawność i czas oczekiwania każdej konfiguracji, a następnie wybierze najlepszą z nich. Jeśli nie ma zastosowania żadna z preferowanych konfiguracji, jako zastępcza używana jest automatycznie konfiguracja CPU
. Przed włączeniem akceleracji ML Kit przeprowadzi te testy i powiązane z nimi przygotowania w sposób nieblokujący, dlatego najprawdopodobniej po raz pierwszy użytkownik uruchomi detektor, wykorzysta CPU
. Gdy wszystkie przygotowania dobiegną końca, w kolejnych uruchomieniach zostanie użyta najlepsza konfiguracja.
Przykładowe zastosowania właściwości setPreferredHardwareConfigs
:
- Aby umożliwić ML Kit wybranie najlepszej konfiguracji, nie wywołuj tego interfejsu API.
- Jeśli nie chcesz włączać akceleracji, prześlij tylko
CPU
. - Jeśli chcesz użyć GPU do odciążenia procesora, nawet jeśli może on być wolniejszy, przekaż tylko
CPU_GPU
.
Określ opcje wykrywania pozycji:
Kotlin
// Base pose detector with streaming frames, when depending on the pose-detection sdk val options = PoseDetectorOptions.Builder() .setDetectorMode(PoseDetectorOptions.STREAM_MODE) .build() // Accurate pose detector on static images, when depending on the pose-detection-accurate sdk val options = AccuratePoseDetectorOptions.Builder() .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE) .build()
Java
// Base pose detector with streaming frames, when depending on the pose-detection sdk PoseDetectorOptions options = new PoseDetectorOptions.Builder() .setDetectorMode(PoseDetectorOptions.STREAM_MODE) .build(); // Accurate pose detector on static images, when depending on the pose-detection-accurate sdk AccuratePoseDetectorOptions options = new AccuratePoseDetectorOptions.Builder() .setDetectorMode(AccuratePoseDetectorOptions.SINGLE_IMAGE_MODE) .build();
Na koniec utwórz instancję PoseDetector
. Przekaż określone opcje:
Kotlin
val poseDetector = PoseDetection.getClient(options)
Java
PoseDetector poseDetector = PoseDetection.getClient(options);
2. Przygotowywanie obrazu wejściowego
Aby wykrywać pozycje na obrazie, utwórz obiekt InputImage
z Bitmap
, media.Image
, ByteBuffer
, tablicy bajtów lub pliku na urządzeniu. Następnie przekaż obiekt InputImage
do interfejsu PoseDetector
.
Do wykrywania pozycji użyj obrazu o wymiarach co najmniej 480 x 360 pikseli. Jeśli wykrywasz pozycje w czasie rzeczywistym, nagrywanie klatek w tej minimalnej rozdzielczości może pomóc w zmniejszeniu czasu oczekiwania.
Obiekt InputImage
możesz tworzyć z różnych źródeł. Zostały one wyjaśnione poniżej.
Przy użyciu: media.Image
Aby utworzyć obiekt InputImage
z obiektu media.Image
, na przykład podczas robienia zdjęcia aparatem urządzenia, przekaż obiekt media.Image
i obrót obrazu do wartości InputImage.fromMediaImage()
.
Jeśli używasz biblioteki
KameraX, klasy OnImageCapturedListener
i ImageAnalysis.Analyzer
obliczają za Ciebie wartość rotacji.
Kotlin
private class YourImageAnalyzer : ImageAnalysis.Analyzer { override fun analyze(imageProxy: ImageProxy) { val mediaImage = imageProxy.image if (mediaImage != null) { val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees) // Pass image to an ML Kit Vision API // ... } } }
Java
private class YourAnalyzer implements ImageAnalysis.Analyzer { @Override public void analyze(ImageProxy imageProxy) { Image mediaImage = imageProxy.getImage(); if (mediaImage != null) { InputImage image = InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees()); // Pass image to an ML Kit Vision API // ... } } }
Jeśli nie korzystasz z biblioteki aparatu, która określa stopień obrotu obrazu, możesz ją obliczyć na podstawie stopnia obrotu urządzenia i orientacji czujnika aparatu:
Kotlin
private val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 0) ORIENTATIONS.append(Surface.ROTATION_90, 90) ORIENTATIONS.append(Surface.ROTATION_180, 180) ORIENTATIONS.append(Surface.ROTATION_270, 270) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // Get the device's sensor orientation. val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360 } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360 } return rotationCompensation }
Java
private static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 0); ORIENTATIONS.append(Surface.ROTATION_90, 90); ORIENTATIONS.append(Surface.ROTATION_180, 180); ORIENTATIONS.append(Surface.ROTATION_270, 270); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // Get the device's sensor orientation. CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360; } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360; } return rotationCompensation; }
Następnie przekaż obiekt media.Image
i wartość stopnia obrotu do InputImage.fromMediaImage()
:
Kotlin
val image = InputImage.fromMediaImage(mediaImage, rotation)
Java
InputImage image = InputImage.fromMediaImage(mediaImage, rotation);
Korzystanie z identyfikatora URI pliku
Aby utworzyć obiekt InputImage
na podstawie identyfikatora URI pliku, przekaż kontekst aplikacji i identyfikator URI pliku do InputImage.fromFilePath()
. Jest to przydatne, gdy używasz intencji ACTION_GET_CONTENT
, aby prosić użytkownika o wybranie obrazu z aplikacji galerii.
Kotlin
val image: InputImage try { image = InputImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() }
Java
InputImage image; try { image = InputImage.fromFilePath(context, uri); } catch (IOException e) { e.printStackTrace(); }
Za pomocą: ByteBuffer
lub ByteArray
Aby utworzyć obiekt InputImage
na podstawie ByteBuffer
lub ByteArray
, najpierw oblicz stopień obrotu obrazu zgodnie z opisem powyżej dla danych wejściowych media.Image
.
Następnie utwórz obiekt InputImage
z buforem lub tablicą oraz podaj wysokość, szerokość, format kodowania kolorów i stopień obrotu obrazu:
Kotlin
val image = InputImage.fromByteBuffer( byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ) // Or: val image = InputImage.fromByteArray( byteArray, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 )
Java
InputImage image = InputImage.fromByteBuffer(byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ); // Or: InputImage image = InputImage.fromByteArray( byteArray, /* image width */480, /* image height */360, rotation, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 );
Przy użyciu: Bitmap
Aby utworzyć obiekt InputImage
z obiektu Bitmap
, złóż tę deklarację:
Kotlin
val image = InputImage.fromBitmap(bitmap, 0)
Java
InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);
Obraz jest reprezentowany przez obiekt Bitmap
razem z obróconymi stopniami.
3. Przetwarzanie obrazu
Przekaż przygotowany obiekt InputImage
do metody process
obiektu PoseDetector
.
Kotlin
Task<Pose> result = poseDetector.process(image) .addOnSuccessListener { results -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
Java
Task<Pose> result = poseDetector.process(image) .addOnSuccessListener( new OnSuccessListener<Pose>() { @Override public void onSuccess(Pose pose) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });
4. Uzyskaj informacje o wykrytej pozycji
Jeśli na obrazie zostanie wykryta osoba, interfejs API wykrywania pozycji zwraca obiekt Pose
z 33 elementami PoseLandmark
.
Jeśli dana osoba nie była w pełni widoczna na zdjęciu, model przypisuje brakujące współrzędne punktów orientacyjnych poza ramką i nadaje im niskie wartości InFrameConfidence.
Jeśli w ramce nie wykryto osoby, obiekt Pose
nie zawiera elementów PoseLandmark
.
Kotlin
// Get all PoseLandmarks. If no person was detected, the list will be empty val allPoseLandmarks = pose.getAllPoseLandmarks() // Or get specific PoseLandmarks individually. These will all be null if no person // was detected val leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER) val rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER) val leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW) val rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW) val leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST) val rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST) val leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP) val rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP) val leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE) val rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE) val leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE) val rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE) val leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY) val rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY) val leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX) val rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX) val leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB) val rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB) val leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL) val rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL) val leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX) val rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX) val nose = pose.getPoseLandmark(PoseLandmark.NOSE) val leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER) val leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE) val leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER) val rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER) val rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE) val rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER) val leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR) val rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR) val leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH) val rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH)
Java
// Get all PoseLandmarks. If no person was detected, the list will be empty List<PoseLandmark> allPoseLandmarks = pose.getAllPoseLandmarks(); // Or get specific PoseLandmarks individually. These will all be null if no person // was detected PoseLandmark leftShoulder = pose.getPoseLandmark(PoseLandmark.LEFT_SHOULDER); PoseLandmark rightShoulder = pose.getPoseLandmark(PoseLandmark.RIGHT_SHOULDER); PoseLandmark leftElbow = pose.getPoseLandmark(PoseLandmark.LEFT_ELBOW); PoseLandmark rightElbow = pose.getPoseLandmark(PoseLandmark.RIGHT_ELBOW); PoseLandmark leftWrist = pose.getPoseLandmark(PoseLandmark.LEFT_WRIST); PoseLandmark rightWrist = pose.getPoseLandmark(PoseLandmark.RIGHT_WRIST); PoseLandmark leftHip = pose.getPoseLandmark(PoseLandmark.LEFT_HIP); PoseLandmark rightHip = pose.getPoseLandmark(PoseLandmark.RIGHT_HIP); PoseLandmark leftKnee = pose.getPoseLandmark(PoseLandmark.LEFT_KNEE); PoseLandmark rightKnee = pose.getPoseLandmark(PoseLandmark.RIGHT_KNEE); PoseLandmark leftAnkle = pose.getPoseLandmark(PoseLandmark.LEFT_ANKLE); PoseLandmark rightAnkle = pose.getPoseLandmark(PoseLandmark.RIGHT_ANKLE); PoseLandmark leftPinky = pose.getPoseLandmark(PoseLandmark.LEFT_PINKY); PoseLandmark rightPinky = pose.getPoseLandmark(PoseLandmark.RIGHT_PINKY); PoseLandmark leftIndex = pose.getPoseLandmark(PoseLandmark.LEFT_INDEX); PoseLandmark rightIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_INDEX); PoseLandmark leftThumb = pose.getPoseLandmark(PoseLandmark.LEFT_THUMB); PoseLandmark rightThumb = pose.getPoseLandmark(PoseLandmark.RIGHT_THUMB); PoseLandmark leftHeel = pose.getPoseLandmark(PoseLandmark.LEFT_HEEL); PoseLandmark rightHeel = pose.getPoseLandmark(PoseLandmark.RIGHT_HEEL); PoseLandmark leftFootIndex = pose.getPoseLandmark(PoseLandmark.LEFT_FOOT_INDEX); PoseLandmark rightFootIndex = pose.getPoseLandmark(PoseLandmark.RIGHT_FOOT_INDEX); PoseLandmark nose = pose.getPoseLandmark(PoseLandmark.NOSE); PoseLandmark leftEyeInner = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_INNER); PoseLandmark leftEye = pose.getPoseLandmark(PoseLandmark.LEFT_EYE); PoseLandmark leftEyeOuter = pose.getPoseLandmark(PoseLandmark.LEFT_EYE_OUTER); PoseLandmark rightEyeInner = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_INNER); PoseLandmark rightEye = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE); PoseLandmark rightEyeOuter = pose.getPoseLandmark(PoseLandmark.RIGHT_EYE_OUTER); PoseLandmark leftEar = pose.getPoseLandmark(PoseLandmark.LEFT_EAR); PoseLandmark rightEar = pose.getPoseLandmark(PoseLandmark.RIGHT_EAR); PoseLandmark leftMouth = pose.getPoseLandmark(PoseLandmark.LEFT_MOUTH); PoseLandmark rightMouth = pose.getPoseLandmark(PoseLandmark.RIGHT_MOUTH);
Wskazówki dotyczące poprawy skuteczności
Jakość wyników zależy od jakości obrazu wejściowego:
- Aby narzędzie ML Kit mogło dokładnie wykryć pozycję osoby, osoba na obrazie powinna być reprezentowana przez wystarczającą ilość danych pikseli. Najlepsze wyniki uzyskasz, jeśli osoba zdjęcia będzie mieć rozmiar co najmniej 256 x 256 pikseli.
- Jeśli wykryjesz pozycję w aplikacji przesyłających dane w czasie rzeczywistym, możesz też wziąć pod uwagę ogólne wymiary obrazów wejściowych. Mniejsze obrazy mogą być przetwarzane szybciej. Aby zmniejszyć opóźnienie, zrób zdjęcia w niższej rozdzielczości, pamiętaj przy tym o powyższych wymaganiach dotyczących rozdzielczości i upewnij się, że obiekt zajmuje jak największą część obrazu.
- Słaba ostrość obrazu może również wpływać na dokładność. Jeśli nie uzyskasz zadowalających wyników, poproś użytkownika o ponowne zrobienie zdjęcia.
Jeśli chcesz używać wykrywania pozycji w aplikacji korzystającej z danych w czasie rzeczywistym, postępuj zgodnie z tymi wskazówkami, aby uzyskać najlepszą liczbę klatek na sekundę:
- Użyj podstawowego pakietu SDK wykrywania pozycji i
STREAM_MODE
. - Rozważ robienie zdjęć w niższej rozdzielczości. Pamiętaj jednak o wymaganiach dotyczących wymiarów obrazów w tym interfejsie API.
- Jeśli używasz interfejsu API
Camera
lubcamera2
, ogranicz wywołania wzorca do wykrywania treści. Jeśli podczas działania wzorca pojawi się nowa klatka wideo, upuść ją. Przykład znajdziesz w klasieVisionProcessorBase
w przykładowej aplikacji krótkiego wprowadzenia. - Jeśli korzystasz z interfejsu API
CameraX
, upewnij się, że strategia dotycząca ciśnienia wstecznego jest ustawiona na wartość domyślnąImageAnalysis.STRATEGY_KEEP_ONLY_LATEST
. Gwarantuje to, że w danym momencie do analizy będzie dostarczany tylko 1 obraz. Jeśli w czasie, gdy analizator jest zajęty, zostanie utworzonych więcej obrazów, zostaną one automatycznie usunięte i nie zostaną umieszczone w kolejce do dostarczenia. Gdy analizowany obraz zostanie zamknięty przez wywołanie ImageProxy.close(), zostanie dostarczony następny najnowszy obraz. - Jeśli używasz danych wyjściowych detektora do nakładania grafiki na obraz wejściowy, najpierw pobierz wynik z ML Kit, a następnie wyrenderuj obraz i nakładkę w jednym kroku. Wyświetla się na powierzchni wyświetlacza tylko raz dla każdej klatki wejściowej. Przykład znajdziesz w klasach
CameraSourcePreview
iGraphicOverlay
w przykładowej aplikacji z krótkim wprowadzeniem. - Jeśli korzystasz z interfejsu Camera2 API, zrób zdjęcia w formacie
ImageFormat.YUV_420_888
. Jeśli używasz starszej wersji interfejsu Camera API, zrób zdjęcia w formacieImageFormat.NV21
.
Dalsze kroki
- Aby dowiedzieć się, jak używać punktów orientacyjnych do klasyfikowania pozycji, przeczytaj wskazówki dotyczące klasyfikacji ułożeń.