Wykrywanie pozycji za pomocą ML Kit na iOS

ML Kit udostępnia 2 zoptymalizowane pakiety SDK do wykrywania pozy.

Nazwa pakietu SDK	PoseDetection	PoseDetectionAccurate
Implementacja	Zasoby detektora podstawowego są statycznie połączone z aplikacją w momencie jej kompilacji.	Komponenty dokładnego detektora są statycznie połączone z aplikacją w momencie jej tworzenia.
Rozmiar aplikacji	Do 29,6 MB	Do 33,2 MB
Wyniki	iPhone X: ~45 kl./s	iPhone X: ~29 kl./s

Wypróbuj

Wypróbuj przykładową aplikację, aby zobaczyć przykład użycia tego interfejsu API.

Zanim zaczniesz

W pliku Podfile umieść te pody ML Kit:

# If you want to use the base implementation:
pod 'GoogleMLKit/PoseDetection', '8.0.0'

# If you want to use the accurate implementation:
pod 'GoogleMLKit/PoseDetectionAccurate', '8.0.0'

Po zainstalowaniu lub zaktualizowaniu podów projektu otwórz projekt Xcode za pomocą pliku xcworkspace. ML Kit jest obsługiwany w Xcode w wersji 13.2.1 lub nowszej.

1. Tworzenie instancji `PoseDetector`

Aby wykryć pozę na obrazie, najpierw utwórz instancję PoseDetector i opcjonalnie określ ustawienia detektora.

Opcje: `PoseDetector`

Tryb wykrywania

PoseDetector działa w 2 trybach wykrywania. Wybierz ten, który pasuje do Twojego przypadku użycia.

stream (domyślnie): Detektor postawy najpierw wykryje najbardziej widoczną osobę na obrazie, a następnie przeprowadzi wykrywanie postawy. W kolejnych klatkach krok wykrywania osoby nie będzie przeprowadzany, chyba że osoba zostanie zasłonięta lub nie będzie już wykrywana z wysoką pewnością. Detektor postawy będzie próbował śledzić najbardziej widoczną osobę i zwracać jej postawę w każdej inferencji. Pozwala to zmniejszyć opóźnienia i usprawnić wykrywanie. Użyj tego trybu, gdy chcesz wykrywać pozę w strumieniu wideo.
singleImage: Detektor postawy wykryje osobę, a następnie przeprowadzi wykrywanie postawy. Krok wykrywania osób będzie wykonywany w przypadku każdego obrazu, więc opóźnienie będzie większe, a śledzenie osób nie będzie możliwe. Używaj tego trybu, gdy korzystasz z wykrywania pozy na statycznych obrazach lub gdy śledzenie nie jest pożądane.

Określ opcje detektora pozycji:

Swift

// Base pose detector with streaming, when depending on the PoseDetection SDK
let options = PoseDetectorOptions()
options.detectorMode = .stream

// Accurate pose detector on static images, when depending on the
// PoseDetectionAccurate SDK
let options = AccuratePoseDetectorOptions()
options.detectorMode = .singleImage

Objective-C

// Base pose detector with streaming, when depending on the PoseDetection SDK
MLKPoseDetectorOptions *options = [[MLKPoseDetectorOptions alloc] init];
options.detectorMode = MLKPoseDetectorModeStream;

// Accurate pose detector on static images, when depending on the
// PoseDetectionAccurate SDK
MLKAccuratePoseDetectorOptions *options =
    [[MLKAccuratePoseDetectorOptions alloc] init];
options.detectorMode = MLKPoseDetectorModeSingleImage;

Na koniec uzyskaj instancję PoseDetector. Przekaż określone opcje:

Swift

let poseDetector = PoseDetector.poseDetector(options: options)

Objective-C

MLKPoseDetector *poseDetector =
    [MLKPoseDetector poseDetectorWithOptions:options];

2. Przygotowywanie obrazu wejściowego

Aby wykryć pozy, wykonaj te czynności w przypadku każdego zdjęcia lub klatki filmu. Jeśli włączysz tryb strumienia, musisz utworzyć obiekty VisionImage z CMSampleBuffer.

Utwórz obiekt VisionImage za pomocą UIImage lub CMSampleBuffer.

Jeśli używasz UIImage, wykonaj te czynności:

Utwórz obiekt VisionImage z wartością UIImage. Pamiętaj, aby podać prawidłowy .orientation.

Swift

let image = VisionImage(image: UIImage)
visionImage.orientation = image.imageOrientation

Objective-C

MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image];
visionImage.orientation = image.imageOrientation;

Jeśli używasz CMSampleBuffer, wykonaj te czynności:

Określ orientację danych obrazu zawartych w elemencie CMSampleBuffer.

Aby uzyskać orientację obrazu:

Swift

func imageOrientation(
  deviceOrientation: UIDeviceOrientation,
  cameraPosition: AVCaptureDevice.Position
) -> UIImage.Orientation {
  switch deviceOrientation {
  case .portrait:
    return cameraPosition == .front ? .leftMirrored : .right
  case .landscapeLeft:
    return cameraPosition == .front ? .downMirrored : .up
  case .portraitUpsideDown:
    return cameraPosition == .front ? .rightMirrored : .left
  case .landscapeRight:
    return cameraPosition == .front ? .upMirrored : .down
  case .faceDown, .faceUp, .unknown:
    return .up
  }
}

Objective-C

- (UIImageOrientation)
  imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                         cameraPosition:(AVCaptureDevicePosition)cameraPosition {
  switch (deviceOrientation) {
    case UIDeviceOrientationPortrait:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored
                                                            : UIImageOrientationRight;

    case UIDeviceOrientationLandscapeLeft:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored
                                                            : UIImageOrientationUp;
    case UIDeviceOrientationPortraitUpsideDown:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored
                                                            : UIImageOrientationLeft;
    case UIDeviceOrientationLandscapeRight:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored
                                                            : UIImageOrientationDown;
    case UIDeviceOrientationUnknown:
    case UIDeviceOrientationFaceUp:
    case UIDeviceOrientationFaceDown:
      return UIImageOrientationUp;
  }
}

Utwórz obiekt VisionImage, używając obiektu CMSampleBuffer i orientacji:

Swift

let image = VisionImage(buffer: sampleBuffer)
image.orientation = imageOrientation(
  deviceOrientation: UIDevice.current.orientation,
  cameraPosition: cameraPosition)

Objective-C

 MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer];
 image.orientation =
   [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                cameraPosition:cameraPosition];

3. Przetwarzanie obrazu

Przekaż VisionImage do jednej z metod przetwarzania obrazu detektora pozycji. Możesz użyć asynchronicznej metody process(image:) lub synchronicznej metody results().

Aby wykrywać obiekty synchronicznie:

Swift

var results: [Pose]
do {
  results = try poseDetector.results(in: image)
} catch let error {
  print("Failed to detect pose with error: \(error.localizedDescription).")
  return
}
guard let detectedPoses = results, !detectedPoses.isEmpty else {
  print("Pose detector returned no results.")
  return
}

// Success. Get pose landmarks here.

Objective-C

NSError *error;
NSArray *poses = [poseDetector resultsInImage:image error:&error];
if (error != nil) {
  // Error.
  return;
}
if (poses.count == 0) {
  // No pose detected.
  return;
}

// Success. Get pose landmarks here.

Aby wykrywać obiekty asynchronicznie:

Swift

poseDetector.process(image) { detectedPoses, error in
  guard error == nil else {
    // Error.
    return
  }
  guard !detectedPoses.isEmpty else {
    // No pose detected.
    return
  }

  // Success. Get pose landmarks here.
}

Objective-C

[poseDetector processImage:image
                completion:^(NSArray * _Nullable poses,
                             NSError * _Nullable error) {
                    if (error != nil) {
                      // Error.
                      return;
                    }
                    if (poses.count == 0) {
                      // No pose detected.
                      return;
                    }

                    // Success. Get pose landmarks here.
                  }];

4. Uzyskiwanie informacji o wykrytej pozie

Jeśli na obrazie zostanie wykryta osoba, interfejs API wykrywania pozy przekazuje tablicę obiektów Pose do funkcji obsługi zakończenia lub zwraca tablicę w zależności od tego, czy została wywołana metoda asynchroniczna czy synchroniczna.

Jeśli osoba nie była w całości widoczna na zdjęciu, model przypisuje brakującym punktom charakterystycznym współrzędne poza ramką i nadaje im niskie wartości InFrameConfidence.

Jeśli nie wykryto żadnej osoby, tablica jest pusta.

Swift

for pose in detectedPoses {
  let leftAnkleLandmark = pose.landmark(ofType: .leftAnkle)
  if leftAnkleLandmark.inFrameLikelihood > 0.5 {
    let position = leftAnkleLandmark.position
  }
}

Objective-C

for (MLKPose *pose in detectedPoses) {
  MLKPoseLandmark *leftAnkleLandmark =
      [pose landmarkOfType:MLKPoseLandmarkTypeLeftAnkle];
  if (leftAnkleLandmark.inFrameLikelihood > 0.5) {
    MLKVision3DPoint *position = leftAnkleLandmark.position;
  }
}

Wskazówki dotyczące zwiększania skuteczności

Jakość wyników zależy od jakości obrazu wejściowego:

Aby ML Kit mógł dokładnie wykryć pozę, osoba na zdjęciu powinna być reprezentowana przez wystarczającą ilość danych w pikselach. Aby uzyskać najlepsze wyniki, obiekt powinien mieć co najmniej 256 × 256 pikseli.
Jeśli wykrywasz pozę w aplikacji działającej w czasie rzeczywistym, możesz też wziąć pod uwagę ogólne wymiary obrazów wejściowych. Mniejsze obrazy można przetwarzać szybciej, więc aby zmniejszyć opóźnienie, rób zdjęcia w niższych rozdzielczościach. Pamiętaj jednak o wymaganiach dotyczących rozdzielczości i dopilnuj, aby fotografowany obiekt zajmował jak największą część obrazu.
Na dokładność może też wpływać słaba ostrość obrazu. Jeśli wyniki nie są zadowalające, poproś użytkownika o ponowne zrobienie zdjęcia.

Jeśli chcesz używać wykrywania pozycji w aplikacji działającej w czasie rzeczywistym, postępuj zgodnie z tymi wskazówkami, aby uzyskać najlepszą liczbę klatek na sekundę:

Użyj podstawowego pakietu SDK PoseDetection i trybu wykrywania stream.
Rozważ robienie zdjęć w niższej rozdzielczości. Pamiętaj jednak o wymaganiach dotyczących wymiarów obrazu w tym interfejsie API.
Do przetwarzania klatek wideo użyj results(in:)synchronicznego interfejsu API detektora. Wywołaj tę metodę z funkcji captureOutput(_, didOutput:from:) protokołu AVCaptureVideoDataOutputSampleBufferDelegate, aby synchronicznie uzyskać wyniki z danej klatki wideo. Ustaw wartość alwaysDiscardsLateVideoFrames w AVCaptureVideoDataOutput na true, aby ograniczyć wywołania detektora. Jeśli podczas działania detektora pojawi się nowa klatka wideo, zostanie ona odrzucona.
Jeśli używasz danych wyjściowych detektora do nakładania grafiki na obraz wejściowy, najpierw uzyskaj wynik z ML Kit, a następnie w jednym kroku wyrenderuj obraz i nałóż na niego grafikę. Dzięki temu renderowanie na powierzchnię wyświetlania odbywa się tylko raz dla każdej przetworzonej klatki wejściowej. Przykład znajdziesz w klasach previewOverlayView i MLKDetectionOverlayView w przykładowej aplikacji demonstracyjnej.

Dalsze kroki

Aby dowiedzieć się, jak używać punktów orientacyjnych do klasyfikowania póz, przeczytaj wskazówki dotyczące klasyfikacji póz.
Przykład użycia tego interfejsu API znajdziesz w przykładowym kodzie krótkiego wprowadzenia do ML Kit w GitHubie.

Wykrywanie pozycji za pomocą ML Kit na iOS Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Wypróbuj

Zanim zaczniesz

1. Tworzenie instancji PoseDetector

Opcje: PoseDetector

Tryb wykrywania

Swift

Objective-C

Swift

Objective-C

2. Przygotowywanie obrazu wejściowego

Swift

Objective-C

Swift

Objective-C

Swift

Objective-C

3. Przetwarzanie obrazu

Swift

Objective-C

Swift

Objective-C

4. Uzyskiwanie informacji o wykrytej pozie

Swift

Objective-C

Wskazówki dotyczące zwiększania skuteczności

Dalsze kroki

Wykrywanie pozycji za pomocą ML Kit na iOS

1. Tworzenie instancji `PoseDetector`

Opcje: `PoseDetector`