Phân đoạn ảnh tự chụp chân dung bằng Bộ công cụ học máy trên iOS

Bộ công cụ học máy cung cấp một SDK được tối ưu hoá để phân đoạn ảnh tự chụp chân dung. Các thành phần của Selfie Segmenter được liên kết tĩnh với ứng dụng của bạn tại thời điểm tạo bản dựng. Điều này sẽ làm tăng kích thước ứng dụng của bạn lên đến 24 MB và độ trễ API có thể dao động từ khoảng 7 mili giây đến khoảng 12 mili giây, tuỳ thuộc vào kích thước hình ảnh đầu vào, như đo trên iPhone X.

Dùng thử

Hãy dùng thử ứng dụng mẫu để xem ví dụ về cách sử dụng API này.

Trước khi bắt đầu

Thêm các thư viện ML Kit sau vào Podfile:

pod 'GoogleMLKit/SegmentationSelfie', '8.0.0'

Sau khi bạn cài đặt hoặc cập nhật Pod của dự án, hãy mở dự án Xcode bằng .xcworkspace. ML Kit được hỗ trợ trong Xcode phiên bản 13.2.1 trở lên.

1. Tạo một thực thể của Segmenter

Để phân đoạn trên ảnh chân dung tự chụp, trước tiên, hãy tạo một thực thể Segmenter bằng SelfieSegmenterOptions và bạn có thể chỉ định chế độ cài đặt phân đoạn (nếu muốn).

Các lựa chọn về bộ phân đoạn

Chế độ phân đoạn

Segmenter hoạt động ở 2 chế độ. Hãy nhớ chọn mẫu phù hợp với trường hợp sử dụng của bạn.

STREAM_MODE (default)

Chế độ này được thiết kế để truyền trực tuyến các khung hình từ video hoặc camera. Ở chế độ này, bộ phân đoạn sẽ tận dụng kết quả từ các khung hình trước đó để trả về kết quả phân đoạn mượt mà hơn.

SINGLE_IMAGE_MODE (default)

Chế độ này được thiết kế cho những hình ảnh riêng lẻ không liên quan đến nhau. Ở chế độ này, bộ phân đoạn sẽ xử lý từng hình ảnh một cách độc lập mà không làm mượt các khung hình.

Bật mặt nạ kích thước thô

Yêu cầu công cụ phân đoạn trả về mặt nạ kích thước thô khớp với kích thước đầu ra của mô hình.

Kích thước mặt nạ thô (ví dụ: 256x256) thường nhỏ hơn kích thước hình ảnh đầu vào.

Nếu không chỉ định lựa chọn này, bộ phân đoạn sẽ điều chỉnh tỷ lệ mặt nạ thô để khớp với kích thước hình ảnh đầu vào. Hãy cân nhắc sử dụng lựa chọn này nếu bạn muốn áp dụng logic điều chỉnh tỷ lệ tuỳ chỉnh hoặc không cần điều chỉnh tỷ lệ cho trường hợp sử dụng của mình.

Chỉ định các lựa chọn cho bộ phân đoạn:

Swift

let options = SelfieSegmenterOptions()
options.segmenterMode = .singleImage
options.shouldEnableRawSizeMask = true

Objective-C

MLKSelfieSegmenterOptions *options = [[MLKSelfieSegmenterOptions alloc] init];
options.segmenterMode = MLKSegmenterModeSingleImage;
options.shouldEnableRawSizeMask = YES;

Cuối cùng, hãy lấy một thực thể Segmenter. Truyền các lựa chọn mà bạn đã chỉ định:

Swift

let segmenter = Segmenter.segmenter(options: options)

Objective-C

MLKSegmenter *segmenter = [MLKSegmenter segmenterWithOptions:options];

2. Chuẩn bị hình ảnh đầu vào

Để phân đoạn ảnh tự chụp, hãy làm như sau cho mỗi hình ảnh hoặc khung hình của video. Nếu bật chế độ truyền phát trực tiếp, bạn phải tạo các đối tượng VisionImage từ CMSampleBuffer.

Tạo đối tượng VisionImage bằng cách sử dụng UIImage hoặc CMSampleBuffer.

Nếu bạn sử dụng UIImage, hãy làm theo các bước sau:

Tạo một đối tượng VisionImage bằng UIImage. Hãy nhớ chỉ định .orientation chính xác.

Swift

let image = VisionImage(image: UIImage)
visionImage.orientation = image.imageOrientation

Objective-C

MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image];
visionImage.orientation = image.imageOrientation;

Nếu bạn sử dụng CMSampleBuffer, hãy làm theo các bước sau:

Chỉ định hướng của dữ liệu hình ảnh có trong CMSampleBuffer.

Cách lấy hướng của hình ảnh:

Swift

func imageOrientation(
  deviceOrientation: UIDeviceOrientation,
  cameraPosition: AVCaptureDevice.Position
) -> UIImage.Orientation {
  switch deviceOrientation {
  case .portrait:
    return cameraPosition == .front ? .leftMirrored : .right
  case .landscapeLeft:
    return cameraPosition == .front ? .downMirrored : .up
  case .portraitUpsideDown:
    return cameraPosition == .front ? .rightMirrored : .left
  case .landscapeRight:
    return cameraPosition == .front ? .upMirrored : .down
  case .faceDown, .faceUp, .unknown:
    return .up
  }
}

Objective-C

- (UIImageOrientation)
  imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                         cameraPosition:(AVCaptureDevicePosition)cameraPosition {
  switch (deviceOrientation) {
    case UIDeviceOrientationPortrait:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored
                                                            : UIImageOrientationRight;

    case UIDeviceOrientationLandscapeLeft:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored
                                                            : UIImageOrientationUp;
    case UIDeviceOrientationPortraitUpsideDown:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored
                                                            : UIImageOrientationLeft;
    case UIDeviceOrientationLandscapeRight:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored
                                                            : UIImageOrientationDown;
    case UIDeviceOrientationUnknown:
    case UIDeviceOrientationFaceUp:
    case UIDeviceOrientationFaceDown:
      return UIImageOrientationUp;
  }
}

Tạo một đối tượng VisionImage bằng đối tượng CMSampleBuffer và hướng:

Swift

let image = VisionImage(buffer: sampleBuffer)
image.orientation = imageOrientation(
  deviceOrientation: UIDevice.current.orientation,
  cameraPosition: cameraPosition)

Objective-C

 MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer];
 image.orientation =
   [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                cameraPosition:cameraPosition];

3. Xử lý hình ảnh

Truyền đối tượng VisionImage đến một trong các phương thức xử lý hình ảnh của Segmenter. Bạn có thể sử dụng phương thức process(image:) không đồng bộ hoặc phương thức results(in:) đồng bộ.

Để phân đoạn đồng bộ trên ảnh chân dung tự chụp:

Swift

var mask: [SegmentationMask]
do {
  mask = try segmenter.results(in: image)
} catch let error {
  print("Failed to perform segmentation with error: \(error.localizedDescription).")
  return
}

// Success. Get a segmentation mask here.

Objective-C

NSError *error;
MLKSegmentationMask *mask =
    [segmenter resultsInImage:image error:&error];
if (error != nil) {
  // Error.
  return;
}

// Success. Get a segmentation mask here.

Cách phân đoạn ảnh chân dung tự chụp theo cách không đồng bộ:

Swift

segmenter.process(image) { mask, error in
  guard error == nil else {
    // Error.
    return
  }
  // Success. Get a segmentation mask here.

Objective-C

[segmenter processImage:image
             completion:^(MLKSegmentationMask * _Nullable mask,
                          NSError * _Nullable error) {
               if (error != nil) {
                 // Error.
                 return;
               }
               // Success. Get a segmentation mask here.
             }];

4. Nhận mặt nạ phân đoạn

Bạn có thể nhận được kết quả phân đoạn như sau:

Swift

let maskWidth = CVPixelBufferGetWidth(mask.buffer)
let maskHeight = CVPixelBufferGetHeight(mask.buffer)

CVPixelBufferLockBaseAddress(mask.buffer, CVPixelBufferLockFlags.readOnly)
let maskBytesPerRow = CVPixelBufferGetBytesPerRow(mask.buffer)
var maskAddress =
    CVPixelBufferGetBaseAddress(mask.buffer)!.bindMemory(
        to: Float32.self, capacity: maskBytesPerRow * maskHeight)

for _ in 0...(maskHeight - 1) {
  for col in 0...(maskWidth - 1) {
    // Gets the confidence of the pixel in the mask being in the foreground.
    let foregroundConfidence: Float32 = maskAddress[col]
  }
  maskAddress += maskBytesPerRow / MemoryLayout<Float32>.size
}

Objective-C

size_t width = CVPixelBufferGetWidth(mask.buffer);
size_t height = CVPixelBufferGetHeight(mask.buffer);

CVPixelBufferLockBaseAddress(mask.buffer, kCVPixelBufferLock_ReadOnly);
size_t maskBytesPerRow = CVPixelBufferGetBytesPerRow(mask.buffer);
float *maskAddress = (float *)CVPixelBufferGetBaseAddress(mask.buffer);

for (int row = 0; row < height; ++row) {
  for (int col = 0; col < width; ++col) {
    // Gets the confidence of the pixel in the mask being in the foreground.
    float foregroundConfidence = maskAddress[col];
  }
  maskAddress += maskBytesPerRow / sizeof(float);
}

Để xem ví dụ đầy đủ về cách sử dụng kết quả phân đoạn, vui lòng xem mẫu bắt đầu nhanh của ML Kit.

Mẹo cải thiện hiệu suất

Chất lượng của kết quả phụ thuộc vào chất lượng của hình ảnh đầu vào:

Để ML Kit nhận được kết quả phân đoạn chính xác, hình ảnh phải có kích thước tối thiểu là 256x256 pixel.
Nếu thực hiện phân đoạn ảnh tự chụp trong một ứng dụng theo thời gian thực, bạn cũng nên cân nhắc kích thước tổng thể của hình ảnh đầu vào. Hình ảnh nhỏ hơn có thể được xử lý nhanh hơn, vì vậy để giảm độ trễ, hãy chụp ảnh ở độ phân giải thấp hơn, nhưng hãy lưu ý các yêu cầu về độ phân giải nêu trên và đảm bảo rằng đối tượng chiếm phần lớn hình ảnh.
Hình ảnh không rõ nét cũng có thể ảnh hưởng đến độ chính xác. Nếu bạn không nhận được kết quả chấp nhận được, hãy yêu cầu người dùng chụp lại hình ảnh.

Nếu bạn muốn sử dụng tính năng phân đoạn trong một ứng dụng theo thời gian thực, hãy làm theo các nguyên tắc sau để đạt được tốc độ khung hình tốt nhất:

Sử dụng chế độ phân đoạn stream.
Hãy cân nhắc chụp ảnh ở độ phân giải thấp hơn. Tuy nhiên, bạn cũng cần lưu ý các yêu cầu về kích thước hình ảnh của API này.
Để xử lý các khung hình video, hãy sử dụng API đồng bộ results(in:) của bộ phân đoạn. Gọi phương thức này từ hàm captureOutput(_, didOutput:from:) của AVCaptureVideoDataOutputSampleBufferDelegate để đồng bộ nhận kết quả từ khung hình video đã cho. Luôn giữ alwaysDiscardsLateVideoFrames của AVCaptureVideoDataOutput ở trạng thái true để điều chỉnh tốc độ gọi đến bộ phân đoạn. Nếu có một khung hình video mới trong khi trình phân đoạn đang chạy, khung hình đó sẽ bị loại bỏ.
Nếu bạn dùng kết quả của trình phân đoạn để phủ đồ hoạ lên hình ảnh đầu vào, trước tiên, hãy lấy kết quả từ Bộ công cụ học máy, sau đó kết xuất hình ảnh và lớp phủ trong một bước. Bằng cách này, bạn chỉ kết xuất vào bề mặt hiển thị một lần cho mỗi khung hình đầu vào đã xử lý. Hãy xem các lớp previewOverlayView và CameraViewController trong mẫu bắt đầu nhanh của Bộ công cụ học máy để biết ví dụ.

Phân đoạn ảnh tự chụp chân dung bằng Bộ công cụ học máy trên iOS Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Dùng thử

Trước khi bắt đầu

1. Tạo một thực thể của Segmenter

Các lựa chọn về bộ phân đoạn

Chế độ phân đoạn

Bật mặt nạ kích thước thô

Swift

Objective-C

Swift

Objective-C

2. Chuẩn bị hình ảnh đầu vào

Swift

Objective-C

Swift

Objective-C

Swift

Objective-C

3. Xử lý hình ảnh

Swift

Objective-C

Swift

Objective-C

4. Nhận mặt nạ phân đoạn

Swift

Objective-C

Mẹo cải thiện hiệu suất

Phân đoạn ảnh tự chụp chân dung bằng Bộ công cụ học máy trên iOS