iOS에서 ML Kit를 사용한 이미지 속 텍스트 인식

ML Kit를 사용하면 이미지 또는 동영상의 거리 표지판 텍스트와 같은 텍스트를 인식할 수 있습니다. 이 기능의 주요 특징은 다음과 같습니다.

텍스트 인식 API
설명이미지 또는 동영상의 라틴 자모 텍스트 인식
SDK 이름GoogleMLKit/TextRecognition (version 2.2.0)
구현애셋은 빌드 시간에 정적으로 앱에 연결됩니다.
앱 크기 영향약 20MB
성능대부분의 기기에서 실시간으로 작동합니다.

사용해 보기

  • 샘플 앱을 사용해 보고 이 API의 사용 예를 확인하세요.
  • Codelab을 사용하여 직접 코드를 사용해 보세요.

시작하기 전에

  1. Podfile에 다음 ML Kit 포드를 포함합니다.
    pod 'GoogleMLKit/TextRecognition','2.2.0'
    
  2. 프로젝트의 포드를 설치하거나 업데이트한 후 .xcworkspace를 사용하여 Xcode 프로젝트를 엽니다. ML Kit는 Xcode 버전 12.4 이상에서 지원됩니다.

1. TextRecognizer 인스턴스 만들기

+textRecognizer를 호출하여 TextRecognizer 인스턴스를 만듭니다.
SwiftObjective-C
let textRecognizer = TextRecognizer.textRecognizer()
     
MLKTextRecognizer *textRecognizer = [MLKTextRecognizer textRecognizer];
     

2. 입력 이미지 준비

이미지를 UIImage 또는 CMSampleBufferRefTextRecognizerprocess(_:completion:) 메서드에 전달합니다.

UIImage 또는 CMSampleBuffer를 사용하여 VisionImage 객체를 만듭니다.

UIImage를 사용하는 경우 다음 단계를 따르세요.

  • UIImage를 사용하여 VisionImage 객체를 만듭니다. 올바른 .orientation을 지정해야 합니다.
    SwiftObjective-C
    let image = VisionImage(image: UIImage)
    visionImage
    .orientation = image.imageOrientation
    MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image];
    visionImage
    .orientation = image.imageOrientation;

CMSampleBuffer를 사용하는 경우 다음 단계를 따르세요.

  • CMSampleBuffer에 포함된 이미지 데이터의 방향을 지정합니다.

    이미지 방향을 가져오는 방법은 다음과 같습니다.

    SwiftObjective-C
    func imageOrientation(
      deviceOrientation
    : UIDeviceOrientation,
      cameraPosition
    : AVCaptureDevice.Position
    ) -> UIImage.Orientation {
     
    switch deviceOrientation {
     
    case .portrait:
       
    return cameraPosition == .front ? .leftMirrored : .right
     
    case .landscapeLeft:
       
    return cameraPosition == .front ? .downMirrored : .up
     
    case .portraitUpsideDown:
       
    return cameraPosition == .front ? .rightMirrored : .left
     
    case .landscapeRight:
       
    return cameraPosition == .front ? .upMirrored : .down
     
    case .faceDown, .faceUp, .unknown:
       
    return .up
     
    }
    }
         
    - (UIImageOrientation)
      imageOrientationFromDeviceOrientation
    :(UIDeviceOrientation)deviceOrientation
                             cameraPosition
    :(AVCaptureDevicePosition)cameraPosition {
     
    switch (deviceOrientation) {
       
    case UIDeviceOrientationPortrait:
         
    return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored
                                                               
    : UIImageOrientationRight;

       
    case UIDeviceOrientationLandscapeLeft:
         
    return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored
                                                               
    : UIImageOrientationUp;
       
    case UIDeviceOrientationPortraitUpsideDown:
         
    return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored
                                                               
    : UIImageOrientationLeft;
       
    case UIDeviceOrientationLandscapeRight:
         
    return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored
                                                               
    : UIImageOrientationDown;
       
    case UIDeviceOrientationUnknown:
       
    case UIDeviceOrientationFaceUp:
       
    case UIDeviceOrientationFaceDown:
         
    return UIImageOrientationUp;
     
    }
    }
         
  • CMSampleBuffer 객체 및 방향을 사용하여 VisionImage 객체를 만듭니다.
    SwiftObjective-C
    let image = VisionImage(buffer: sampleBuffer)
    image
    .orientation = imageOrientation(
      deviceOrientation
    : UIDevice.current.orientation,
      cameraPosition
    : cameraPosition)
     MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer];
     image
    .orientation =
       
    [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                    cameraPosition
    :cameraPosition];

3. 이미지 처리

그런 다음 이미지를 process(_:completion:) 메서드에 전달합니다.

SwiftObjective-C
textRecognizer.process(visionImage) { result, error in
  guard error
== nil, let result = result else {
   
// Error handling
   
return
 
}
 
// Recognized text
}
[textRecognizer processImage:image
                  completion
:^(MLKText *_Nullable result,
                               
NSError *_Nullable error) {
 
if (error != nil || result == nil) {
   
// Error handling
   
return;
 
}
 
// Recognized text
}];

4. 인식된 텍스트 블록에서 텍스트 추출

텍스트 인식 작업이 성공하면 Text 객체가 반환됩니다. Text 객체에는 이미지에서 인식된 전체 텍스트 및 TextBlock 객체가 0개 이상 포함됩니다.

TextBlockTextLine 객체를 0개 이상 포함하는 사각형 모양의 텍스트 블록을 나타냅니다. 각 TextLine 객체는 0개 이상의 TextElement 객체를 포함하며, 이 객체는 단어 및 숫자와 같은 단어와 유사한 항목을 나타냅니다.

TextBlock, TextLine, TextElement 객체에 대해 해당 영역에서 인식된 텍스트와 영역의 경계 좌표를 가져올 수 있습니다.

예를 들면 다음과 같습니다.

SwiftObjective-C
let resultText = result.text
for block in result.blocks {
    let blockText
= block.text
    let blockLanguages
= block.recognizedLanguages
    let blockCornerPoints
= block.cornerPoints
    let blockFrame
= block.frame
   
for line in block.lines {
        let lineText
= line.text
        let lineLanguages
= line.recognizedLanguages
        let lineCornerPoints
= line.cornerPoints
        let lineFrame
= line.frame
       
for element in line.elements {
            let elementText
= element.text
            let elementCornerPoints
= element.cornerPoints
            let elementFrame
= element.frame
       
}
   
}
}
NSString *resultText = result.text;
for (MLKTextBlock *block in result.blocks) {
 
NSString *blockText = block.text;
 
NSArray<MLKTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages;
 
NSArray<NSValue *> *blockCornerPoints = block.cornerPoints;
 
CGRect blockFrame = block.frame;
 
for (MLKTextLine *line in block.lines) {
   
NSString *lineText = line.text;
   
NSArray<MLKTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages;
   
NSArray<NSValue *> *lineCornerPoints = line.cornerPoints;
   
CGRect lineFrame = line.frame;
   
for (MLKTextElement *element in line.elements) {
     
NSString *elementText = element.text;
     
NSArray<NSValue *> *elementCornerPoints = element.cornerPoints;
     
CGRect elementFrame = element.frame;
   
}
 
}
}

입력 이미지 가이드라인

  • ML Kit가 텍스트를 정확하게 인식하려면 입력 이미지에 충분한 픽셀 데이터로 표시된 텍스트가 있어야 합니다. 각 문자가 16x16픽셀 이상인 것이 좋습니다. 일반적으로 문자가 24x24픽셀보다 크면 정확도가 더 이상 향상되지 않습니다.

    예를 들어 640x480 이미지는 이미지의 전체 너비를 차지하는 명함을 스캔하는 데 적합합니다. 편지 용지에 인쇄된 문서를 스캔하려면 720x1280픽셀 이미지가 필요할 수 있습니다.

  • 이미지 초점이 잘 맞지 않으면 텍스트 인식 정확도가 저하될 수 있습니다. 허용 가능한 수준의 결과를 얻지 못하는 경우 사용자에게 이미지를 다시 캡처하도록 요청합니다.

  • 실시간 애플리케이션에서 텍스트를 인식하는 경우 입력 이미지의 전체 크기를 고려해야 합니다. 작은 이미지는 더 빠르게 처리할 수 있습니다. 지연 시간을 줄이려면 텍스트가 가능한 한 많은 이미지를 차지하도록 하고 낮은 해상도에서 이미지를 캡처합니다 (위에서 언급한 정확도 요구사항에 유의). 자세한 내용은 성능 개선을 위한 팁을 참고하세요.

실적 개선을 위한 도움말

  • 동영상 프레임 처리에는 감지기의 results(in:) 동기 API를 사용합니다. AVCaptureVideoDataOutputSampleBufferDelegate captureOutput(_, didOutput:from:) 함수에서 이 메서드를 호출하여 지정된 동영상 프레임에서 동기식으로 결과를 가져옵니다. 감지기 호출을 제한하기 위해 AVCaptureVideoDataOutputalwaysDiscardsLateVideoFramestrue으로 유지합니다. 인식기가 실행 중일 때 새 동영상 프레임이 제공되는 경우 프레임이 삭제됩니다.
  • 인식기 출력을 사용하여 입력 이미지에 그래픽을 오버레이하는 경우 먼저 ML Kit에서 결과를 가져온 후 이미지를 렌더링하고 단일 단계로 오버레이합니다. 이렇게 하면 처리된 각 입력 프레임에 대해 한 번만 디스플레이 표면에 렌더링됩니다. 예시는 ML Kit 빠른 시작 샘플에서 updatePreviewOverlayViewWithLastFrame을 참조하세요.
  • 낮은 해상도에서 이미지 캡처를 고려합니다. 하지만 이 API의 이미지 크기 요구사항도 유의해야 합니다.