ML Kit を使用すると、画像や動画内のテキスト(道路標識のテキストなど)を認識できます。この機能の主な特徴は次のとおりです。
テキスト認識 API | |
---|---|
説明 | 画像や動画内のラテン文字テキストを認識する。 |
SDK 名 | Google |
実装 | アセットはビルド時に静的にアプリにリンクされます。 |
アプリのサイズへの影響 | 約 20 MB |
パフォーマンス | 大半のデバイスでリアルタイムです。 |
試してみる
始める前に
- Podfile に次の ML Kit Pod を含めます。
pod 'GoogleMLKit/TextRecognition','2.2.0'
- プロジェクトの Pod をインストールまたは更新した後に、
.xcworkspace
を使用して Xcode プロジェクトを開きます。ML Kit は Xcode バージョン 12.4 以降でサポートされています。
1. TextRecognizer
のインスタンスを作成する
TextRecognizer
のインスタンスを作成する+textRecognizer
を呼び出して、TextRecognizer
のインスタンスを作成します。let textRecognizer = TextRecognizer.textRecognizer()
MLKTextRecognizer *textRecognizer = [MLKTextRecognizer textRecognizer];
2. 入力画像を準備する
画像を UIImage
または CMSampleBufferRef
として TextRecognizer
の process(_:completion:)
メソッドに渡します。
UIImage
または CMSampleBuffer
を使用して VisionImage
オブジェクトを作成します。
UIImage
を使用する場合の手順は次のとおりです。
UIImage
を使用して、VisionImage
オブジェクトを作成します。正しい.orientation
を指定してください。let image = VisionImage(image: UIImage)
visionImage.orientation = image.imageOrientationMLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image];
visionImage.orientation = image.imageOrientation;
CMSampleBuffer
を使用する場合の手順は次のとおりです。
-
CMSampleBuffer
に含まれる画像データの向きを指定します。画像の向きを取得するには:
func imageOrientation(
deviceOrientation: UIDeviceOrientation,
cameraPosition: AVCaptureDevice.Position
) -> UIImage.Orientation {
switch deviceOrientation {
case .portrait:
return cameraPosition == .front ? .leftMirrored : .right
case .landscapeLeft:
return cameraPosition == .front ? .downMirrored : .up
case .portraitUpsideDown:
return cameraPosition == .front ? .rightMirrored : .left
case .landscapeRight:
return cameraPosition == .front ? .upMirrored : .down
case .faceDown, .faceUp, .unknown:
return .up
}
}
- (UIImageOrientation)
imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
cameraPosition:(AVCaptureDevicePosition)cameraPosition {
switch (deviceOrientation) {
case UIDeviceOrientationPortrait:
return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored
: UIImageOrientationRight;
case UIDeviceOrientationLandscapeLeft:
return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored
: UIImageOrientationUp;
case UIDeviceOrientationPortraitUpsideDown:
return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored
: UIImageOrientationLeft;
case UIDeviceOrientationLandscapeRight:
return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored
: UIImageOrientationDown;
case UIDeviceOrientationUnknown:
case UIDeviceOrientationFaceUp:
case UIDeviceOrientationFaceDown:
return UIImageOrientationUp;
}
}
CMSampleBuffer
オブジェクトと向きを使用してVisionImage
オブジェクトを作成します。let image = VisionImage(buffer: sampleBuffer)
image.orientation = imageOrientation(
deviceOrientation: UIDevice.current.orientation,
cameraPosition: cameraPosition)MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer];
image.orientation =
[self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
cameraPosition:cameraPosition];
3.画像を処理する
次に、画像を process(_:completion:)
メソッドに渡します。
textRecognizer.process(visionImage) { result, error in
guard error == nil, let result = result else {
// Error handling
return
}
// Recognized text
}
[textRecognizer processImage:image
completion:^(MLKText *_Nullable result,
NSError *_Nullable error) {
if (error != nil || result == nil) {
// Error handling
return;
}
// Recognized text
}];
4. 認識されたテキストのブロックからテキストを抽出する
テキスト認識オペレーションが成功すると、Text
オブジェクトが返されます。Text
オブジェクトには、画像で認識された全テキストと、0 個以上の TextBlock
オブジェクトが含まれています。
各 TextBlock
は四角形のテキスト ブロックを表し、それぞれのブロックに 0 個以上の TextLine
オブジェクトが含まれます。各 TextLine
オブジェクトには 0 個以上の TextElement
オブジェクトが含まれ、これは日付や数字などの単語や単語に似たエンティティを表します。
TextBlock
、TextLine
、TextElement
のそれぞれのオブジェクトについて、領域内で認識されたテキストと、領域の境界座標を取得できます。
例:
let resultText = result.text
for block in result.blocks {
let blockText = block.text
let blockLanguages = block.recognizedLanguages
let blockCornerPoints = block.cornerPoints
let blockFrame = block.frame
for line in block.lines {
let lineText = line.text
let lineLanguages = line.recognizedLanguages
let lineCornerPoints = line.cornerPoints
let lineFrame = line.frame
for element in line.elements {
let elementText = element.text
let elementCornerPoints = element.cornerPoints
let elementFrame = element.frame
}
}
}
NSString *resultText = result.text;
for (MLKTextBlock *block in result.blocks) {
NSString *blockText = block.text;
NSArray<MLKTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages;
NSArray<NSValue *> *blockCornerPoints = block.cornerPoints;
CGRect blockFrame = block.frame;
for (MLKTextLine *line in block.lines) {
NSString *lineText = line.text;
NSArray<MLKTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages;
NSArray<NSValue *> *lineCornerPoints = line.cornerPoints;
CGRect lineFrame = line.frame;
for (MLKTextElement *element in line.elements) {
NSString *elementText = element.text;
NSArray<NSValue *> *elementCornerPoints = element.cornerPoints;
CGRect elementFrame = element.frame;
}
}
}
入力画像に関するガイドライン
-
ML Kit でテキストを正確に認識するためには、入力画像に含まれているテキストが十分なピクセルデータによって表示されている必要があります。各文字は 16x16 ピクセル以上にするのが理想的です。一般に、文字が 24x24 ピクセルより大きくなることによる精度上のメリットはありません。
たとえば、640x480 の画像は、画像の全幅を占める名刺をスキャンする場合に適しています。レターサイズの用紙に印刷された文書をスキャンする場合は、720x1280 ピクセルの画像が必要になることがあります。
-
画像がぼやけていると、テキスト認識の精度に影響します。満足のいく結果が得られない場合は、ユーザーに画像をキャプチャし直すよう求めてください。
-
リアルタイム アプリケーションでテキストを認識する場合は、入力画像の全体サイズを考慮する必要があります。サイズが小さいほど処理は高速になります。レイテンシを短縮するには、テキストが画像のできるだけ多くの部分を占有するようにし、画像を低解像度でキャプチャします(上記の精度要件に留意してください)。詳細については、パフォーマンスを改善するためのヒントをご覧ください。
パフォーマンスを向上させるためのヒント
- 動画フレームを処理するには、検出器の
results(in:)
同期 API を使用します。AVCaptureVideoDataOutputSampleBufferDelegate
のcaptureOutput(_, didOutput:from:)
関数からこのメソッドを呼び出して、特定の動画フレームから結果を同期的に取得します。AVCaptureVideoDataOutput
のalwaysDiscardsLateVideoFrames
をtrue
として保持し、検出器の呼び出しのスロットリングを行います。検出器の実行中に新しい動画フレームが使用可能になると、そのフレームは破棄されます。 - 検出器の出力を使用して入力画像の上にグラフィックスをオーバーレイする場合は、まず ML Kit から検出結果を取得し、画像とオーバーレイを 1 つのステップでレンダリングします。これにより、ディスプレイ サーフェスへのレンダリングは、処理された入力フレームごとに 1 回で済みます。例については、ML Kit クイックスタート サンプルの updatePreviewOverlayViewWithLastFrame をご覧ください。
- より低い解像度で画像をキャプチャすることを検討してください。ただし、この API の画像サイズに関する要件にも留意してください。