Bu sayfa, Cloud Translation API ile çevrilmiştir.

iOS'te ML Kit ile görüntülerdeki metinleri tanıma

Resim veya videolardaki metinleri (ör. sokak tabelası metni) tanımak için ML Kit'i kullanabilirsiniz. Bu özelliğin temel özellikleri şunlardır:

Text Recognition v2 API
Açıklama	Resim veya videolardaki metinleri tanıma, Latin, Çince, Devanagari, Japonca ve Korece yazım sistemleri ile çeşitli diller için destek.
SDK adları	`GoogleMLKit/TextRecognition GoogleMLKit/TextRecognitionChinese GoogleMLKit/TextRecognitionDevanagari GoogleMLKit/TextRecognitionJapanese GoogleMLKit/TextRecognitionKorean`
Uygulama	Öğeler derleme sırasında uygulamanıza statik olarak bağlanır.
Uygulama boyutunun etkisi	Komut dosyası SDK'sı başına yaklaşık 38 MB
Performans	Latin alfabesi SDK'sı için çoğu cihazda gerçek zamanlı, diğerlerinde daha yavaştır.

Deneyin

Bu API'nin örnek kullanımını görmek için örnek uygulamayı inceleyin.
Codelab ile kodu kendiniz deneyin.

Başlamadan önce

Pod dosyanıza aşağıdaki ML Kit kapsüllerini ekleyin:

# To recognize Latin script
pod 'GoogleMLKit/TextRecognition', '7.0.0'
# To recognize Chinese script
pod 'GoogleMLKit/TextRecognitionChinese', '7.0.0'
# To recognize Devanagari script
pod 'GoogleMLKit/TextRecognitionDevanagari', '7.0.0'
# To recognize Japanese script
pod 'GoogleMLKit/TextRecognitionJapanese', '7.0.0'
# To recognize Korean script
pod 'GoogleMLKit/TextRecognitionKorean', '7.0.0'

Projenizin Pod'larını yükledikten veya güncelledikten sonra Xcode projenizi .xcworkspace kullanarak açın. ML Kit, Xcode 12.4 veya sonraki sürümlerde desteklenir.

1. `TextRecognizer` örneği oluşturma

Yukarıda bağımlılık olarak beyan ettiğiniz SDK ile ilgili seçenekleri ileterek +textRecognizer(options:)'ı çağırarak TextRecognizer örneği oluşturun:

Swift

// When using Latin script recognition SDK
let latinOptions = TextRecognizerOptions()
let latinTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Chinese script recognition SDK
let chineseOptions = ChineseTextRecognizerOptions()
let chineseTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Devanagari script recognition SDK
let devanagariOptions = DevanagariTextRecognizerOptions()
let devanagariTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Japanese script recognition SDK
let japaneseOptions = JapaneseTextRecognizerOptions()
let japaneseTextRecognizer = TextRecognizer.textRecognizer(options:options)

// When using Korean script recognition SDK
let koreanOptions = KoreanTextRecognizerOptions()
let koreanTextRecognizer = TextRecognizer.textRecognizer(options:options)

Objective-C

// When using Latin script recognition SDK
MLKTextRecognizerOptions *latinOptions = [[MLKTextRecognizerOptions alloc] init];
MLKTextRecognizer *latinTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Chinese script recognition SDK
MLKChineseTextRecognizerOptions *chineseOptions = [[MLKChineseTextRecognizerOptions alloc] init];
MLKTextRecognizer *chineseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Devanagari script recognition SDK
MLKDevanagariTextRecognizerOptions *devanagariOptions = [[MLKDevanagariTextRecognizerOptions alloc] init];
MLKTextRecognizer *devanagariTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Japanese script recognition SDK
MLKJapaneseTextRecognizerOptions *japaneseOptions = [[MLKJapaneseTextRecognizerOptions alloc] init];
MLKTextRecognizer *japaneseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

// When using Korean script recognition SDK
MLKKoreanTextRecognizerOptions *koreanOptions = [[MLKKoreanTextRecognizerOptions alloc] init];
MLKTextRecognizer *koreanTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];

2. Giriş resmini hazırlama

Resmi TextRecognizer'ın process(_:completion:) yöntemine UIImage veya CMSampleBufferRef olarak iletin:

UIImage veya CMSampleBuffer kullanarak bir VisionImage nesnesi oluşturun.

UIImage kullanıyorsanız şu adımları uygulayın:

UIImage ile bir VisionImage nesnesi oluşturun. Doğru .orientation değerini belirttiğinizden emin olun.

Swift

let image = VisionImage(image: UIImage)
visionImage.orientation = image.imageOrientation

Objective-C

MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image];
visionImage.orientation = image.imageOrientation;

CMSampleBuffer kullanıyorsanız şu adımları uygulayın:

CMSampleBuffer içinde bulunan resim verilerinin yönünü belirtin.

Resim yönünü almak için:

Swift

func imageOrientation(
  deviceOrientation: UIDeviceOrientation,
  cameraPosition: AVCaptureDevice.Position
) -> UIImage.Orientation {
  switch deviceOrientation {
  case .portrait:
    return cameraPosition == .front ? .leftMirrored : .right
  case .landscapeLeft:
    return cameraPosition == .front ? .downMirrored : .up
  case .portraitUpsideDown:
    return cameraPosition == .front ? .rightMirrored : .left
  case .landscapeRight:
    return cameraPosition == .front ? .upMirrored : .down
  case .faceDown, .faceUp, .unknown:
    return .up
  }
}

Objective-C

- (UIImageOrientation)
  imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                         cameraPosition:(AVCaptureDevicePosition)cameraPosition {
  switch (deviceOrientation) {
    case UIDeviceOrientationPortrait:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored
                                                            : UIImageOrientationRight;

    case UIDeviceOrientationLandscapeLeft:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored
                                                            : UIImageOrientationUp;
    case UIDeviceOrientationPortraitUpsideDown:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored
                                                            : UIImageOrientationLeft;
    case UIDeviceOrientationLandscapeRight:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored
                                                            : UIImageOrientationDown;
    case UIDeviceOrientationUnknown:
    case UIDeviceOrientationFaceUp:
    case UIDeviceOrientationFaceDown:
      return UIImageOrientationUp;
  }
}

CMSampleBuffer nesnesini ve yönünü kullanarak bir VisionImage nesnesi oluşturun:

Swift

let image = VisionImage(buffer: sampleBuffer)
image.orientation = imageOrientation(
  deviceOrientation: UIDevice.current.orientation,
  cameraPosition: cameraPosition)

Objective-C

 MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer];
 image.orientation =
   [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                cameraPosition:cameraPosition];

3. Resmi işleme

Ardından, resmi process(_:completion:) yöntemine iletin:

Swift

textRecognizer.process(visionImage) { result, error in
  guard error == nil, let result = result else {
    // Error handling
    return
  }
  // Recognized text
}

Objective-C

[textRecognizer processImage:image
                  completion:^(MLKText *_Nullable result,
                               NSError *_Nullable error) {
  if (error != nil || result == nil) {
    // Error handling
    return;
  }
  // Recognized text
}];

4. Tanınan metin bloklarından metin ayıklama

Metin tanıma işlemi başarılı olursa bir Text nesnesi döndürülür. Text nesnesi, resimde tanınan metnin tamamını ve sıfır veya daha fazla TextBlock nesnesini içerir.

Her TextBlock, sıfır veya daha fazla TextLine nesnesi içeren dikdörtgen bir metin bloğunu temsil eder. Her TextLine nesnesi, kelimeleri ve kelime benzeri öğeleri (ör. tarihler ve sayılar) temsil eden sıfır veya daha fazla TextElement nesnesi içerir.

Her TextBlock, TextLine ve TextElement nesnesi için bölgede tanınan metni ve bölgenin sınır koordinatlarını alabilirsiniz.

Örneğin:

Swift

let resultText = result.text
for block in result.blocks {
    let blockText = block.text
    let blockLanguages = block.recognizedLanguages
    let blockCornerPoints = block.cornerPoints
    let blockFrame = block.frame
    for line in block.lines {
        let lineText = line.text
        let lineLanguages = line.recognizedLanguages
        let lineCornerPoints = line.cornerPoints
        let lineFrame = line.frame
        for element in line.elements {
            let elementText = element.text
            let elementCornerPoints = element.cornerPoints
            let elementFrame = element.frame
        }
    }
}

Objective-C

NSString *resultText = result.text;
for (MLKTextBlock *block in result.blocks) {
  NSString *blockText = block.text;
  NSArray<MLKTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages;
  NSArray<NSValue *> *blockCornerPoints = block.cornerPoints;
  CGRect blockFrame = block.frame;
  for (MLKTextLine *line in block.lines) {
    NSString *lineText = line.text;
    NSArray<MLKTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages;
    NSArray<NSValue *> *lineCornerPoints = line.cornerPoints;
    CGRect lineFrame = line.frame;
    for (MLKTextElement *element in line.elements) {
      NSString *elementText = element.text;
      NSArray<NSValue *> *elementCornerPoints = element.cornerPoints;
      CGRect elementFrame = element.frame;
    }
  }
}

Giriş resmi kuralları

ML Kit'in metni doğru şekilde tanıması için giriş resimlerinin, yeterli piksel verisiyle temsil edilen metin içermesi gerekir. İdeal olarak her karakter en az 16x16 piksel olmalıdır. Karakterlerin 24x24 pikselden daha büyük olması genellikle doğruluk açısından bir avantaj sağlamaz.

Örneğin, 640x480 boyutunda bir resim, resmin tüm genişliğini kaplayan bir kartvizitin taranması için uygun olabilir. A4 kağıdına basılmış bir belgeyi taramak için 720x1280 piksel boyutunda bir resim gerekebilir.
Kötü odaklanmış resimler, metin tanıma doğruluğunu etkileyebilir. Kabul edilebilir sonuçlar elde edemiyorsanız kullanıcıdan resmi yeniden çekmesini isteyin.
Metni gerçek zamanlı bir uygulamada tanımlıyorsanız giriş resimlerinin genel boyutlarını dikkate almalısınız. Küçük resimler daha hızlı işlenebiliyor. Gecikmeyi azaltmak için metnin görüntünün mümkün olduğunca fazlasını kapladığından emin olun ve resimleri daha düşük çözünürlüklerde çekin (yukarıda belirtilen doğruluk koşullarını göz önünde bulundurun). Daha fazla bilgi için Performansı artırmaya yönelik ipuçları başlıklı makaleyi inceleyin.

Performansı iyileştirmeye yönelik ipuçları

Video karelerini işlemek için dedektörün results(in:) senkron API'sini kullanın. Belirli bir video karesinden eşzamanlı olarak sonuç almak için bu yöntemi AVCaptureVideoDataOutputSampleBufferDelegate'ın captureOutput(_, didOutput:from:) işlevinden çağırın. Algılayıcıya gelen aramaları azaltmak için AVCaptureVideoDataOutput'nin alwaysDiscardsLateVideoFrames değerini true olarak tutun. Algılayıcı çalışırken yeni bir video karesi kullanılabilir hale gelirse bu kare atlanır.
Giriş resmine grafik yerleştirmek için algılayıcının çıkışını kullanıyorsanız önce ML Kit'ten sonucu alın, ardından resmi ve yer paylaşımını tek bir adımda oluşturun. Böylece, işlenen her giriş karesi için ekran yüzeyinde yalnızca bir kez oluşturma işlemi gerçekleştirirsiniz. Örnek için ML Kit hızlı başlangıç örneğindeki updatePreviewOverlayViewWithLastFrame işlevine bakın.
Resimleri daha düşük çözünürlükte çekmeyi deneyin. Ancak bu API'nin resim boyutu koşullarını da göz önünde bulundurun.
Olası performans düşüşlerini önlemek için farklı komut dosyası seçeneklerine sahip birden fazla TextRecognizer örneğini aynı anda çalıştırmayın.

iOS'te ML Kit ile görüntülerdeki metinleri tanıma

Deneyin

Başlamadan önce

1. TextRecognizer örneği oluşturma

Swift

Objective-C

2. Giriş resmini hazırlama

Swift

Objective-C

Swift

Objective-C

Swift

Objective-C

3. Resmi işleme

Swift

Objective-C

4. Tanınan metin bloklarından metin ayıklama

Swift

Objective-C

Giriş resmi kuralları

Performansı iyileştirmeye yönelik ipuçları

1. `TextRecognizer` örneği oluşturma