文字识别

机器学习套件文本识别 API 可以识别任何基于拉丁字符集的文本。它还可用于自动执行数据输入任务,如处理信用卡、收据和名片。

iOS Android

主要功能

  • 识别各种拉丁语言的文字。支持使用拉丁文字识别文字
  • 分析文本结构:支持检测字词/元素、行和段落
  • 识别文本的语言 识别识别出的文本的语言
  • 应用占用空间较小:在 Android 上,该 API 通过 Google Play 服务以未捆绑库的形式提供。
  • 实时识别:在各种设备上实时识别文本

文本结构

文本识别器会将文本分成块、行、元素和符号。大致地说:

  • 是一组连续的文本行,例如段落或列。

  • 是同一轴上的一组连续字词,并且

  • “元素”是指在大多数拉丁语言语言中,同一轴上的一系列连续的字母数字字符(“字词”)或其他语言的字词。

  • 符号是大多数拉丁语言使用同一轴上的单个字母数字字符,

下图按降序突出显示了各个示例。第一个突出显示的块(青色)是文本块。第二组突出显示的蓝色块是文本行。最后,第三组以深蓝色突出显示的块是 Word。

对于所有检测到的分块、线条、元素和符号,该 API 会返回边界框、边点、旋转信息、置信度分数、识别的语言和识别出的文本。

示例结果


照片:Dietmar RabichWikimedia Commons"Düsseldorf、Wege der parlamentarischen Demokratie -- 2015 -- 8123"CC BY-SA 4.0
识别出的文字
文本 Wege
der lalamentarischen
Demokratie
盖帽次数 (1 个代码块)
块 0
文本 Wege der parlamentarischen Demokratie
Frame (296、665 - 796、882)
角落点 (296, 719)、(778, 665)、(796, 828)、(314, 882)
识别出的语言代码 de
线条 (3 行)
第 0 行
文本 Wege der
Frame (434、678 - 670、749)
角落点 (434, 705)、(665, 678)、(670, 722)、(439, 749)
识别出的语言代码 de
置信度分数 0.8766741
旋转角度 -6.6116457
元素 (2 个元素)
元素 0
文本 Wege
Frame (434、689 - 575、749)
角落点 (434, 705)、(570, 689)、(575, 733)、(439, 749)
识别出的语言代码 de
置信度分数 0.8964844
旋转角度 -6.6116457
元素 (4 个元素)
符号 0
文本 W
Frame (434、698 - 500、749)
角落点 (434, 706)、(495, 698)、(500, 741)、(439, 749)
置信度分数 0.87109375
旋转角度 -6.611646