文字辨識

ML Kit Text Recognition API 可識別任何拉丁字元集中的文字。也可用於自動化處理資料輸入工作,例如處理信用卡、收據和名片。

iOS Android

主要功能

  • 辨識各個拉丁語系的文字:支援使用拉丁字母辨識文字
  • 分析文字結構:支援偵測字詞/元素、行和段落
  • 辨識文字語言:辨識系統辨識的文字語言
  • 小型應用程式用量:在 Android 裝置上,這個 API 是透過 Google Play 服務以未封裝的形式提供
  • 即時辨識:在多部裝置上即時辨識文字

文字結構

文字辨識器會將文字分成區塊、行、元素和符號。大致說:

  • 區塊是一組連續的文字行,例如段落或資料欄。

  • 線條是同一軸的連續字詞組合,

  • 「元素」是一組英數字元。

  • 符號是大多數拉丁字母中,相同軸的單一英數字元,或其他其他語言中的字元

下圖以遞減順序列出這些項目。第一個醒目顯示的區塊是青色。第二組以藍色醒目顯示的區塊是文字行。最後,第三個醒目顯示的醒目顯示區塊是深藍色,也就是 Word。

針對所有偵測到的區塊、行、元素和符號,API 會傳回定界框、角落點、旋轉資訊、可信度分數、辨識的語言和可辨識的文字。

搜尋結果範例


相片: Dietmar RabichWikimedia Commons"Düsseldorf、 Wege der parlamentarischen Demokratie -- 2015 -- 8123" CC BY-SA 4.0
辨識的文字
文字 韋格
der parlamentarischen
Demokratie
阻攻次數 (1 個區塊)
區塊 0
文字 民主身分證
外框 (296、665 - 796、882)
邊角 (296、719)、(778、665)、(796、828)、(314、882)
已識別的語言代碼 de
路線 (3 行)
第 0 行
文字 韋格德
外框 (434、678 - 670、749)
邊角 (434、705)、(665、678)、(670、722)、(439、749)
已識別的語言代碼 de
可信度分數 0.8766741
旋轉角度 -6.6116457
元素 (2 個元素)
元素 0
文字 雜亂
外框 (434、689 - 575、749)
邊角 (434、705)、(570、689)、(575、733)、(439、749)
已識別的語言代碼 de
可信度分數 0.8964844
旋轉角度 -6.6116457
元素 (4 個元素)
符號 0
文字 W
外框 (434、698 - 500、749)
邊角 (434、706)、(495、698)、(500、741)、(439、749)
可信度分數 0.87109375
旋轉角度 -6.611646