テキスト認識

ML Kit Text Recognition API は、ラテンベースの文字セットのテキストを認識できます。また、クレジット カード、領収書、名刺の処理などのデータ入力タスクの自動化にも使用できます。

iOS Android

主な機能

  • ラテン語ベースのテキストを認識する: ラテン文字を使用したテキストの認識をサポートします。
  • テキストの構造を分析する 単語、要素、行、段落の検出をサポートします。
  • テキストの言語を特定する: 認識されたテキストの言語を示します
  • 小さなアプリフットプリント: Android では、API は Google Play 開発者サービスを介してバンドルされていないライブラリとして提供されます。
  • リアルタイム認識: さまざまなデバイスでリアルタイムにテキストを認識できます。

テキスト構造

テキスト認識は、テキストをブロック、線、要素、記号に分割します。大まかな説明:

  • ブロックは、段落や列などの連続したテキスト行のセットです。

  • とは、同じ軸上に連続する単語のセットであり、

  • 要素は、ほとんどのラテン文字では同一軸に連続した英数字("word")であり、他の言語では単語です。

  • 記号とは、ほとんどのラテン文字で同じ軸上にある単一の英数字、または他の文字を指します。

以下の画像は、それぞれの例を降順で示しています。最初にハイライト表示されるブロックはシアンで、テキストのブロックです。ハイライトされたブロックの 2 番目のセット(青色)はテキスト行です。最後に、ハイライト表示されている 3 つ目のブロックセット(暗い青色)は Words です。

API は、検出されたすべてのブロック、行、要素、記号について、境界ボックス、コーナー ポイント、回転情報、信頼スコア、認識された言語、認識されたテキストを返します。

検索結果の例


写真: Dietmar RabichWikimedia Commons"Düsseldorf、 Wege der parlamentarischen Demokratie -- 2015 -- 8123", CC BY-SA 4.0
認識されたテキスト
テキスト Wege
der parlamentarischen
Demokratie
Blocks (1 ブロック)
ブロック 0
テキスト Wege der lalamentarischen Demokratie
フレーム (296、665 ~ 796、882)
コーナー ポイント (296、719)、(778、665)、(796、828)、(314、882)
認識された言語コード de
(3 行)
行 0
テキスト ウェーダー
フレーム (434、678 ~ 670、749)
コーナー ポイント (434, 705)、(665, 678)、(670, 722)、(439, 749)
認識された言語コード de
信頼スコア 0.8766741
回転角度 -6.6116457
要素 (2 要素)
要素 0
テキスト ウェゲ語
フレーム (434、689 ~ 575、749)
コーナー ポイント (434, 705)、(570, 689)、(575, 733)、(439, 749)
認識された言語コード de
信頼スコア 0.8964844
回転角度 -6.6116457
要素 (4 要素)
記号 0
テキスト W
フレーム (434、698 ~ 500、749)
コーナー ポイント (434, 706)、(495, 698)、(500, 741)、(439, 749)
信頼スコア 0.87109375
回転角度 -6.611646