ML Kit Text Recognition v2 API は、中国語、デバナーガリ語、日本語、韓国語、ラテン文字セットのテキストを認識できます。また、クレジット カード、領収書、名刺の処理などのデータ入力タスクを自動化するためにも使用できます。
主な機能
- さまざまな文字と言語のテキストを認識 中国語、デバナーガリ文字、日本語、韓国語、ラテン文字のテキストの認識をサポートします。
- テキストの構造の分析記号、要素、行、段落の検出をサポートします。
- テキストの言語の確認 認識したテキストの言語を指定します
- リアルタイム認識 さまざまなデバイスでテキストをリアルタイムで認識できます。
テキストの構造
テキスト認識ツールは、テキストをブロック、線、要素、記号に分割します。大まかな流れは次のとおりです。
ブロックは段落や列などの連続したテキスト行であり、
Line は、同じ軸上で連続した単語のセットです。
要素は、ほとんどのラテン言語では同じ軸上に連続した英数字(「単語」)の集合であり、それ以外の言語では 1 つの単語です。
Symbol は、ほとんどのラテン文字で同じ軸に 1 つの英数字(その他の言語では 1 文字)です。
以下の画像は、それぞれの例を降順で示しています。最初にハイライトされたシアンのブロックは、テキストのブロックです。青色のハイライト表示されたブロックの 2 つ目のセットは、テキスト行です。最後に、濃い青色でハイライト表示された 3 つ目のブロックは単語です。
検出されたすべてのブロック、線、要素、記号について、API は境界ボックス、角のポイント、回転情報、信頼スコア、認識された言語、認識されたテキストを返します。
検索結果の例
認識されたテキスト | |
---|---|
テキスト | Wege der parlamentarischen 民主主義者 |
ブロック | (1 ブロック) |
ブロック 0 | |
---|---|
テキスト | ウェゲ デル パラメンタリッシェン デモクラティエ |
フレーム | (296, 665 ~ 796, 882) |
角のポイント | (296, 719)、(778, 665)、(796, 828)、(314, 882) |
認識された言語コード | de |
線 | (3 行) |
行 0 | |
---|---|
テキスト | ヴェーゲ デル |
フレーム | (434、678 ~ 670、749) |
角のポイント | (434, 705)、(665, 678)、(670, 722)、(439, 749) |
認識された言語コード | de |
信頼スコア | 0.8766741 |
回転の度数 | -6.6116457 |
要素 | (2 要素) |
要素 0 | |
---|---|
テキスト | ウェージ |
フレーム | (434、689 ~ 575、749) |
角のポイント | (434, 705)、(570, 689)、(575, 733)、(439, 749) |
認識された言語コード | de |
信頼スコア | 0.8964844 |
回転の度数 | -6.6116457 |
要素 | (4 要素) |
記号 0 | |
---|---|
テキスト | W |
フレーム | (434、698 ~ 500、749) |
角のポイント | (434, 706)、(495, 698)、(500, 741)、(439, 749) |
信頼スコア | 0.87109375 |
回転の度数 | -6.611646 |