Распознавание текста v2

API-интерфейс ML Kit Text Recognition v2 может распознавать текст в любом китайском, деванагари, японском, корейском и латинском наборах символов. API также можно использовать для автоматизации задач ввода данных, таких как обработка кредитных карт, квитанций и визитных карточек.

iOS Android

Ключевые возможности

  • Распознавание текста на различных алфавитах и ​​языках Поддерживает распознавание текста на китайском, деванагари, японском, корейском и латинском алфавитах
  • Анализирует структуру текста. Поддерживает обнаружение символов, элементов, строк и абзацев.
  • Определить язык текста Определяет язык распознанного текста
  • Распознавание в реальном времени Может распознавать текст в реальном времени на самых разных устройствах.

Текстовая структура

Распознаватель текста сегментирует текст на блоки, строки, элементы и символы. Грубо говоря:

  • Блок — это непрерывный набор текстовых строк, например абзац или столбец,

  • Строка — это непрерывный набор слов на одной оси, а

  • Элемент представляет собой непрерывный набор буквенно-цифровых символов («слово») на одной оси в большинстве латинских языков или слово в других.

  • Символ — это одиночный буквенно-цифровой символ на той же оси в большинстве латинских языков или символ в других.

На изображении ниже показаны примеры каждого из них в порядке убывания. Первый выделенный блок голубым цветом — это блок текста. Второй набор выделенных блоков, выделенных синим цветом, — это строки текста. Наконец, третий набор блоков, выделенных темно-синим цветом, — это слова.

Для всех обнаруженных блоков, линий, элементов и символов API возвращает ограничивающие рамки, угловые точки, информацию о повороте, показатель достоверности, распознанные языки и распознанный текст.

Пример результатов


Фото: Дитмар Рабих , Wikimedia Commons , «Düsseldorf, Wege der parlamentarischen Demokratie — 2015 — 8123» , CC BY-SA 4.0
Распознанный текст
Текст Веге
парламентарии
Демократия
Блоки (1 блок)
Блок 0
Текст Wege der parlamentarischen Demokratie
Рамка (296, 665 - 796, 882)
Угловые точки (296, 719), (778, 665), (796, 828), (314, 882)
Распознанный код языка де
Линии (3 строки)
Строка 0
Текст Веге дер
Рамка (434, 678 - 670, 749)
Угловые точки (434, 705), (665, 678), (670, 722), (439, 749)
Распознанный код языка де
Оценка достоверности 0,8766741
Степень вращения -6,6116457
Элементы (2 элемента)
Элемент 0
Текст Веге
Рамка (434, 689 - 575, 749)
Угловые точки (434, 705), (570, 689), (575, 733), (439, 749)
Распознанный код языка де
Оценка достоверности 0,8964844
Степень вращения -6,6116457
Элементы (4 элемента)
Символ 0
Текст Вт
Рамка (434, 698 - 500, 749)
Угловые точки (434, 706), (495, 698), (500, 741), (439, 749)
Оценка достоверности 0,87109375
Степень вращения -6,611646
,

API-интерфейс ML Kit Text Recognition v2 может распознавать текст в любом китайском, деванагари, японском, корейском и латинском наборах символов. API также можно использовать для автоматизации задач ввода данных, таких как обработка кредитных карт, квитанций и визитных карточек.

iOS Android

Ключевые возможности

  • Распознавание текста на различных алфавитах и ​​языках Поддерживает распознавание текста на китайском, деванагари, японском, корейском и латинском алфавитах
  • Анализирует структуру текста. Поддерживает обнаружение символов, элементов, строк и абзацев.
  • Определить язык текста Определяет язык распознанного текста
  • Распознавание в реальном времени Может распознавать текст в реальном времени на самых разных устройствах.

Текстовая структура

Распознаватель текста сегментирует текст на блоки, строки, элементы и символы. Грубо говоря:

  • Блок — это непрерывный набор текстовых строк, например абзац или столбец,

  • Строка — это непрерывный набор слов на одной оси, а

  • Элемент представляет собой непрерывный набор буквенно-цифровых символов («слово») на одной оси в большинстве латинских языков или слово в других.

  • Символ — это одиночный буквенно-цифровой символ на той же оси в большинстве латинских языков или символ в других.

На изображении ниже показаны примеры каждого из них в порядке убывания. Первый выделенный блок голубым цветом — это блок текста. Второй набор выделенных блоков, выделенных синим цветом, — это строки текста. Наконец, третий набор блоков, выделенных темно-синим цветом, — это слова.

Для всех обнаруженных блоков, линий, элементов и символов API возвращает ограничивающие рамки, угловые точки, информацию о повороте, показатель достоверности, распознанные языки и распознанный текст.

Пример результатов


Фото: Дитмар Рабих , Wikimedia Commons , «Düsseldorf, Wege der parlamentarischen Demokratie — 2015 — 8123» , CC BY-SA 4.0
Распознанный текст
Текст Веге
парламентарии
Демократия
Блоки (1 блок)
Блок 0
Текст Wege der parlamentarischen Demokratie
Рамка (296, 665 - 796, 882)
Угловые точки (296, 719), (778, 665), (796, 828), (314, 882)
Распознанный код языка де
Линии (3 строки)
Строка 0
Текст Веге дер
Рамка (434, 678 - 670, 749)
Угловые точки (434, 705), (665, 678), (670, 722), (439, 749)
Распознанный код языка де
Оценка достоверности 0,8766741
Степень вращения -6,6116457
Элементы (2 элемента)
Элемент 0
Текст Веге
Рамка (434, 689 - 575, 749)
Угловые точки (434, 705), (570, 689), (575, 733), (439, 749)
Распознанный код языка де
Оценка достоверности 0,8964844
Степень вращения -6,6116457
Элементы (4 элемента)
Символ 0
Текст Вт
Рамка (434, 698 - 500, 749)
Угловые точки (434, 706), (495, 698), (500, 741), (439, 749)
Оценка достоверности 0,87109375
Степень вращения -6,611646