Texterkennung Version 2

Die ML Kit Text Recognition API v2 kann Text in allen chinesischen, Devanagari-, japanischen, koreanischen und lateinischen Zeichensätzen erkennen. Die API kann auch zur Automatisierung von Dateneingabeaufgaben wie der Verarbeitung von Kreditkarten, Belegen und Visitenkarten verwendet werden.

iOS Android

Hauptmerkmale

  • Erkennen von Text in verschiedenen Schriftsystemen und Sprachen Unterstützt die Erkennung von Text in chinesischen, Devanagari-, Japanisch-, Koreanisch- und Latein-Schriften
  • Analysiert die Textstruktur Unterstützt die Erkennung von Symbolen, Elementen, Zeilen und Absätzen.
  • Sprache des Textes erkennen: Die Sprache des erkannten Textes.
  • Echtzeiterkennung: Erkennen von Text in Echtzeit auf einer Vielzahl von Geräten

Textstruktur

Die Texterkennung segmentiert Text in Blöcke, Linien, Elemente und Symbole. Ganz anders:

  • Ein Block ist eine zusammenhängende Reihe von Textzeilen, z. B. ein Absatz oder eine Spalte.

  • Eine Linie besteht aus mehreren zusammenhängenden Wörtern auf derselben Achse.

  • Ein Element ist ein zusammenhängender Satz alphanumerischer Zeichen ("Wort") auf derselben Achse in den meisten lateinischen Sprachen oder ein Wort in anderen Sprachen.

  • Ein Symbol ist in den meisten lateinischen Sprachen ein einzelnes alphanumerisches Zeichen auf derselben Achse oder in anderen Sprachen ein Zeichen.

In der Abbildung unten sind Beispiele für diese Optionen in absteigender Reihenfolge hervorgehoben. Der erste hervorgehobene Block in Cyan ist ein Textblock. Die zweite Gruppe von blau hervorgehobenen Blöcken sind Textzeilen. Die dritte Gruppe hervorgehobener Blöcke in Dunkelblau ist Words.

Für alle erkannten Blöcke, Linien, Elemente und Symbole gibt die API Begrenzungsrahmen, Eckpunkte, Rotationsinformationen, Konfidenzwerte, erkannte Sprachen und erkannten Text zurück.

Beispielergebnisse


Foto: Dietmar Rabich, Wikimedia Commons, „Düsseldorf, Wege der parlamentarische Demokratie – 2015 – 8123“, CC BY-SA 4.0
Erkannter Text
Text Wege
der Parlamentsbehörde
Demokratie
Blocks (1 Block)
Block 0
Text Wege der parlamentarischen Demokratie
Frame (296, 665–796, 882)
Eckpunkte (296, 719), (778, 665), (796, 828), (314, 882)
Erkannter Sprachcode de
Zeilen (3 Zeilen)
Zeile 0
Text Wege der
Frame (434, 678–670, 749)
Eckpunkte (434, 705), (665, 678), (670, 722), (439, 749)
Erkannter Sprachcode de
Konfidenzwert 0,8766741
Rotationsgrad -6,6116457
Elemente (2 Elemente)
Element 0
Text Möglichkeiten
Frame (434, 689–575, 749)
Eckpunkte (434, 705), (570, 689), (575, 733), (439, 749)
Erkannter Sprachcode de
Konfidenzwert 0,8964844
Rotationsgrad -6,6116457
Elemente (4 Elemente)
Symbol 0
Text W
Frame (434, 698–500, 749)
Eckpunkte (434, 706), (495, 698), (500, 741), (439, 749)
Konfidenzwert 0,87109375
Rotationsgrad -6,611646