Texterkennung

Die ML Kit Text Recognition API kann Text in jedem lateinischen Zeichensatz erkennen. Es kann auch zur Automatisierung von Dateneingabeaufgaben wie der Verarbeitung von Kreditkarten, Belegen und Visitenkarten verwendet werden.

iOS Android-Geräte

Hauptmerkmale

  • Text in lateinischen Schriften erkennen: Erkennt Text mit lateinischen Schriftzeichen.
  • Textstruktur analysieren Unterstützt die Erkennung von Wörtern/Elementen, Zeilen und Absätzen.
  • Sprache des Textes erkennen Die Sprache des erkannten Textes
  • Kleiner Anwendungsbedarf: Unter Android wird die API als entbündelte Bibliothek über Google Play-Dienste angeboten.
  • Echtzeiterkennung: Kann Text in Echtzeit auf einer Vielzahl von Geräten erkennen

Textstruktur

Die Texterkennung teilt Text in Blöcke, Linien, Elemente und Symbole auf. Ungefähr im Klartext:

  • Ein Block ist ein zusammenhängender Satz von Textzeilen, z. B. ein Absatz oder eine Spalte.

  • Eine Linie ist eine zusammenhängende Gruppe von Wörtern auf derselben Achse.

  • Ein Element ist ein zusammenhängender alphanumerischer Zeichensatz ("word") auf derselben Achse in den meisten Sprachen mit lateinischer Schrift oder ein Wort in anderen

  • ein Symbol ist ein einzelnes alphanumerisches Zeichen auf derselben Achse, das in den meisten Sprachen Lateinisch ist, oder ein Zeichen in anderen

Im Bild unten sind Beispiele dafür in absteigender Reihenfolge zu sehen. Der erste hervorgehobene Block in Cyan ist ein Textblock. Bei den zweiten hervorgehobenen Blöcken handelt es sich um blaue Textzeilen. Die dritte Gruppe von hervorgehobenen Blöcken in Dunkelblau ist Words.

Für alle erkannten Blöcke, Linien, Elemente und Symbole gibt die API Begrenzungsrahmen, Eckpunkte, Rotationsinformationen, Konfidenzwert, erkannte Sprachen und erkannten Text zurück.

Beispielergebnisse


Foto: Dietmar Rabich, Wikimedia Commons, "Düsseldorf, Wege der parlamentarian Demokratie – 2015 – 8123", CC BY-SA 4.0
Erkannter Text
Text Wege
der parlamentarische
Demokratie
Blocks (1 Block)
Block 0
Text Wege der parlamentarischen Demokratie
Rahmen (296, 665–796, 882)
Eckpunkte (296, 719), (778, 665), (796, 828), (314, 882)
Erkannter Sprachcode de
Linien (3 Zeilen)
Zeile 0
Text Wege der
Rahmen (434, 678–670, 749)
Eckpunkte (434, 705), (665, 678), (670, 722), (439, 749)
Erkannter Sprachcode de
Konfidenzwert 0,8766741
Rotationsgrad -6,6116457
Elemente (2 Elemente)
Element 0
Text Möglichkeiten
Rahmen (434, 689–575, 749)
Eckpunkte (434, 705), (570, 689), (575, 733), (439, 749)
Erkannter Sprachcode de
Konfidenzwert 0,8964844
Rotationsgrad -6,6116457
Elemente (4 Elemente)
Symbol 0
Text W
Rahmen (434, 698–500, 749)
Eckpunkte (434, 706), (495, 698), (500, 741), (439, 749)
Konfidenzwert 0,87109375
Rotationsgrad -6,611646