זיהוי טקסט גרסה 2

ממשק ה-API של מזהה ערכת הטקסט של ML Kit יכול לזהות טקסט בכל מערכת תווים סינית, דוונגארי, יפנית, קוריאנית ולטינית. ניתן גם להשתמש ב-API כדי להפוך משימות של הזנת נתונים לאוטומטיות, כמו עיבוד כרטיסי אשראי, קבלות וכרטיסי ביקור.

iOS Android

יכולות עיקריות

  • זיהוי טקסט בסקריפטים ובשפות שונות תומך בזיהוי טקסט בסקריפטים של סינית, דוונגארי, יפנית, קוריאנית ולטינית
  • ניתוח מבנה הטקסט תומך בזיהוי של סמלים, רכיבים, שורות ופסקאות.
  • זיהוי השפה של הטקסט זיהוי השפה של הטקסט המזוהה
  • זיהוי בזמן אמת: זיהוי טקסט בזמן אמת במגוון רחב של מכשירים

מבנה הטקסט

הכלי לזיהוי טקסט מפלח טקסט לבלוקים, לקווים, לרכיבים ולסמלים. באופן גס:

  • חסימה היא קבוצה רציפה של שורות טקסט, כגון פסקה או עמודה.

  • שורה היא קבוצה רציפת של מילים באותו ציר,

  • רכיב הוא קבוצה רציפה של תווים אלפאנומריים ("word") באותו ציר ברוב השפות הלטיניות, או מילה בשפות אחרות

  • סמל הוא תו אלפאנומרי יחיד באותו ציר, ברוב השפות הלטיניות, או תו בשפות אחרות

התמונה הבאה מציגה דוגמאות לכל אחת מהן בסדר יורד. הבלוק המודגש הראשון בציאן הוא בלוק טקסט. הקבוצה השנייה של בלוקים מודגשים, בכחול, היא שורות טקסט. לבסוף, הקבוצה השלישית של בלוקים מודגשים, בכחול כהה, היא Words.

עבור כל הבלוקים, הקווים, הרכיבים והסמלים שזוהו, ה-API מחזיר את התיבות הגובלות, את נקודות הפינות, את פרטי הסבב, את ציון המהימנות, את השפות שזוהו ואת הטקסט המזוהה.

תוצאות לדוגמה


תמונה: Ditmar Rabitch, Wikimedia Commons, "Düsselfooter, Wege der parlamentaryschen Demokratie -- 2015 -- 8123", CC BY-SA 4.0
טקסט מוכר
טקסט Wege
der paralamentaryschen
דמוקרטי
חסימות (בלוק אחד)
חסימה 0
טקסט ווג' דר פרלמנטצ'ן דמוקרטיה
פריים (296, 665 - 796, 882)
נקודות פינתיות (296, 719), (778, 665), (796, 828), (314, 882)
קוד שפה מוכר de
קווים (3 שורות)
שורה 0
טקסט ווג' דר
פריים (434, 678 - 670, 749)
נקודות פינתיות (434, 705), (665, 678), (670, 722), (439, 749)
קוד שפה מוכר de
ציון מהימנות 0.8766741
מעלות סיבוב -6.6116457
Elements (שני רכיבים)
רכיב 0
טקסט ווג'
פריים (434, 689 - 575, 749)
נקודות פינתיות (434, 705), (570, 689), (575, 733), (439, 749)
קוד שפה מוכר de
ציון מהימנות 0.8964844
מעלות סיבוב -6.6116457
Elements (4 רכיבים)
סמל 0
טקסט W
פריים (434, 698 - 500, 749)
נקודות פינתיות (434, 706), (495, 698), (500, 741), (439, 749)
ציון מהימנות 0.87109375
מעלות סיבוב -6.611646