ממשק ה-API לזיהוי טקסט ב-ML Kit, של גרסה 2, יכול לזהות טקסט בכל קבוצת תווים: סינית, דוונגארי, יפנית, קוריאנית ולטינית. ניתן להשתמש ב-API גם כדי להפוך משימות של הזנת נתונים לאוטומטיות, כמו עיבוד כרטיסי אשראי, קבלות וכרטיסי ביקור.
יכולות עיקריות
- זיהוי טקסט בשפות ובסקריפטים שונים תומך בזיהוי טקסט בשפות סינית, דוונגארי, יפנית, קוריאנית ולטינית
- ניתוח של מבנה הטקסט תומך בזיהוי של סמלים, רכיבים, שורות ופסקאות
- זיהוי שפת הטקסט מזהה את השפה של הטקסט המזוהה
- זיהוי בזמן אמת: המערכת יכולה לזהות טקסט בזמן אמת במגוון רחב של מכשירים
מבנה הטקסט
הכלי לזיהוי טקסט מפלח טקסט לפי בלוקים, קווים, רכיבים וסמלים. בדיבור גס:
חסימה היא קבוצה רציפה של שורות טקסט, כגון פסקה או עמודה,
קו הוא אוסף מילים רציף על אותו ציר, וכן
רכיב הוא קבוצה רציפה של תווים אלפאנומריים ("מילה") באותו ציר ברוב השפות הלטיניות, או מילה בשפות אחרות
סמל הוא תו אלפאנומרי יחיד באותו ציר, ברוב השפות הלטיניות, או תו בשפות אחרות
התמונה הבאה מדגישה דוגמאות של כל אחת מהן, בסדר יורד. הבלוק המודגש הראשון, בציאן, הוא בלוק של טקסט. הקבוצה השנייה של הבלוקים המודגשים, בכחול, היא שורות טקסט. לבסוף, הקבוצה השלישית של בלוקים מודגשים, בכחול כהה, הם מילים.
בכל הבלוקים, הקווים, האלמנטים והסמלים שזוהו, ה-API מחזיר את התיבות שקשורות לגבולות, את הנקודות בפינה, את נתוני הסבב, את רמת המהימנות, את השפות שזוהו ואת הטקסט המזוהה.
תוצאות לדוגמה

תמונה: Dietmar Rabich, Wikimedia Commons, "Düsselfooter, Wege der parlamentarischen Demokratie -- 2015 -- 8123", CC BY-SA 4.0
טקסט מזוהה | |
---|---|
טקסט | ווג' פרלמנטרשן דמוקרטי |
חסימות | (גוש בניינים אחד) |
חסימה 0 | |
---|---|
טקסט | ווגה דר פרלמנטרשן דמוקרטי |
מסגרת | (296, 665 - 796, 882) |
נקודות פינה | (296, 719), (778, 665), (796, 828), (314, 882) |
קוד שפה מוכר | de |
קווים | (3 שורות) |
שורה 0 | |
---|---|
טקסט | וג'ה דר |
מסגרת | (434, 678 - 670, 749) |
נקודות פינה | (434, 705), 665, 678), 670, 722, (439, 749) |
קוד שפה מוכר | de |
ציון מהימנות | 0.8766741 |
מעלות סיבוב | -6.6116457 |
Elements | (2 רכיבים) |
רכיב 0 | |
---|---|
טקסט | ווג' |
מסגרת | (434, 689 - 575, 749) |
נקודות פינה | (434, 705), (570, 689), (575, 733), (439, 749) |
קוד שפה מוכר | de |
ציון מהימנות | 0.8964844 |
מעלות סיבוב | -6.6116457 |
Elements | (4 רכיבים) |
סמל 0 | |
---|---|
טקסט | W |
מסגרת | (434, 698 - 500, 749) |
נקודות פינה | (434, 706), (495, 698), (500, 741), (439, 749) |
ציון מהימנות | 0.87109375 |
מעלות סיבוב | -6.611646 |