סוגי קבצים נתמכים לחילוץ טקסט

מערכת Cloud Search מוסיפה לאינדקס את כל הפריטים שנשלחים, בלי קשר לסוג הקובץ (MIME או content-type). האינדוקס מתבצע על נתוני המטא-נתונים של הקובץ, ואם נתמך, גם על התוכן שלו. בהמשך מופיעה רשימה של סוגי קבצים שנתמכים בהם הוספה לאינדקס של תוכן.

  • Microsoft Word (DOC)
  • Microsoft Word ‏ (DOCX)
  • Microsoft Excel (XLS)‎
  • Microsoft Excel (XLSX)‎
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • פורמט מסמך נייד (PDF) של Adobe
  • פורמט Rich Text ‏ (RTF)
  • פורמט טקסט (TXT)
  • Hypertext Markup Language (HTML)
  • שפת סימון מורחבת (XML)

בנוסף לסוגי הקבצים האלה, Cloud Search תומך בהוספה לאינדקס של תוכן בכל קובץ טקסט רגיל.

סוגי קבצים ומאפיינים של זיהוי תווים אופטי (OCR)

ב-Google Cloud Search נעשה שימוש ב-OCR גם כדי לחלץ טקסט מסוגי הקבצים הבאים:

סוג הקובץ גודל מקסימלי
Joint Photographic Experts Group ‏ (JPG) ‎10 MB
פורמט להחלפת גרפיקה (GIF) ‎10 MB
Tagged Image File Format‏ (TIFF) ‎10 MB
Scalable Vector Graphics ‏ (SVG) ‎10 MB
פורמט תמונה של PostScript‏ (PS) ‎10 MB
‫Portable Document Format‏ (PDF) ‫30MB

זיהוי התווים האופטי (OCR) פועל גם בקבצים עם המאפיינים הבאים:

  • מסמכים בכתב יד. התוצאות הכי טובות מתקבלות ממסמכים שנכתבו בכתב לטיני, ביפנית ובקוריאנית.
  • מסמכים שנכתבים בצורה אנכית, כמו מסמכים ביפנית.
  • מסמכים שנכתבים מימין לשמאל, כמו עברית.