סוגי קבצים נתמכים לחילוץ טקסט

כל הפריטים שנשלחים מתווספים לאינדקס של Cloud Search, ללא קשר לסוג הקובץ (MIME או סוג תוכן). ההוספה לאינדקס מתבצעת על נתוני המטא-נתונים של הקובץ, ואם התכונה נתמכת, גם על התוכן שלו. בהמשך מופיעה רשימה של סוגי קבצים שיש תמיכה בהוספת תוכן שלהם לאינדקס.

  • Microsoft Word‏ (DOC)
  • Microsoft Word‏ (DOCX)
  • Microsoft Excel‏ (XLS)
  • Microsoft Excel‏ (XLSX)
  • Microsoft Powerpoint‏ (PPT)
  • Microsoft Powerpoint‏ (PPTX)
  • Portable Document Format‏ (PDF) של Adobe
  • Rich Text Format ‏ (RTF)
  • פורמט טקסט (TXT)
  • Hypertext Markup Language‏ (HTML)
  • Extensible Markup Language‏ (XML)

בנוסף לסוגי הקבצים האלה, Cloud Search תומך בהוספת תוכן לאינדקס בכל קובץ טקסט פשוט.

סוגי קבצים ומאפיינים של זיהוי תווים אופטי (OCR)

חיפוש Google Cloud משתמש גם ב-OCR כדי לחלץ טקסט מסוגי הקבצים הבאים:

סוג הקובץ גודל מקסימלי
Joint Photographic Experts Group‏ (JPG) ‎10 MB
Graphic Interchange Format‏ (GIF) ‎10 MB
Tagged Image File Format‏ (TIFF) ‎10 MB
Scalable Vector Graphics ‏ (SVG) ‎10 MB
פורמט תמונה של PostScript‏ (PS) ‎10 MB
Portable Document Format‏ (PDF) 30 MB

התכונה 'זיהוי תווים אופטי' פועלת גם בקבצים עם המאפיינים הבאים:

  • מסמכים בכתב יד. המסמכים שמניבים את התוצאות הטובות ביותר הם כאלה שנכתבו בכתב לטינית, ביפנית ובקוריאנית.
  • מסמכים שנכתבים אנכית, כמו מסמכים ביפנית.
  • מסמכים שנכתבים מימין לשמאל, כמו עברית.