סוגי קבצים נתמכים לחילוץ טקסט

Cloud Search יוצר אינדקס של כל הפריטים שנשלחים, ללא קשר לסוג הקובץ (MIME או סוג התוכן). ההוספה לאינדקס מתבצעת על סמך נתוני המטא-נתונים של הקובץ, ואם יש תמיכה, גם התוכן שלו. בהמשך מופיעה רשימה של סוגי הקבצים שנתמכים בהם הוספת תוכן לאינדקס.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Adobe's Portable Document Format (PDF)
  • פורמט טקסט עשיר (RTF)
  • פורמט טקסט (TXT)
  • שפת סימון להיפרטקסט (HTML)
  • שפת סימון ניתנת להרחבה (XML)

בנוסף לסוגי הקבצים האלה, Cloud Search תומך בהוספת תוכן בתוך כל קובץ טקסט פשוט.

סוגי קבצים ומאפיינים של זיהוי תווים אופטי (OCR)

Google Cloud Search משתמש גם ב-OCR כדי לחלץ טקסט מסוגי הקבצים הבאים:

סוג קובץ גודל מקסימלי
קבוצת מומחי צילום משותפים (JPG) ‎10 MB
פורמט החלפה גרפי (GIF) ‎10 MB
פורמט קובץ תמונה מתויג (TIFF) ‎10 MB
Scalable Vector Graphics (SVG) ‎10 MB
פורמט תמונה של PostScript (PS) ‎10 MB
פורמט מסמכים ניידים (PDF) 30 MB

זיהוי תווים אופטי פועל גם בקבצים עם המאפיינים הבאים:

  • מסמכים בכתב יד. מסמכים בכתב לטיני, יפנית וקוריאנית מניבים את התוצאות הטובות ביותר.
  • מסמכים שנכתבים אנכית, כמו מסמכים ביפנית.
  • מסמכים שנכתבו מימין לשמאל, כמו עברית.