כל הפריטים שנשלחים מתווספים לאינדקס של Cloud Search, ללא קשר לסוג הקובץ (MIME או סוג תוכן). ההוספה לאינדקס מתבצעת על נתוני המטא-נתונים של הקובץ, ואם התכונה נתמכת, גם על התוכן שלו. בהמשך מופיעה רשימה של סוגי קבצים שיש תמיכה בהוספת תוכן שלהם לאינדקס.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft Powerpoint (PPT)
- Microsoft Powerpoint (PPTX)
- Portable Document Format (PDF) של Adobe
- Rich Text Format (RTF)
- פורמט טקסט (TXT)
- Hypertext Markup Language (HTML)
- Extensible Markup Language (XML)
בנוסף לסוגי הקבצים האלה, Cloud Search תומך בהוספת תוכן לאינדקס בכל קובץ טקסט פשוט.
סוגי קבצים ומאפיינים של זיהוי תווים אופטי (OCR)
חיפוש Google Cloud משתמש גם ב-OCR כדי לחלץ טקסט מסוגי הקבצים הבאים:
סוג הקובץ | גודל מקסימלי |
---|---|
Joint Photographic Experts Group (JPG) | 10 MB |
Graphic Interchange Format (GIF) | 10 MB |
Tagged Image File Format (TIFF) | 10 MB |
Scalable Vector Graphics (SVG) | 10 MB |
פורמט תמונה של PostScript (PS) | 10 MB |
Portable Document Format (PDF) | 30 MB |
התכונה 'זיהוי תווים אופטי' פועלת גם בקבצים עם המאפיינים הבאים:
- מסמכים בכתב יד. המסמכים שמניבים את התוצאות הטובות ביותר הם כאלה שנכתבו בכתב לטינית, ביפנית ובקוריאנית.
- מסמכים שנכתבים אנכית, כמו מסמכים ביפנית.
- מסמכים שנכתבים מימין לשמאל, כמו עברית.