מערכת Cloud Search מוסיפה לאינדקס את כל הפריטים שנשלחים, בלי קשר לסוג הקובץ (MIME או content-type). האינדוקס מתבצע על נתוני המטא-נתונים של הקובץ, ואם הפורמט נתמך, גם על התוכן שלו. בהמשך מופיעה רשימה של סוגי קבצים שבהם נתמכת הוספה לאינדקס של תוכן ב-Google.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft Powerpoint (PPT)
- Microsoft Powerpoint (PPTX)
- פורמט מסמך נייד (PDF) של Adobe
- פורמט Rich Text (RTF)
- פורמט טקסט (TXT)
- Hypertext Markup Language (HTML)
- שפת סימון מורחבת (XML)
בנוסף לסוגי הקבצים האלה, Cloud Search תומך בהוספת תוכן לאינדקס בכל קובץ טקסט רגיל.
סוגי קבצים ומאפיינים של זיהוי תווים אופטי (OCR)
ב-Google Cloud Search נעשה שימוש ב-OCR גם כדי לחלץ טקסט מסוגי הקבצים הבאים:
סוג הקובץ | גודל מקסימלי |
---|---|
Joint Photographic Experts Group (JPG) | 10 MB |
פורמט להחלפת גרפיקה (GIF) | 10 MB |
Tagged Image File Format (TIFF) | 10 MB |
Scalable Vector Graphics (SVG) | 10 MB |
פורמט תמונה של PostScript (PS) | 10 MB |
Portable Document Format (PDF) | 30MB |
זיהוי התווים האופטי (OCR) פועל גם בקבצים עם המאפיינים הבאים:
- מסמכים בכתב יד. התוצאות הכי טובות מתקבלות ממסמכים בכתב לטיני, ביפנית ובקוריאנית.
- מסמכים שנכתבים בצורה אנכית, כמו מסמכים ביפנית.
- מסמכים שנכתבים מימין לשמאל, כמו עברית.