Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง โดยไม่คำนึงถึงประเภทไฟล์ (MIME หรือ content) การจัดทำดัชนีจะทำกับข้อมูลข้อมูลเมตาของไฟล์ และเนื้อหาของไฟล์หากมีการรองรับ ต่อไปนี้คือรายการประเภทไฟล์ที่รองรับการจัดทำดัชนีเนื้อหา
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- รูปแบบเอกสารแบบพกพาของ Adobe (PDF)
- รูปแบบ Rich Text (RTF)
- รูปแบบข้อความ (TXT)
- ภาษามาร์กอัปไฮเปอร์เท็กซ์ (HTML)
- Extensible Markup Language (XML)
นอกเหนือจากประเภทไฟล์เหล่านี้แล้ว Cloud Search ยังรองรับการจัดทำดัชนีเนื้อหาภายในไฟล์ข้อความธรรมดาทั้งหมด
ประเภทไฟล์และลักษณะของการรู้จักอักขระด้วยภาพ (OCR)
Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากประเภทไฟล์ต่อไปนี้ด้วย
ประเภทไฟล์ | ขนาดสูงสุด |
---|---|
กลุ่มผู้เชี่ยวชาญการถ่ายภาพร่วม (JPG) | 10 MB |
รูปแบบการแลกเปลี่ยนกราฟิก (GIF) | 10 MB |
รูปแบบไฟล์รูปภาพที่ติดแท็ก (TIFF) | 10 MB |
ภาพกราฟิกเวกเตอร์ที่รองรับการปรับขนาด (Scalable Vector Graphics หรือ SVG) | 10 MB |
รูปแบบรูปภาพ PostScript (PS) | 10 MB |
Portable Document Format (PDF) | 30 เมกะไบต์ |
OCR ยังทำงานบนไฟล์ที่มีลักษณะต่อไปนี้
- เอกสารที่เขียนด้วยลายมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลี จะให้ผลลัพธ์ที่ดีที่สุด
- เอกสารที่มีการเขียนแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
- เอกสารที่เขียนจากขวาไปซ้าย เช่น ภาษาฮิบรู