Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง ไม่ว่าจะเป็นประเภทไฟล์ใดก็ตาม (MIME หรือ Content-Type) การจัดทำดัชนีจะดำเนินการกับข้อมูลเมตาของไฟล์และเนื้อหา (หากรองรับ) ต่อไปนี้คือรายการประเภทไฟล์ที่รองรับการจัดทำดัชนีเนื้อหา
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft Powerpoint (PPT)
- Microsoft Powerpoint (PPTX)
- Portable Document Format (PDF) ของ Adobe
- Rich Text Format (RTF)
- รูปแบบข้อความ (TXT)
- Hypertext Markup Language (HTML)
- ภาษามาร์กอัปที่ขยายได้ (XML)
นอกจากประเภทไฟล์เหล่านี้แล้ว Cloud Search ยังรองรับการจัดทำดัชนีเนื้อหา ภายในไฟล์ข้อความธรรมดาด้วย
ประเภทไฟล์และการรู้จำอักขระด้วยภาพ (OCR)
นอกจากนี้ Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากไฟล์ประเภทต่อไปนี้ด้วย
ประเภทไฟล์ | ขนาดสูงสุด |
---|---|
Joint Photographic Experts Group (JPG) | 10 MB |
รูปแบบการแลกเปลี่ยนกราฟิก (GIF) | 10 MB |
รูปแบบไฟล์รูปภาพที่ติดแท็ก (TIFF) | 10 MB |
กราฟิกเวกเตอร์ที่ปรับขนาดได้ (SVG) | 10 MB |
รูปแบบรูปภาพ PostScript (PS) | 10 MB |
Portable Document Format (PDF) | 30 MB |
นอกจากนี้ OCR ยังใช้ได้กับไฟล์ที่มีลักษณะต่อไปนี้ด้วย
- เอกสารที่เขียนด้วยลายมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลีจะให้ผลลัพธ์ที่ดีที่สุด
- เอกสารที่เขียนในแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
- เอกสารที่เขียนจากขวาไปซ้าย เช่น ภาษาฮีบรู