Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง โดยไม่คำนึงถึงประเภทไฟล์ (MIME หรือ content-type) การจัดทําดัชนีจะดําเนินการกับข้อมูลเมตาของไฟล์และเนื้อหาของไฟล์ (หากรองรับ) ต่อไปนี้คือรายการประเภทไฟล์ที่ระบบรองรับการจัดทําดัชนีเนื้อหา
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft Powerpoint (PPT)
- Microsoft Powerpoint (PPTX)
- Portable Document Format (PDF) ของ Adobe
- Rich Text Format (RTF)
- รูปแบบข้อความ (TXT)
- ภาษามาร์กอัป Hypertext (HTML)
- ภาษามาร์กอัปที่ขยายได้ (XML)
นอกจากประเภทไฟล์เหล่านี้แล้ว Cloud Search ยังรองรับการจัดทําดัชนีเนื้อหาภายในไฟล์ข้อความธรรมดา
ประเภทและลักษณะของไฟล์การรู้จำอักขระด้วยภาพ (OCR)
นอกจากนี้ Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากไฟล์ประเภทต่อไปนี้ด้วย
ประเภทไฟล์ | ขนาดสูงสุด |
---|---|
Joint Photographic Experts Group (JPG) | 10 MB |
Graphic Interchange Format (GIF) | 10 MB |
รูปแบบไฟล์รูปภาพที่ติดแท็ก (TIFF) | 10 MB |
กราฟิกเวกเตอร์ที่ปรับขนาดได้ (SVG) | 10 MB |
รูปแบบรูปภาพ PostScript (PS) | 10 MB |
Portable Document Format (PDF) | 30 MB |
OCR ยังทำงานกับไฟล์ที่มีลักษณะต่อไปนี้ได้ด้วย
- เอกสารที่เขียนด้วยมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลีจะให้ผลลัพธ์ที่ดีที่สุด
- เอกสารที่เขียนในแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
- เอกสารที่เขียนจากขวาไปซ้าย เช่น ฮีบรู