Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง ไม่ว่าไฟล์จะเป็นประเภทใดก็ตาม (MIME หรือประเภทเนื้อหา) การจัดทำดัชนีจะมีการดำเนินการกับข้อมูลข้อมูลเมตาของไฟล์ และเนื้อหาในไฟล์ หากรองรับ ต่อไปนี้คือรายการประเภทไฟล์ที่รองรับการจัดทำดัชนีเนื้อหา
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- รูปแบบเอกสารแบบพกพาของ Adobe (PDF)
- รูปแบบ Rich Text (RTF)
- รูปแบบข้อความ (TXT)
- ภาษามาร์กอัป Hypertext (HTML)
- ภาษามาร์กอัปที่ขยายได้ (XML)
นอกเหนือจากประเภทไฟล์เหล่านี้ Cloud Search ยังรองรับการจัดทำดัชนีเนื้อหาภายในไฟล์ข้อความธรรมดาด้วย
ประเภทไฟล์และลักษณะของไฟล์ Optical Character Recognition (OCR)
นอกจากนี้ Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากประเภทไฟล์ต่อไปนี้ด้วย
ประเภทไฟล์ | ขนาดสูงสุด |
---|---|
กลุ่มผู้เชี่ยวชาญด้านการถ่ายภาพร่วม (JPG) | 10 MB |
Graphic Interchange Format (GIF) | 10 MB |
รูปแบบไฟล์ภาพที่ติดแท็ก (TIFF) | 10 MB |
ภาพกราฟิกเวกเตอร์ที่รองรับการปรับขนาด (SVG) | 10 MB |
รูปแบบรูปภาพ PostScript (PS) | 10 MB |
Portable Document Format (PDF) | 30 MB |
OCR ยังทำงานกับไฟล์ที่มีลักษณะต่อไปนี้ได้ด้วย
- เอกสารที่เขียนด้วยลายมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลีจะให้ผลลัพธ์ที่ดีที่สุด
- เอกสารที่เขียนในแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
- เอกสารที่เขียนจากขวาไปซ้าย เช่น ภาษาฮีบรู