Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง ไม่ว่าจะเป็นไฟล์ประเภทใดก็ตาม (MIME หรือประเภทเนื้อหา) ระบบจะจัดทำดัชนีข้อมูลเมตาของไฟล์และ เนื้อหาที่รองรับ ต่อไปนี้เป็นรายการประเภทไฟล์สำหรับเนื้อหา ได้รองรับการจัดทำดัชนี
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- รูปแบบเอกสารแบบพกพาของ Adobe (PDF)
- รูปแบบ Rich Text (RTF)
- รูปแบบข้อความ (TXT)
- ภาษามาร์กอัป Hypertext (HTML)
- ภาษามาร์กอัปที่ขยายได้ (XML)
นอกเหนือจากประเภทไฟล์เหล่านี้ Cloud Search ยังรองรับการจัดทำดัชนีเนื้อหา ภายในไฟล์ข้อความธรรมดาใดก็ได้
ประเภทไฟล์และลักษณะของไฟล์ Optical Character Recognition (OCR)
นอกจากนี้ Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากประเภทไฟล์ต่อไปนี้ด้วย
ประเภทไฟล์ | ขนาดสูงสุด |
---|---|
กลุ่มผู้เชี่ยวชาญด้านการถ่ายภาพร่วม (JPG) | 10 MB |
Graphic Interchange Format (GIF) | 10 MB |
รูปแบบไฟล์ภาพที่ติดแท็ก (TIFF) | 10 MB |
ภาพกราฟิกเวกเตอร์ที่รองรับการปรับขนาด (SVG) | 10 MB |
รูปแบบรูปภาพ PostScript (PS) | 10 MB |
Portable Document Format (PDF) | 30 MB |
OCR ยังทำงานกับไฟล์ที่มีลักษณะต่อไปนี้ได้ด้วย
- เอกสารที่เขียนด้วยลายมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลี ผลลัพธ์ที่ดีที่สุด
- เอกสารที่เขียนในแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
- เอกสารที่เขียนจากขวาไปซ้าย เช่น ภาษาฮีบรู