หน้านี้ได้รับการแปลโดย Cloud Translation API

ประเภทไฟล์ที่รองรับสําหรับการแยกข้อความ

Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง โดยไม่คำนึงถึงประเภทไฟล์ (MIME หรือ content-type) การจัดทําดัชนีจะดําเนินการกับข้อมูลเมตาของไฟล์และเนื้อหาของไฟล์ (หากรองรับ) ต่อไปนี้คือรายการประเภทไฟล์ที่ระบบรองรับการจัดทําดัชนีเนื้อหา

Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft Powerpoint (PPT)
Microsoft Powerpoint (PPTX)
Portable Document Format (PDF) ของ Adobe
Rich Text Format (RTF)
รูปแบบข้อความ (TXT)
ภาษามาร์กอัป Hypertext (HTML)
ภาษามาร์กอัปที่ขยายได้ (XML)

นอกจากประเภทไฟล์เหล่านี้แล้ว Cloud Search ยังรองรับการจัดทําดัชนีเนื้อหาภายในไฟล์ข้อความธรรมดา

ประเภทและลักษณะของไฟล์การรู้จำอักขระด้วยภาพ (OCR)

นอกจากนี้ Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากไฟล์ประเภทต่อไปนี้ด้วย

ประเภทไฟล์	ขนาดสูงสุด
Joint Photographic Experts Group (JPG)	10 MB
Graphic Interchange Format (GIF)	10 MB
รูปแบบไฟล์รูปภาพที่ติดแท็ก (TIFF)	10 MB
กราฟิกเวกเตอร์ที่ปรับขนาดได้ (SVG)	10 MB
รูปแบบรูปภาพ PostScript (PS)	10 MB
Portable Document Format (PDF)	30 MB

หมายเหตุ: Cloud Search จะใช้ OCR สำหรับไฟล์ PDF เมื่อจัดทําดัชนีในโหมด ASYNCHRONOUS เท่านั้น และจะนํา OCR ไปใช้กับไฟล์ PDF หน้าแรก 80 หน้า หากต้องการให้มีสิทธิ์ใช้ OCR คุณต้องระบุ ItemMetadata.mimeType สำหรับรายการเป็น application/pdf และไฟล์ PDF ต้องมีเฉพาะรูปภาพที่สแกนเท่านั้น หากไฟล์ PDF มีเนื้อหาข้อความในไฟล์นั้นๆ Cloud Search จะจัดทำดัชนีเนื้อหาในไฟล์นั้นๆ และไม่ใช้ OCR กับรูปภาพ

OCR ยังทำงานกับไฟล์ที่มีลักษณะต่อไปนี้ได้ด้วย

เอกสารที่เขียนด้วยมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลีจะให้ผลลัพธ์ที่ดีที่สุด
เอกสารที่เขียนในแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
เอกสารที่เขียนจากขวาไปซ้าย เช่น ฮีบรู