ประเภทไฟล์ที่รองรับสําหรับการแยกข้อความ
Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง โดยไม่คำนึงถึงประเภทไฟล์ (MIME หรือ content-type) การจัดทําดัชนีจะดําเนินการกับข้อมูลเมตาของไฟล์และเนื้อหาของไฟล์ (หากรองรับ) ต่อไปนี้คือรายการประเภทไฟล์ที่ระบบรองรับ การจัดทําดัชนีเนื้อหา
Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft Powerpoint (PPT)
Microsoft Powerpoint (PPTX)
Portable Document Format (PDF) ของ Adobe
Rich Text Format (RTF)
รูปแบบข้อความ (TXT)
ภาษามาร์กอัป Hypertext (HTML)
ภาษามาร์กอัปที่ขยายได้ (XML)
นอกจากประเภทไฟล์เหล่านี้แล้ว Cloud Search ยังรองรับการจัดทําดัชนีเนื้อหาภายในไฟล์ข้อความธรรมดา
ประเภทและลักษณะของไฟล์การรู้จำอักขระด้วยภาพ (OCR)
นอกจากนี้ Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากไฟล์ประเภทต่อไปนี้ด้วย
ประเภทไฟล์
ขนาดสูงสุด
Joint Photographic Experts Group (JPG)
10 MB
Graphic Interchange Format (GIF)
10 MB
รูปแบบไฟล์รูปภาพที่ติดแท็ก (TIFF)
10 MB
กราฟิกเวกเตอร์ที่ปรับขนาดได้ (SVG)
10 MB
รูปแบบรูปภาพ PostScript (PS)
10 MB
Portable Document Format (PDF)
30 MB
หมายเหตุ: Cloud Search จะใช้ OCR สำหรับไฟล์ PDF เมื่อจัดทําดัชนีในโหมด ASYNCHRONOUS
เท่านั้น และจะนํา OCR ไปใช้กับไฟล์ PDF หน้าแรก 80 หน้า หากต้องการให้มีสิทธิ์ใช้ OCR คุณต้องระบุ ItemMetadata.mimeType
สำหรับรายการเป็น application/pdf
และไฟล์ PDF ต้องมีเฉพาะรูปภาพที่สแกนเท่านั้น หากไฟล์ PDF มีเนื้อหาข้อความในไฟล์นั้นๆ Cloud Search จะจัดทำดัชนีเนื้อหาในไฟล์นั้นๆ และไม่ใช้ OCR กับรูปภาพ
OCR ยังทำงานกับไฟล์ที่มีลักษณะต่อไปนี้ได้ด้วย
เอกสารที่เขียนด้วยมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลีจะให้ผลลัพธ์ที่ดีที่สุด
เอกสารที่เขียนในแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
เอกสารที่เขียนจากขวาไปซ้าย เช่น ฮีบรู
เนื้อหาของหน้าเว็บนี้ได้รับอนุญาตภายใต้ใบอนุญาตที่ต้องระบุที่มาของครีเอทีฟคอมมอนส์ 4.0 และตัวอย่างโค้ดได้รับอนุญาตภายใต้ใบอนุญาต Apache 2.0 เว้นแต่จะระบุไว้เป็นอย่างอื่น โปรดดูรายละเอียดที่นโยบายเว็บไซต์ Google Developers Java เป็นเครื่องหมายการค้าจดทะเบียนของ Oracle และ/หรือบริษัทในเครือ
อัปเดตล่าสุด 2024-12-21 UTC
[null,null,["อัปเดตล่าสุด 2024-12-21 UTC"],[[["Cloud Search indexes metadata for all file types and content for specific supported formats like Microsoft Office, PDF, RTF, TXT, HTML, and XML, as well as any plain text file."],["Cloud Search uses Optical Character Recognition (OCR) to extract text from image file types such as JPG, GIF, TIFF, SVG, PS, and PDFs (under certain conditions and size limits)."],["OCR technology in Cloud Search supports various document characteristics, including handwritten documents (Latin, Japanese, Korean), vertically written documents (e.g., Japanese), and right-to-left written documents (e.g., Hebrew)."]]],[]]