Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Các loại tệp được hỗ trợ để trích xuất văn bản

Cloud Search lập chỉ mục tất cả các mục được gửi, bất kể loại tệp (MIME hoặc content-type). Hoạt động lập chỉ mục được thực hiện trên dữ liệu siêu dữ liệu của tệp và nội dung của tệp (nếu được hỗ trợ). Sau đây là danh sách các loại tệp mà hoạt động lập chỉ mục nội dung được hỗ trợ.

Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft Powerpoint (PPT)
Microsoft Powerpoint (PPTX)
Định dạng tài liệu di động của Adobe (PDF)
Định dạng văn bản giàu tính chất (RTF)
Định dạng văn bản (TXT)
Ngôn ngữ đánh dấu siêu văn bản (HTML)
Ngôn ngữ đánh dấu mở rộng (XML)

Ngoài các loại tệp này, Cloud Search còn hỗ trợ lập chỉ mục nội dung trong mọi tệp văn bản thuần tuý.

Các loại tệp và đặc điểm của công nghệ Nhận dạng ký tự quang học (OCR)

Google Cloud Search cũng sử dụng công nghệ OCR để trích xuất văn bản từ các loại tệp sau:

Loại tệp	Kích thước tối đa
Joint Photographic Experts Group (JPG)	10 MB
Graphic Interchange Format (GIF)	10 MB
Tagged Image File Format (TIFF)	10 MB
Scalable Vector Graphics (SVG)	10 MB
PostScript Image Format (PS)	10 MB
Định dạng tài liệu di động (PDF)	30 MB

Công nghệ OCR cũng hoạt động trên các tệp có những đặc điểm sau:

Tài liệu viết tay. Tài liệu bằng chữ Latinh, tiếng Nhật và tiếng Hàn cho kết quả tốt nhất.
Tài liệu viết theo chiều dọc, chẳng hạn như tài liệu bằng tiếng Nhật.
Tài liệu viết từ phải sang trái, chẳng hạn như tiếng Do Thái.

Các loại tệp được hỗ trợ để trích xuất văn bản Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Các loại tệp và đặc điểm của công nghệ Nhận dạng ký tự quang học (OCR)

Các loại tệp được hỗ trợ để trích xuất văn bản