Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Cloud Search lập chỉ mục tất cả các mục được gửi, bất kể loại tệp (MIME hoặc loại nội dung). Hoạt động lập chỉ mục được thực hiện trên dữ liệu siêu dữ liệu của một tệp và nội dung của tệp (nếu được hỗ trợ). Sau đây là danh sách các loại tệp mà tính năng lập chỉ mục nội dung được hỗ trợ.
Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft Powerpoint (PPT)
Microsoft Powerpoint (PPTX)
Định dạng tài liệu di động (PDF) của Adobe
Định dạng văn bản đa dạng thức (RTF)
Định dạng văn bản (TXT)
Ngôn ngữ đánh dấu siêu văn bản (HTML)
Ngôn ngữ đánh dấu mở rộng (XML)
Ngoài những loại tệp này, Cloud Search còn hỗ trợ lập chỉ mục nội dung trong mọi tệp văn bản thuần tuý.
Các loại tệp và đặc điểm của công nghệ Nhận dạng ký tự quang học (OCR)
Google Cloud Search cũng sử dụng công nghệ OCR để trích xuất văn bản từ các loại tệp sau:
Loại tệp
Kích thước tối đa
Joint Photographic Experts Group (JPG)
10 MB
Định dạng trao đổi đồ hoạ (GIF)
10 MB
Định dạng tệp hình ảnh được gắn thẻ (TIFF)
10 MB
Đồ hoạ vectơ có thể mở rộng (SVG)
10 MB
Định dạng hình ảnh PostScript (PS)
10 MB
Định dạng tài liệu di động (PDF)
30 MB
OCR cũng hoạt động trên các tệp có những đặc điểm sau:
Tài liệu viết tay. Tài liệu bằng chữ Latinh, tiếng Nhật và tiếng Hàn sẽ cho kết quả tốt nhất.
Tài liệu được viết theo chiều dọc, chẳng hạn như tài liệu bằng tiếng Nhật.
Tài liệu viết từ phải sang trái, chẳng hạn như tiếng Do Thái.
[null,null,["Cập nhật lần gần đây nhất: 2025-08-29 UTC."],[],[],null,["# Supported file types for text extraction\n\nCloud Search indexes all items that are sent, regardless of file type\n(MIME or content-type). Indexing is performed on a file's metadata data and,\nif supported, its content. Following is a list of file types for which content\nindexing *is* supported.\n\n- Microsoft Word (DOC)\n- Microsoft Word (DOCX)\n- Microsoft Excel (XLS)\n- Microsoft Excel (XLSX)\n- Microsoft Powerpoint (PPT)\n- Microsoft Powerpoint (PPTX)\n- Adobe's Portable Document Format (PDF)\n- Rich Text Format (RTF)\n- Text Format (TXT)\n- Hypertext Markup Language (HTML)\n- Extensible Markup Language (XML)\n\nIn addition to these file types, Cloud Search supports indexing of content\nwithin any plain text file.\n\nOptical Character Recognition (OCR) file types and characteristics\n------------------------------------------------------------------\n\nGoogle Cloud Search also uses OCR to extract text from the following file types:\n\n| File type | Maximum size |\n|----------------------------------------|--------------|\n| Joint Photographic Experts Group (JPG) | 10 MB |\n| Graphic Interchange Format (GIF) | 10 MB |\n| Tagged Image File Format (TIFF) | 10 MB |\n| Scalable Vector Graphics (SVG) | 10 MB |\n| PostScript Image Format (PS) | 10 MB |\n| Portable Document Format (PDF) | 30 MB |\n\n| **Note:** Cloud Search uses OCR for PDF files only when indexing in `ASYNCHRONOUS` mode, and applies OCR to the first 80 pages of the PDF file. To be eligible for OCR, the [`ItemMetadata.mimeType`](/workspace/cloud-search/docs/reference/rest/v1/indexing.datasources.items#ItemMetadata) for the item must be specified as `application/pdf` and a PDF file must contain only scanned images. If the PDF file contains any native text content, Cloud Search indexes the native content and does not apply OCR to images.\n\nOCR also works on files with these characteristics:\n\n- Hand-written documents. Documents in Latin script, Japanese, and Korean yield the best results.\n- Vertically-written documents, such as those in Japanese.\n- Right-to-left-written documents, such as Hebrew."]]