Cloud Search lập chỉ mục tất cả các mục được gửi, bất kể loại tệp (MIME hoặc content-type). Lập chỉ mục được thực hiện trên dữ liệu siêu dữ liệu của tệp và nếu được hỗ trợ, nội dung của đường liên kết đó. Dưới đây là danh sách các loại tệp chứa nội dung được hỗ trợ lập chỉ mục.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Định dạng tài liệu di động của Adobe (PDF)
- Định dạng văn bản đa dạng thức (RTF)
- Định dạng văn bản (TXT)
- Ngôn ngữ đánh dấu siêu văn bản (HTML)
- Ngôn ngữ đánh dấu mở rộng (XML)
Ngoài các loại tệp này, Cloud Search hỗ trợ lập chỉ mục nội dung trong bất kỳ tệp văn bản thuần tuý nào.
Đặc điểm và loại tệp Nhận dạng ký tự quang học (OCR)
Google Cloud Search cũng sử dụng công nghệ Nhận dạng ký tự quang học (OCR) để trích xuất văn bản từ các loại tệp sau:
Loại tệp | Kích thước tối đa |
---|---|
Nhóm Chuyên gia nhiếp ảnh chung (JPG) | 10 MB |
Định dạng trao đổi đồ hoạ (GIF) | 10 MB |
Định dạng tệp hình ảnh được gắn thẻ (TIFF) | 10 MB |
Đồ hoạ vectơ có thể mở rộng (SVG) | 10 MB |
Định dạng hình ảnh PostScript (PS) | 10 MB |
Định dạng tài liệu di động (PDF) | 30 MB |
Công nghệ Nhận dạng ký tự quang học (OCR) cũng hoạt động trên các tệp có các đặc điểm sau:
- Tài liệu viết tay. Chứng từ bằng chữ Latinh, tiếng Nhật và tiếng Hàn kết quả tốt nhất.
- Tài liệu viết theo chiều dọc, chẳng hạn như tài liệu bằng tiếng Nhật.
- Các tài liệu được viết từ phải sang trái, chẳng hạn như tiếng Do Thái.