支援的文字擷取檔案類型

Cloud Search 會為所有傳送的項目建立索引,不論檔案類型 (MIME 或內容類型) 為何。系統會對檔案的中繼資料執行索引,如果支援,也會對檔案內容執行索引。以下是支援內容索引的檔案類型清單。

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Adobe 的可攜式文件格式 (PDF)
  • RTF 格式
  • 文字格式 (TXT)
  • 超文本標記語言 (HTML)
  • 可延伸標記語言 (XML)

除了這些檔案類型之外,Cloud Search 也支援為任何純文字檔中的內容建立索引。

光學字元辨識 (OCR) 檔案類型和特性

Google Cloud Search 也會使用 OCR 技術,從下列檔案類型中擷取文字:

檔案類型 大小上限
聯合攝影技術專家小組 (JPG) 10 MB
圖形交換格式 (GIF) 10 MB
標記圖片檔案格式 (TIFF) 10 MB
可縮放向量圖形 (SVG) 10 MB
PostScript 圖片格式 (PS) 10 MB
可攜式文件格式 (PDF) 30 MB

OCR 也適用於具有下列特性的檔案:

  • 手寫文件。以拉丁字母、日文和韓文撰寫的文件可獲得最佳結果。
  • 以直向書寫的文件,例如日文文件。
  • 由右至左書寫的文件,例如希伯來文。