テキスト抽出でサポートされているファイル形式

Cloud Search は、ファイル形式(MIME またはコンテンツ タイプ)に関係なく、送信されたすべてのアイテムをインデックス登録します。インデックス登録は、ファイルのメタデータと、サポートされている場合はコンテンツに対して行われます。コンテンツのインデックス登録がサポートされているファイル形式の一覧は次のとおりです。

  • Microsoft Word(DOC)
  • Microsoft Word(DOCX)
  • Microsoft Excel(XLS)
  • Microsoft Excel(XLSX)
  • Microsoft PowerPoint(PPT)
  • Microsoft PowerPoint(PPTX)
  • Adobe の Portable Document Format(PDF)
  • リッチ テキスト形式(RTF)
  • テキスト形式(TXT)
  • ハイパーテキスト マークアップ言語(HTML)
  • XML(拡張マークアップ言語)

これらのファイル形式に加えて、Cloud Search は任意のプレーン テキスト ファイル内のコンテンツのインデックス登録をサポートしています。

光学式文字認識(OCR)のファイル形式と特性

Google Cloud Search は、OCR を使用して次のファイル形式からテキストを抽出します。

ファイル形式 最大サイズ
Joint Photographic Experts Group(JPG) 10 MB
グラフィック交換形式(GIF) 10 MB
Tagged Image File Format(TIFF) 10 MB
Scalable Vector Graphics(SVG) 10 MB
PostScript 画像形式(PS) 10 MB
Portable Document Format(PDF) 30 MB

OCR は、次のような特性を持つファイルでも機能します。

  • 手書きの書類。ラテン文字、日本語、韓国語のドキュメントで最良の結果が得られます。
  • 日本語などの縦書きのドキュメント。
  • ヘブライ語など、右から左に書かれたドキュメント。