Cloud Search は、ファイル形式に関係なく、送信されたすべてのアイテムをインデックスに登録します (MIME またはコンテンツ タイプ)。インデックス登録はファイルのメタデータ データに対して行われる。 その内容が返されます。コンテンツのファイル形式は次のとおりです。 インデックス登録がサポートされています。
- Microsoft Word(DOC)
- Microsoft Word(DOCX)
- Microsoft Excel(XLS)
- Microsoft Excel(XLSX)
- Microsoft PowerPoint(PPT)
- Microsoft PowerPoint(PPTX)
- Adobe の Portable Document Format(PDF)
- リッチテキスト形式(RTF)
- テキスト形式(TXT)
- HTML(Hypertext Markup Language)
- XML(拡張マークアップ言語)
これらのファイル形式に加えて、Cloud Search ではコンテンツのインデックス登録がサポートされています。 記述できます。
光学式文字認識(OCR)のファイル形式と特性
Google Cloud Search では、OCR を使用して次のファイル形式からテキストも抽出します。
ファイル形式 | 最大サイズ |
---|---|
Joint Photographic Experts Group(JPG) | 10 MB |
Graphic Interchange Format(GIF) | 10 MB |
Tagged Image File Format(TIFF) | 10 MB |
Scalable Vector Graphics(SVG) | 10 MB |
PostScript イメージ形式(PS) | 10 MB |
PDF(Portable Document Format) | 30 MB |
OCR は次の特性を持つファイルでも機能します。
- 手書きのドキュメント。ラテン文字、日本語、韓国語の収量ドキュメント 目指しています。
- 日本語などの縦書きのドキュメント。
- 右から左に表記されるドキュメント(ヘブライ語など)。