Google によるインデックス登録が可能なファイル形式
Google では、ほとんどのテキストベースのファイルや特定のエンコードされたドキュメント形式のコンテンツをインデックスに登録できます。ファイル形式は、Google がファイルをクロールしたときに返される Content-Type HTTP ヘッダーによって決定されます。ただし、Content-Type ヘッダーがない場合や正しくない場合は、ファイル拡張子を使用したり、別のパーサーを使用してファイルを再解析したりすることがあります。
サポートされているフラット ファイル形式
次のフラット ファイル形式がサポートされています。これらは、コンテンツがエンコードされていないプレーン テキストで保存されているファイルです(マークアップ タグを使用している場合もあります)。
- カンマ区切り形式(.csv)
- Google Earth(.kml、.kmz)
- GPS eXchange Format(.gpx)
- HTML(.htm、.html、その他のファイル拡張子)
- Scalable Vector Graphics(.svg)
- TeX、LaTeX(.tex)
-
テキスト(.txt、.text、その他のファイル拡張子)。以下の一般的なプログラミング言語のソースコードもこれに含まれます。
- Basic ソースコード(.bas)
- C、C++ ソースコード(.c、.cc、.cpp、.cxx、.h、.hpp)
- C# ソースコード(.cs)
- Java ソースコード(.java)
- Perl ソースコード(.pl)
- Python ソースコード(.py)
- Wireless Markup Language(.wml、.wap)
- XML(.xml)
サポートされているエンコード済みファイル形式
次のエンコードされたファイル形式がサポートされています。これらは、人間が読めるテキストを抽出するために特定のパーサーを必要とするバイナリ ファイルまたは複雑なコンテナです。
- Adobe Portable Document Format(.pdf)
- Adobe PostScript(.ps)
- 電子書籍(.epub)
- Hancom Hanword(.hwp)
- Microsoft Excel(.xls、.xlsx)
- Microsoft PowerPoint(.ppt、.pptx)
- Microsoft Word(.doc、.docx)
- OpenOffice プレゼンテーション(.odp)
- OpenOffice スプレッドシート(.ods)
- OpenOffice テキスト(.odt)
- リッチテキスト形式(.rtf)
サポートされているメディア形式
Google では以下のメディア形式もインデックスに登録できます。
- 画像形式: BMP、GIF、JPEG、PNG、WebP、SVG、AVIF
- 動画形式: 3GP、3G2、ASF、AVI、DivX、M2V、M3U、M3U8、M4V、MKV、MOV、MP4、MPEG、OGV、QVT、RAM、RM、VOB、WebM、WMV、XAP
ファイル形式での検索
Google 検索で filetype: 演算子を使用すると、特定のファイル形式またはファイル拡張子に検索結果を絞り込めます。たとえば、filetype:rtf galway は、RTF ファイルと .rtf で終わる URL の中から、コンテンツに「galway」という単語を含むものを検索します。