2024 年 12 月 3 日(火)
Google 検索の検索結果にウェブページが表示される前に、Google 検索で少し作業が行われていることはおそらくご存じのことでしょう。その一つがクロールと呼ばれる処理です。Google 検索のクロールは、Google のサーバー上で稼働する Googlebot というプログラムによって実行されます。クロールはウェブを探索しながら、URL を取得し、ネットワーク エラーやリダイレクトなどの問題を検出した場合は処理していきます。そのほか、あまり語られていない詳細がいくつかあります。今月は毎週、それらの詳細を取り上げ、特にサイトがクロールされる方法に大きく影響する可能性がある情報について掘り下げていきます。
そもそも、クロールとは何か
クロールとは、新しいウェブページを発見したり、更新されたウェブページに再アクセスしたりして、それらをダウンロードするプロセスのことです。つまり、Googlebot は URL を取得し、ホストしているサーバーに HTTP リクエストを送信してサーバーからの応答を処理します。リダイレクトがあればそれに従い、エラーを処理し、ページのコンテンツを Google のインデックス登録システムに渡します。
しかし、最新のウェブページは純粋な HTML だけではありません。では、ページを構成するほかのリソースはどうなるのでしょうか?そして、それらのリソースをクロールすることは、「クロール バジェット」にどのように影響するのでしょうか?また、リソースは Google 側でキャッシュに保存できるのでしょうか?さらに、今までクロールされたことのない URL と、すでにインデックスに登録済みの URL には違いがあるのでしょうか?この投稿では、これらの質問に答え、さらに詳細を説明します。
Googlebot とページリソースのクロール
最新のウェブサイトは、HTML だけでなく JavaScript や CSS などのさまざまな技術を組み合わせて使用し、便利な機能や心踊るウェブサイト エクスペリエンスをユーザーに提供しています。ブラウザからそのようなページにアクセスすると、ブラウザはまず親 URL をダウンロードします。この URL には、そのページを構築してユーザーに表示するために必要なデータ、つまり HTML がホストされています。この初期データには、JavaScript や CSS などのリソースへの参照のほか、画像や動画などが含まれている場合があり、ブラウザはそれを再度ダウンロードして最終的なページを構築し、ユーザーに表示しています。
Google もまったく同じことを行いますが、方法は少し異なります。
- Googlebot は親 URL から初期データ、つまりページの HTML をダウンロードします。
- Googlebot は取得したデータをウェブ レンダリング サービス(WRS)に渡します。
- WRS は、Googlebot を使用して、オリジナル データで参照されているリソースをダウンロードします。
- WRS は、ユーザーのブラウザが行うように、ダウンロードしたすべてのリソースを使用してページを構築します。
ブラウザの場合に比べて、ステップからステップへの移行には時間がかかることがあります。ページのレンダリングに必要なリソースをホストしているサーバーの負荷の上昇が確認された場合など、スケジューリングが制約されることがあるためです。そして、これに絡めて話したいのがクロール バジェットというものです。
ページのレンダリングに必要なリソースをクロールすると、そのリソースをホストしているホスト名のクロール バジェットが減少します。バジェットを少しでも残しておくために、WRS は、表示するページで参照されているすべてのリソース(JavaScript や CSS)をキャッシュに保存しようとします。WRS キャッシュの有効期間(TTL)は、HTTP キャッシュ ディレクティブの影響を受けません。WRS はすべてを最大 30 日間キャッシュに保存し、クロール バジェットを他のクロールタスクに回せるようにします。
これをサイト所有者の観点から見ると、サイトのどのリソースをどのようにクロールしてほしいかを管理することで、クロール バジェットの減り方に影響を与えることができるのです。そこで Google は次のことを推奨しています。
- リソースを可能な限り最小限に抑える。ページのレンダリングに必要なリソースが少ないほど、レンダリング時のクロール バジェットも少なくて済み、ユーザーに優れたウェブサイト エクスペリエンスを提供できます。
- キャッシュ無効化パラメータは慎重に使用する。リソースの URL が変更されると、たとえコンテンツが変わっていなくても Google が再度そのリソースをクロールする必要が生じる可能性があります。これは当然、クロール バジェットを消費することになります。
- メインサイトとは異なるホスト名でリソースをホストする。たとえば、CDN を利用したり、リソースを別のサブドメインでホストしたりする方法があります。そうすることで、クロール バジェットの消費の負担はリソースをホストするホスト側に移動します。
これらのポイントはメディア リソースにも当てはまります。Googlebot(具体的には Googlebot-Image
と Googlebot-Video
)がメディア リソースを取得すると、サイトのクロール バジェットを消費します。
robots.txt を設定すればよいのではないかと思われるかもしれませんが、レンダリングの観点から見ると、リソースのクロールを禁止してしまうことは問題の火種となりかねないのです。それは、レンダリングに必要なリソースを WRS が取得できなければ、Google 検索はページのコンテンツを抽出できず、検索結果にページを表示できなくなる可能性があるためです。
Googlebot のクローリングとは
Google がクロールしているリソースを分析するのに最適な情報源は、サイトの未加工のアクセスログです。このログには、ブラウザやクローラーからリクエストされたすべての URL のエントリが記録されています。Google クローラーをアクセスログで識別するには、デベロッパー向けドキュメントに公開されている IP 範囲を参照してください。
次に優れた情報源は、もちろん、Search Console のクロール統計情報レポートです。このレポートでは、クロールされた各種リソースが分類されています。

最後に、クロールやレンダリングに興味があり、他のユーザーと会話したい場合は、検索セントラル コミュニティが最適です。また、Google の LinkedIn アカウントもあります。
更新
- 2024 年 12 月 6 日更新: 別のホストからリソースを提供する場合のパフォーマンスへの影響を記載しました。
クロールについて詳しくは、12 月のクロール情報シリーズ全体をご覧ください。
Aaseesh Marina
プロダクト サポート マネージャー Aaseesh Marina は、Google で Search Console を担当するプロダクト サポート マネージャーで、Google 検索におけるサイトの視認性を高めるのに必要なサポートをサイト所有者の皆様に提供することを使命としています。 以前は Google のサーチ クオリティ チームに在籍しており、Google 検索の検索結果の品質評価と、スパムをはじめとする不正行為からのユーザーの保護に尽力していました。Aaseesh Marina による
Adrian Gregory Lui
ニュース パートナーシップ担当マネージャー Adrian Gregory Lui による Google 検索セントラル ブログの投稿をご覧ください。 LinkedIn
Adriana Porter Felt
Chrome セキュリティ Adriana Porter Felt による Google 検索セントラル ブログの投稿をご覧ください。
Alan Kent
デベロッパー アドボケイト Google 検索セントラル ブログの Alan Kent による投稿をご覧ください。 Twitter
Aldrich Christopher
ポリシーの透明性 Aldrich Christopher による Google 検索セントラル ブログの投稿をご覧ください。 Twitter | LinkedIn | YouTube
Alissa Roberts
元サーチ クオリティ チーム メンバー Alissa Roberts による Google 検索セントラル ブログの投稿をご覧ください。 LinkedIn
Amir Rachum
Search Console ソフトウェア エンジニア Google 検索セントラル ブログの Amir Rachum による投稿をご覧ください。 ウェブサイト
Andrei Pascovici
ウェブマスター ツールチーム Andrei Pascovici による Google 検索セントラル ブログの投稿をご覧ください。
Anna Ogawa(小川安奈)
シニア検索エコシステム コンサルタント Anna Ogawa(小川安奈)による Google 検索セントラル ブログの投稿をご覧ください。 Twitter | LinkedIn
Asaph Arnon
ソフトウェア エンジニア マネージャー Asaph Arnon による Google 検索セントラル ブログの投稿をご覧ください。 LinkedIn
Aurora Morales
Trust & Safety Aurora は Google Trust & Safety チームに所属しています。長年にわたり、業界に対するサービス ポリシーとガイドラインの啓蒙に携わり、多様なオーディエンスに向けたより安全性の高いエコシステムの構築をサポートしてきました。 特に Aurora が時間をかけて取り組んでいるプロジェクトには、英語とスペイン語の検索セントラル ヘルプ コミュニティの管理、パブリッシャーに対する Google
Candice Denic
プロダクト マネージャー Candice Denic による Google 検索セントラル ブログの投稿をご覧ください。 LinkedIn
Chris Nelson
サーチ クオリティ チーム Chris Nelson による Google 検索セントラル ブログの投稿をご覧ください。 LinkedIn
Cory Benavente
動画検索プロダクト マネージャー Cory Benavente による Google 検索セントラル ブログの投稿をご覧ください。 LinkedIn
Daniel Yosef
ソフトウェア エンジニア Daniel Yosef による Google 検索セントラル ブログの投稿をご覧ください。 LinkedIn
Danielle Marshak
動画検索プロダクト マネージャー Google 検索セントラル ブログの Danielle Marshak による投稿をご覧ください。 LinkedIn
Danny Sullivan
検索担当のパブリック リエゾン Google 検索セントラル ブログの Danny Sullivan による投稿をご覧ください。 Mastodon
Duy Nguyen
検索品質アナリスト Duy Nguyen による Google 検索セントラル ブログの投稿をご覧ください。
Earl J. Wagner
ソフトウェア エンジニア Earl J. Wagner による Google 検索セントラル ブログの投稿をご覧ください。 LinkedIn
Edu Pereda
Google 検索オープンソース化チーム Edu Pereda による Google 検索セントラル ブログの投稿をご覧ください。 LinkedIn | GitHub | Mastodon | Twitter
Eiji Kitamura
Chrome デベロッパー アドボケイト Eiji Kitamura による Google 検索セントラル ブログの投稿をご覧ください。 Website | Twitter | GitHub | Mastodon | LinkedIn
Eric Silva
プロダクト マネージャー Eric Silva による Google 検索セントラル ブログの投稿をご覧ください。 LinkedIn
Fan Zhang
ソフトウェア エンジニア Google 検索セントラル ブログの Fan Zhang による投稿をご覧ください。
Giacomo Gnecchi Ruscone
信頼性と安全性におけるパートナーシップ Giacomo は、パートナーシップを通じて Google の、ひいてはインターネットの安全性を高めることに注力しており、子どもの安全、誤った情報、金融詐欺などの現実世界の主要な問題に取り組んでいます。Giacomo Gnecchi Ruscone による Google 検索セントラル ブログの投稿をご覧ください。 Twitter
Greg Grothaus
サーチ クオリティ チーム、スタッフ ソフトウェア エンジニア Greg Grothaus による Google 検索セントラル ブログの投稿をご覧ください。 ウェブサイト
Ian Hung(洪翊恩)
検索エコシステム コンサルタント Ian Hung(洪翊恩)による Google 検索セントラル ブログの投稿をご覧ください。 LinkedIn
Irina Tuduce
ソフトウェア エンジニア Irina Tuduce による Google 検索セントラル ブログの投稿をご覧ください。 LinkedIn
Jennifer Granito
ニュース品質担当グループ プロダクト マネージャー Jennifer Granito は、Google でニュース品質を担当するグループ プロダクト マネージャーです。現在、検索や Google ニュースアプリ、その他の Google サービスにおけるニュースの品質と信用性のプロダクト リードを務めており、質の高いニュース コンテンツへのアクセスを提供することで、誰もが世界の出来事を理解できるように取り組んでいます。 以前は、Google が買収した Kifi
Jeremy Weinstein
Google ウェブマスター Google 検索セントラル ブログの Jeremy Weinstein による投稿をご覧ください。 LinkedIn
Jessica Wong
サーチ クオリティ チーム Google 検索セントラル ブログの Jessica Wong による投稿をご覧ください。 LinkedIn