2024 年 12 月 3 日(火)
Google 検索の検索結果にウェブページが表示される前に、Google 検索で少し作業が行われていることはおそらくご存じのことでしょう。その一つがクロールと呼ばれる処理です。Google 検索のクロールは、Google のサーバー上で稼働する Googlebot というプログラムによって実行されます。クロールはウェブを探索しながら、URL を取得し、ネットワーク エラーやリダイレクトなどの問題を検出した場合は処理していきます。そのほか、あまり語られていない詳細がいくつかあります。今月は毎週、それらの詳細を取り上げ、特にサイトがクロールされる方法に大きく影響する可能性がある情報について掘り下げていきます。
そもそも、クロールとは何か
クロールとは、新しいウェブページを発見したり、更新されたウェブページに再アクセスしたりして、それらをダウンロードするプロセスのことです。つまり、Googlebot は URL を取得し、ホストしているサーバーに HTTP リクエストを送信してサーバーからの応答を処理します。リダイレクトがあればそれに従い、エラーを処理し、ページのコンテンツを Google のインデックス登録システムに渡します。
しかし、最新のウェブページは純粋な HTML だけではありません。では、ページを構成するほかのリソースはどうなるのでしょうか?そして、それらのリソースをクロールすることは、「クロール バジェット」にどのように影響するのでしょうか?また、リソースは Google 側でキャッシュに保存できるのでしょうか?さらに、今までクロールされたことのない URL と、すでにインデックスに登録済みの URL には違いがあるのでしょうか?この投稿では、これらの質問に答え、さらに詳細を説明します。
Googlebot とページリソースのクロール
最新のウェブサイトは、HTML だけでなく JavaScript や CSS などのさまざまな技術を組み合わせて使用し、便利な機能や心踊るウェブサイト エクスペリエンスをユーザーに提供しています。ブラウザからそのようなページにアクセスすると、ブラウザはまず親 URL をダウンロードします。この URL には、そのページを構築してユーザーに表示するために必要なデータ、つまり HTML がホストされています。この初期データには、JavaScript や CSS などのリソースへの参照のほか、画像や動画などが含まれている場合があり、ブラウザはそれを再度ダウンロードして最終的なページを構築し、ユーザーに表示しています。
Google もまったく同じことを行いますが、方法は少し異なります。
- Googlebot は親 URL から初期データ、つまりページの HTML をダウンロードします。
- Googlebot は取得したデータをウェブ レンダリング サービス(WRS)に渡します。
- WRS は、Googlebot を使用して、オリジナル データで参照されているリソースをダウンロードします。
- WRS は、ユーザーのブラウザが行うように、ダウンロードしたすべてのリソースを使用してページを構築します。
ブラウザの場合に比べて、ステップからステップへの移行には時間がかかることがあります。ページのレンダリングに必要なリソースをホストしているサーバーの負荷の上昇が確認された場合など、スケジューリングが制約されることがあるためです。そして、これに絡めて話したいのがクロール バジェットというものです。
ページのレンダリングに必要なリソースをクロールすると、そのリソースをホストしているホスト名のクロール バジェットが減少します。バジェットを少しでも残しておくために、WRS は、表示するページで参照されているすべてのリソース(JavaScript や CSS)をキャッシュに保存しようとします。WRS キャッシュの有効期間(TTL)は、HTTP キャッシュ ディレクティブの影響を受けません。WRS はすべてを最大 30 日間キャッシュに保存し、クロール バジェットを他のクロールタスクに回せるようにします。
これをサイト所有者の観点から見ると、サイトのどのリソースをどのようにクロールしてほしいかを管理することで、クロール バジェットの減り方に影響を与えることができるのです。そこで Google は次のことを推奨しています。
- リソースを可能な限り最小限に抑える。ページのレンダリングに必要なリソースが少ないほど、レンダリング時のクロール バジェットも少なくて済み、ユーザーに優れたウェブサイト エクスペリエンスを提供できます。
- キャッシュ無効化パラメータは慎重に使用する。リソースの URL が変更されると、たとえコンテンツが変わっていなくても Google が再度そのリソースをクロールする必要が生じる可能性があります。これは当然、クロール バジェットを消費することになります。
- メインサイトとは異なるホスト名でリソースをホストする。たとえば、CDN を利用したり、リソースを別のサブドメインでホストしたりする方法があります。そうすることで、クロール バジェットの消費の負担はリソースをホストするホスト側に移動します。
これらのポイントはメディア リソースにも当てはまります。Googlebot(具体的には Googlebot-Image
と Googlebot-Video
)がメディア リソースを取得すると、サイトのクロール バジェットを消費します。
robots.txt を設定すればよいのではないかと思われるかもしれませんが、レンダリングの観点から見ると、リソースのクロールを禁止してしまうことは問題の火種となりかねないのです。それは、レンダリングに必要なリソースを WRS が取得できなければ、Google 検索はページのコンテンツを抽出できず、検索結果にページを表示できなくなる可能性があるためです。
Googlebot のクローリングとは
Google がクロールしているリソースを分析するのに最適な情報源は、サイトの未加工のアクセスログです。このログには、ブラウザやクローラーからリクエストされたすべての URL のエントリが記録されています。Google クローラーをアクセスログで識別するには、デベロッパー向けドキュメントに公開されている IP 範囲を参照してください。
次に優れた情報源は、もちろん、Search Console のクロール統計情報レポートです。このレポートでは、クロールされた各種リソースが分類されています。

最後に、クロールやレンダリングに興味があり、他のユーザーと会話したい場合は、検索セントラル コミュニティが最適です。また、Google の LinkedIn アカウントもあります。
更新
- 2024 年 12 月 6 日更新: 別のホストからリソースを提供する場合のパフォーマンスへの影響を記載しました。
クロールについて詳しくは、12 月のクロール情報シリーズ全体をご覧ください。
Google 検索の更新に関する Q&A
2023 年 11 月 2 日(木曜日) Google 検索では、検索ランキング システムを定期的に更新し、最も関連性の高い有用なコンテンツを表示できるようにしています。過去数週間に一連の重要な更新が公開されており、今月は 2 件の更新があります。そこで、更新の仕組み、更新を公開する理由、更新時にクリエイターが考慮すべき点(ある場合)について説明し、注意点を以下に示します。 本日より、 2023 年 11 月のコア アップデートをロールアウトする ことを発表しました。2023 年 10 月のコア
Google 検索の多言語検索への対応
2023 年 9 月 8 日(金曜日) 世界中の多くの国や地域では、人々は複数の言語で話し、検索するのが一般的です。ユーザーに最適なサービスを提供するために、Google はさまざまな方法を使って、検索結果を表示するのに最適な言語を自動的に決定しています。 Google 検索では、言語設定に一致する結果のみが表示されると思われている方もいらっしゃるでしょうが、それでは思っているほど役に立ちません。 ブラウザ、モバイル
ヘルプフル コンテンツの作成におけるページ エクスペリエンスの影響
2023 年 4 月 19 日(水曜日) 一般的にヘルプフル コンテンツには、優れたページ エクスペリエンスを提供することが求められます。この度、 ヘルプフル コンテンツの作成に関するガイドライン にページ エクスペリエンスについてのセクションを追加し、 ページ エクスペリエンスに関するヘルプページ を改訂したのは、そのためです。これにより、サイト所有者の皆様がコンテンツ作成プロセスの一環として、より包括的にページ エクスペリエンスについて検討できるものと考えています。
AI 生成コンテンツに関する Google 検索のガイダンス
この投稿では、検索でユーザーに有用なコンテンツを表示するための Google の継続的な取り組みにおける、AI 生成コンテンツの位置づけについて詳しく説明します。
Google 検索ランキング システムに関する新たなガイドの導入
2022 年 11 月 21 日(月曜日) Google は、何年にもわたって、ブログ投稿やその他の一般向け発表を通じて、自動ランキング システムとその運用方法に関する情報を定期的に公開してきました。この度、それらの情報を一つにまとめて「 Google 検索ランキング システム ガイド 」を作成し、クリエイターや他のユーザーの皆様の関心が高い Google のシステムについて簡単に学べるようにしました。この新しいガイドでは、Google
2022 年 5 月のコア アップデートのリリース(Google 検索)
2022 年 5 月 25 日(水) Google では年に数回、ランキング処理全般に大幅な改良を加えており、このような改良を コア アップデート と呼んでいます。コア アップデートは、検索結果の全体的な関連性が向上し、すべてのユーザーにとって 利便性と有用性が高まるようにする ことを目的としています。本日、2022 年 5 月のコア アップデートをリリースします。ロールアウトが完了するまでに 1~2 週間ほどかかります。 コア アップデートは、Google
Google によるウェブページ検索結果のタイトル生成方法の詳細
2021 年 9 月 17 日(金曜日) 先月、 ウェブページ検索結果のタイトルを生成する 新しいシステムについて説明しました。その後、お客様から大変ありがたいフィードバックをいただき、タイトル システムをさらに改良しました。ここでは、Google が行った対策と、クリエイター向けのその他のガイダンスをご紹介します。 前回の投稿 で説明したように、新しいシステムでは、ウェブページ検索結果に表示するタイトルの大半には、HTML タイトル要素(タイトルタグとも呼ばれます)が使用されます。いただいた
ウェブページのタイトルの生成方法に関する最新情報
2021 年 8 月 24 日(火曜日) 検索結果と検索クエリの関連性をユーザーが判別する主な方法の 1 つは、検索結果に表示されたウェブページのタイトルを確認することです。そのため、Google 検索では、検索結果に掲載される文書に最適なタイトルを提供し、クリエイター、パブリッシャー、企業などが作成したコンテンツとユーザーを橋渡しできるよう努めています。 Google
Google ニュースでの表示に関するよくある質問への回答
2021 年 7 月 16 日(金) Google は、信頼できるさまざまなニュース メディアから関連性の高い権威あるニュースを提供することで、誰もが情勢を把握できるようにしたいと考えています。ここでは、Google ニュースと Google 検索でのニュースの表示について理解を深めていただけるよう、ニュース メディアから寄せられたよくある質問に回答します。 ニュース コンテンツは、Google ニュース、Google 検索、Google アシスタント、YouTube、Discover など、
Google 検索でカスタマー サポートの方法をハイライト表示する
2021 年 7 月 7 日(水曜日) ユーザーがビジネスへの問い合わせ方法を探すことはよくあるため、Google では、利用可能な最良の情報を表示し、 さまざまな形式 で可能な限りユーザーを支援できるよう取り組んでいます。そのために、ビジネスまたはサービスの最も正確な情報が表示されやすくなる、いくつかのおすすめの方法を実施していただくことをおすすめします。
2021 年 4 月の Google 商品レビューの更新情報についてクリエイターが知っておくべきこと
2021 年 4 月 8 日(木曜日) Google 検索は、 テスト、検証、審査プロセス を通じて、できる限り便利で役立つ情報を表示するよう常に努めています。それにより、ユーザーから高く評価されるのは、多数の商品をまとめただけの質の低いコンテンツではなく、詳細な調査結果を示した商品レビューであることがわかっています。そこで、そうしたコンテンツが高く評価されるように設計された、 ランキング システム の改善(「商品レビューに関するアップデート」と呼んでいます)についてお知らせいたします。
Google 検索で COVID-19 に関するお知らせをハイライト表示できる新しい方法の導入
2020 年 4 月 3 日(金曜日) COVID-19(新型コロナウイルス感染症)の流行により、多くの組織や団体が、日常生活に影響を及ぼす新型コロナウイルス関連の重要なお知らせを発表しています。 このような状況を受け、Google ではこうした特別なお知らせを Google 検索でハイライト表示するための新しい方法を導入します。各サイトは、ウェブページに SpecialAnnouncement 構造化データを追加 したり、 Search Console で COVID-19
進化する nofollow - リンクの性質を識別する新しい方法
2019 年 9 月 10 日(火曜日) 15 年ほど前、 nofollow 属性 がコメントスパムの対策として 導入されました 。間もなくして、広告関連のリンクやスポンサー リンクであることを示すための Google の 推奨方法 の一つとなりました。2005 年に nofollow が導入されて以降、ウェブは進化し、nofollow も進化するときがやってきました。 本日は、2 つの新しいリンク属性についてお知らせします。これらの属性も、Google
2019 年 8 月の Google コア アップデートについてサイト所有者が知っておくべきこと
2019 年 8 月 1 日(木曜日) Google ではほぼ毎日、検索結果を改善するための変更をリリースしています。ほとんどの変更は小さなものですが、それでも漸進的な改善に役立っています。 時には、重要な変更を行う場合もあります。サイト所有者やコンテンツ プロデューサーなどにとって実用的な情報があると判断した場合、Google ではそのようなアップデートを周知するようにしています。たとえば「Speed Update」を実施した際には、その数か月前から 事前通知とアドバイス を公開しました。
Google ニュースで成功を収める方法
2019 年 1 月 17 日(木曜日) 新年を迎えてしばらく経ちましたが、皆様が 2019 年に Google ニュースでさらなる成功を収められるように、ベスト プラクティスとアドバイスをいくつかご紹介いたします。 Google ニュースのニュース メディア向けヘルプセンター には、検討に値する有益な情報が多数掲載されています。この分野の資料、特に コンテンツ と 技術 に関するガイドラインをお読みください。 Google ニュースは、発信元のニュース