2024 年 12 月 24 日(火)
コンテンツ配信ネットワーク(CDN)は、ウェブサイトの遅延を短縮し、通常はウェブトラフィック関連のトラブル回避に特に役立つサービスです。CDN の主な目的は、サイトで大規模なトラフィック負荷が発生している場合でも、その影響を受けずにコンテンツをすばやく配信することにあります。CDN の「"D"」とは、世界中にコンテンツを届ける(Deliver)または分散する(Distribute)ことを指しており、1 か所のデータセンターでコンテンツをホストする場合よりもユーザーへの転送時間が短縮されるメリットがあります。この投稿では、CDN を利用して、サイトのクロールとユーザー エクスペリエンスを改善する方法を説明します。また、CDN を使用したサイトでのクロールに関する注意点も紹介します。
振り返り: CDN とは
基本的に CDN は、オリジンサーバー(ウェブサイトがある場所)とエンドユーザーの間の中継地点として、サーバーに代わってファイルを配信します。これまで、CDN の主な目的はキャッシュ保存でした。ユーザーがサイトの URL をリクエストすると、CDN がその URL のコンテンツを一時的にキャッシュに保存して、一定期間はサーバーが再度そのファイルを配信しなくてすむようにするものです。
CDN によってユーザーに近い場所から配信できるため、サイトの表示速度が大幅に向上します。たとえば、オーストラリアにいるユーザーが、ドイツでホストされているサイトにアクセスしたとすると、CDN はオーストラリアにあるキャッシュからそのユーザーに配信するため、遠くまで転送する時間が短縮されます。どれだけ伝送速度が向上しても、物理的にかなりの距離があると表示速度が遅くなるものです。
最後に、CDN は過負荷とセキュリティの脅威からサイトを守るすばらしいツールです。大量のグローバル トラフィックを管理する CDN は、トラフィックの異常を検知し、過度または不正なアクセスをブロックして、高度な信頼性を提供するトラフィック モデルを構築しています。たとえば、2024 年 10 月 21 日に、Cloudflare のシステムはピーク時 4.2 Tbps(これは超大規模です)の DDoS 攻撃を自動検知し、わずか 1 分ほどで終了させました。
サイトをサポートする CDN の機能
高速の高性能サーバー、最適なアップリンクを使用するために自社投資したから、アクセス速度の改善は要らないとお考えかもしれませんが、大規模なサイトを運営されている場合は特に、CDN を活用すると長期的にはコスト削減につながります。
- CDN でのキャッシュ保存: メディア、JavaScript、CSS などのリソース、さらには HTML も CDN のキャッシュから配信できれば、サーバーはそのようなリソースの配信にコンピューティング リソースと帯域幅を使用せずにすみ、このプロセスでのサーバー負荷が軽減します。通常、これによりユーザーのブラウザでのページ読み込み速度も速くなり、コンバージョンの向上につながります。
-
大量のトラフィックからの保護: CDN は特に過度または不正なトラフィックの特定とブロックを得意とし、不正行為を行っているボットや人物がサーバーに負荷をかけているときでも、ユーザーがサイトにアクセスできるようにします。
さらに、不正なトラフィックをブロックするための制御機能は、大量のトラフィックだけでなく、特定のクローラー、特定のパターンに当てはまるクライアント、同じ IP アドレスを何度も使用している荒らしによるトラフィックなど、サイトに不要なトラフィックのブロックにも使用できます。サーバーまたはファイアウォールでも同様のことができますが、通常は CDN のユーザー インターフェースを使うほうがずっと簡単です。 - 信頼性: CDN によっては、オリジンサイトがダウンしているときでも、ユーザーにサイトのコンテンツを配信できます。当然ながら、これが機能するのはほぼ静的コンテンツの場合になりますが、それでも待ちきれないユーザーが他のサイトに逃げないようにするための対策として足りるものです。
つまり、CDN は心強い味方です。サイトの規模が大きい場合や、トラフィックの大幅な増加が見込まれる場合(またはすでに大量のトラフィックが発生している場合)には、料金、パフォーマンス、信頼性、セキュリティ、カスタマー サポート、拡張性、今後の展開などの要素を踏まえて、ニーズに合った CDN を探しましょう。お使いのホスティング プロバイダや CMS プロバイダに問い合わせて、CDN を利用できるか、またはすでに導入されているかなどをご確認ください。
CDN を使用しているサイトでのクロールの影響
クロールに関しても CDN は利点がありますが、クロールに関する問題の原因となることもまれにあります。ここは大事なので最後までお読みください。
CDN によるクロール頻度への影響
Google のクロール インフラストラクチャは、CDN を使用しているサイトでは高い頻度でクロールできるように設計されています。サイトが CDN を使用しているかどうかは、クローラーが発見してアクセスする URL の提供元サービスの IP アドレスから推測できます。ほとんどの場合、これは正常に機能します。
たとえば、ストックフォトのサイトを今日公開し、そこには 1,000,007 点の素材が含まれているとします。すべての素材についてランディング ページ、カテゴリページ、詳細ページを作成してウェブサイトを公開した場合、ページの数は大量になります。クロール能力の上限についてのドキュメントで説明しているとおり、Google 検索ではできる限り迅速にこのようなページのすべてをクロールすることを目指していますが、クロールによってサーバーに大きな負荷がかからないように制御されており、クロール リクエスト数の増加により、サーバーのレスポンスに時間がかかるようになると、サーバーへの負荷を抑えるために Google 側にスロットリングが適用されます。サイトで CDN が使用されていることをクロール インフラストラクチャが検知すると、このスロットリングのしきい値は引き上げられます。これは、サーバーに送信する同時リクエスト数を増やしても処理できる可能性が高く、問題ないと判断されるためです。その結果、より迅速にウェブショップのクロールが行われることになります。
ただし、その URL へのアクセスが初めてで、CDN のキャッシュが「コールド」の場合、つまりその URL がリクエストされたことがなく、コンテンツがまだ CDN によってキャッシュ保存されていない場合は、オリジンサーバーはその URL のリソースを少なくとも 1 回は配信して、CDN のキャッシュを「ウォームアップ」する必要があります。この仕組みは HTTP キャッシュ保存の仕組みとも非常によく似ています。
つまり、CDN を使用している場合でも、元のサーバーから少なくとも 1 回は 1,000,007 個の URL のコンテンツを配信する必要があります。最初の配信が完了した後でのみ、CDN によるキャッシュ保存が役に立つようになります。これは「クロール バジェット」を多く消費するだけでなく、数日間はクロール頻度が高くなる可能性があります。一度に大量の URL を公開する場合はこの点を念頭に置いてください。
CDN によるレンダリングへの影響
初回の 12 月のクロール情報の、リソースのクロールに関するブログ投稿で説明したとおり、リソースを固有のホスト名または CDN ホスト名(cdn.example.com
)に分割することにより、Google のウェブ レンダリング サービス(WRS)がページをより効率的にレンダリングできるようになる場合があります。ただし注意点があり、この方法は異なるホスト名への接続のオーバーヘッドにより、ページ パフォーマンスに悪影響を及ぼす可能性があります。そのため、ページ エクスペリエンスとレンダリング パフォーマンスを慎重に検討したうえで実行を判断する必要があります。
メインのホストで CDN を使用していれば、この問題を回避できます。クエリするホスト名は 1 つで、重要なレンダリング リソースは CDN のキャッシュから配信されるため、サーバーがレンダリング リソースを配信する必要がなくなります(さらにページ エクスペリエンスにも影響しません)。
最終的には、静的リソースに個別のホスト名(cdn.example.com
)を設定する、メインのホスト名には CDN を使用する、またはその両方を行うなど、ビジネスに最も適したソリューションを選択してください。Google のクロール インフラストラクチャはいずれのオプションにも問題なく対応できます。
CDN によりサイトが過度に保護されるケース
CDN が提供する大量のトラフィックからの保護機能と、クローラーによるクロールの仕組みが逆に災いして、サイトにアクセスしてほしいボットが CDN のブロックリスト(通常はウェブ アプリケーション ファイアウォール(WAF)のブロックリスト)に入ってしまうことがあります。ブロックリストに入ると、クローラーはサイトにアクセスできなくなり、結果としてサイトが検索結果に表示されなくなります。ブロックはさまざまな形で行われ、Google の検索結果におけるサイトのプレゼンスにより悪影響を及ぼすものもあります。しかも CDN 側で発生するため、パブリッシャーが制御することは難しい(あるいは不可能)場合があります。このブログ投稿ではこのようなブロックを 2 種類に分けて説明します。一つはハードブロック、もう一つはソフトブロックです。
ハードブロック
ハードブロックは CDN がクロール リクエストに対して、なんらかの形のエラーを含むレスポンスを送信した場合に発生します。次のようなケースが該当します。
-
HTTP
503
/429
ステータス コード: このような一時的なブロック状態を示すステータス コードの送信は推奨される方法で、この場合は CDN によって意図せずブロックされるまでに原因を特定して対策を講じる時間を確保できます。 - ネットワーク タイムアウト: CDN からのネットワーク タイムアウトが発生すると、影響を受ける URL は Google の検索インデックスから削除されることになります。このようなネットワーク エラーは端末の「ハード」エラーとみなされます。さらに、サイトが過負荷であることをクロール インフラストラクチャに伝えることになり、サイトのクロール頻度に大きな影響を及ぼす可能性もあります。
-
HTTP
200
ステータス コードでのランダムなエラー メッセージ: ソフトエラーとも呼ばれ、非常に問題です。エラー メッセージが Google 側で「ハード」エラー(HTTP500
など)と同じと見なされると、Google は URL を検索から削除します。Google がエラー メッセージを「ハード」エラーとして検出できなかった場合は、同じエラー メッセージが発生しているすべてのページが重複ページとみなされ、Google の検索インデックスから削除される可能性があります。Google のインデックス登録では、重複 URL の再クロール リクエストを優先しないため、この復旧には時間がかかる場合があります。
ソフトブロック
CDN が「本当に人間ですか」というインタースティシャルを表示した場合も、同様の問題が発生する可能性があります。

Google のクローラーは人間でないことを認識しており、人間であるふりをすることはありません。クロールのみに特化しているボットです。ただ、インタースティシャルが表示されると、クローラーがアクセスできるのはそこまでで、サイトの内容は確認できなくなります。このようなボット認証用のインタースティシャルを使用する場合は、クローラーなどの自動クライアントに 503 HTTP ステータス コードの明確なシグナルを送り、コンテンツが一時的に利用できないことを伝えることを強くおすすめします。これにより、コンテンツが Google のインデックスから自動的に削除されなくなります。
ブロックのデバッグ
ハードブロックの場合でもソフトブロックの場合でも、正しく機能しているかを確認する一番簡単な方法は、Search Console の URL 検査ツールを使って、レンダリングされた画像を確認する方法です。ページが表示されていれば問題ありません。空のページ、エラー、ボット チャレンジのページが表示されている場合は、CDN のプロバイダに相談することをご検討ください。
また、このような意図しないブロックに対応するため、Google やその他の検索エンジンなどのクローラー運営者は自身の IP アドレスを公開して、クローラーであることをパブリッシャーにわかるようにしています。また、適切なクローラーと判断した場合には、WAF ルールからブロックされた IP を削除したり、さらには許可リストに追加したりすることもできます。こうした対策をどこに施すかは、お使いの CDN によって異なりますが、ほとんどの CDN やスタンドアロンの WAF には役に立つドキュメントが用意されており、少し検索するだけで次のようなものが見つかります(この投稿の公開日時点)。
- Cloudflare: https://developers.cloudflare.com/bots/get-started/free/#visibility
- Akamai: https://www.akamai.com/ja/products/bot-manager
- Fastly: https://www.fastly.com/jp/products/bot-management
- F5: https://clouddocs.f5.com/bigip-next/20-2-0/waf_management/waf_bot_protection.html
- Google Cloud: https://cloud.google.com/armor/docs/bot-management
検索エンジンにサイトを表示させたい場合は、訪れてもらいたいクローラーが自社サイトにアクセスできるかを確認することを強くおすすめします。知らない間にサイトの IP が勝手にブロックリストに追加されていることがあります。そのため、検索パフォーマンスにとどまらず、サイト自体の成功のためにも定期的にブロックリストを確認するようにしてください。ブロックリストが延々と続いている場合には(このブログ投稿も長くなりましたが)、IP 範囲の最初の数セグメントのみ確認してみてください。たとえば、192.168.0.101
ではなく 192.168
を探すようにします。
この投稿は 12 月のクロール情報のブログ投稿シリーズの最後の投稿になります。今回の内容がお役に立てば幸いです。いつものとおり、ご質問などがあればぜひお寄せください。
クロールについて詳しくは、12 月のクロール情報シリーズ全体をご覧ください。
Google 検索の更新に関する Q&A
2023 年 11 月 2 日(木曜日) Google 検索では、検索ランキング システムを定期的に更新し、最も関連性の高い有用なコンテンツを表示できるようにしています。過去数週間に一連の重要な更新が公開されており、今月は 2 件の更新があります。そこで、更新の仕組み、更新を公開する理由、更新時にクリエイターが考慮すべき点(ある場合)について説明し、注意点を以下に示します。 本日より、 2023 年 11 月のコア アップデートをロールアウトする ことを発表しました。2023 年 10 月のコア
Google 検索の多言語検索への対応
2023 年 9 月 8 日(金曜日) 世界中の多くの国や地域では、人々は複数の言語で話し、検索するのが一般的です。ユーザーに最適なサービスを提供するために、Google はさまざまな方法を使って、検索結果を表示するのに最適な言語を自動的に決定しています。 Google 検索では、言語設定に一致する結果のみが表示されると思われている方もいらっしゃるでしょうが、それでは思っているほど役に立ちません。 ブラウザ、モバイル
ヘルプフル コンテンツの作成におけるページ エクスペリエンスの影響
2023 年 4 月 19 日(水曜日) 一般的にヘルプフル コンテンツには、優れたページ エクスペリエンスを提供することが求められます。この度、 ヘルプフル コンテンツの作成に関するガイドライン にページ エクスペリエンスについてのセクションを追加し、 ページ エクスペリエンスに関するヘルプページ を改訂したのは、そのためです。これにより、サイト所有者の皆様がコンテンツ作成プロセスの一環として、より包括的にページ エクスペリエンスについて検討できるものと考えています。
AI 生成コンテンツに関する Google 検索のガイダンス
この投稿では、検索でユーザーに有用なコンテンツを表示するための Google の継続的な取り組みにおける、AI 生成コンテンツの位置づけについて詳しく説明します。
Google 検索ランキング システムに関する新たなガイドの導入
2022 年 11 月 21 日(月曜日) Google は、何年にもわたって、ブログ投稿やその他の一般向け発表を通じて、自動ランキング システムとその運用方法に関する情報を定期的に公開してきました。この度、それらの情報を一つにまとめて「 Google 検索ランキング システム ガイド 」を作成し、クリエイターや他のユーザーの皆様の関心が高い Google のシステムについて簡単に学べるようにしました。この新しいガイドでは、Google
2022 年 5 月のコア アップデートのリリース(Google 検索)
2022 年 5 月 25 日(水) Google では年に数回、ランキング処理全般に大幅な改良を加えており、このような改良を コア アップデート と呼んでいます。コア アップデートは、検索結果の全体的な関連性が向上し、すべてのユーザーにとって 利便性と有用性が高まるようにする ことを目的としています。本日、2022 年 5 月のコア アップデートをリリースします。ロールアウトが完了するまでに 1~2 週間ほどかかります。 コア アップデートは、Google
Google によるウェブページ検索結果のタイトル生成方法の詳細
2021 年 9 月 17 日(金曜日) 先月、 ウェブページ検索結果のタイトルを生成する 新しいシステムについて説明しました。その後、お客様から大変ありがたいフィードバックをいただき、タイトル システムをさらに改良しました。ここでは、Google が行った対策と、クリエイター向けのその他のガイダンスをご紹介します。 前回の投稿 で説明したように、新しいシステムでは、ウェブページ検索結果に表示するタイトルの大半には、HTML タイトル要素(タイトルタグとも呼ばれます)が使用されます。いただいた
ウェブページのタイトルの生成方法に関する最新情報
2021 年 8 月 24 日(火曜日) 検索結果と検索クエリの関連性をユーザーが判別する主な方法の 1 つは、検索結果に表示されたウェブページのタイトルを確認することです。そのため、Google 検索では、検索結果に掲載される文書に最適なタイトルを提供し、クリエイター、パブリッシャー、企業などが作成したコンテンツとユーザーを橋渡しできるよう努めています。 Google
Google ニュースでの表示に関するよくある質問への回答
2021 年 7 月 16 日(金) Google は、信頼できるさまざまなニュース メディアから関連性の高い権威あるニュースを提供することで、誰もが情勢を把握できるようにしたいと考えています。ここでは、Google ニュースと Google 検索でのニュースの表示について理解を深めていただけるよう、ニュース メディアから寄せられたよくある質問に回答します。 ニュース コンテンツは、Google ニュース、Google 検索、Google アシスタント、YouTube、Discover など、
Google 検索でカスタマー サポートの方法をハイライト表示する
2021 年 7 月 7 日(水曜日) ユーザーがビジネスへの問い合わせ方法を探すことはよくあるため、Google では、利用可能な最良の情報を表示し、 さまざまな形式 で可能な限りユーザーを支援できるよう取り組んでいます。そのために、ビジネスまたはサービスの最も正確な情報が表示されやすくなる、いくつかのおすすめの方法を実施していただくことをおすすめします。
2021 年 4 月の Google 商品レビューの更新情報についてクリエイターが知っておくべきこと
2021 年 4 月 8 日(木曜日) Google 検索は、 テスト、検証、審査プロセス を通じて、できる限り便利で役立つ情報を表示するよう常に努めています。それにより、ユーザーから高く評価されるのは、多数の商品をまとめただけの質の低いコンテンツではなく、詳細な調査結果を示した商品レビューであることがわかっています。そこで、そうしたコンテンツが高く評価されるように設計された、 ランキング システム の改善(「商品レビューに関するアップデート」と呼んでいます)についてお知らせいたします。
Google 検索で COVID-19 に関するお知らせをハイライト表示できる新しい方法の導入
2020 年 4 月 3 日(金曜日) COVID-19(新型コロナウイルス感染症)の流行により、多くの組織や団体が、日常生活に影響を及ぼす新型コロナウイルス関連の重要なお知らせを発表しています。 このような状況を受け、Google ではこうした特別なお知らせを Google 検索でハイライト表示するための新しい方法を導入します。各サイトは、ウェブページに SpecialAnnouncement 構造化データを追加 したり、 Search Console で COVID-19
進化する nofollow - リンクの性質を識別する新しい方法
2019 年 9 月 10 日(火曜日) 15 年ほど前、 nofollow 属性 がコメントスパムの対策として 導入されました 。間もなくして、広告関連のリンクやスポンサー リンクであることを示すための Google の 推奨方法 の一つとなりました。2005 年に nofollow が導入されて以降、ウェブは進化し、nofollow も進化するときがやってきました。 本日は、2 つの新しいリンク属性についてお知らせします。これらの属性も、Google
2019 年 8 月の Google コア アップデートについてサイト所有者が知っておくべきこと
2019 年 8 月 1 日(木曜日) Google ではほぼ毎日、検索結果を改善するための変更をリリースしています。ほとんどの変更は小さなものですが、それでも漸進的な改善に役立っています。 時には、重要な変更を行う場合もあります。サイト所有者やコンテンツ プロデューサーなどにとって実用的な情報があると判断した場合、Google ではそのようなアップデートを周知するようにしています。たとえば「Speed Update」を実施した際には、その数か月前から 事前通知とアドバイス を公開しました。
Google ニュースで成功を収める方法
2019 年 1 月 17 日(木曜日) 新年を迎えてしばらく経ちましたが、皆様が 2019 年に Google ニュースでさらなる成功を収められるように、ベスト プラクティスとアドバイスをいくつかご紹介いたします。 Google ニュースのニュース メディア向けヘルプセンター には、検討に値する有益な情報が多数掲載されています。この分野の資料、特に コンテンツ と 技術 に関するガイドラインをお読みください。 Google ニュースは、発信元のニュース