削除した情報が Google 検索に表示されないようにする

ドキュメントや画像をウェブに公開する際、人間の目には見えにくい情報を意図せず公開してしまう場合があります。たとえば、通常は表示されない情報や削除したはずの情報が一部のドキュメント形式に含まれており、それが検索エンジンで表示されてしまうといったケースです。

検索エンジンは、画像も含めウェブ上の公開コンテンツをインデックスに登録するため、完全に削除していないコンテンツは検索エンジンで見つかる可能性があります。スクリーン リーダーなどの支援技術を使えば、この「隠れた」コンテンツにも簡単にアクセスできます。また、光学式文字認識(OCR)などの一般的な画像認識技術を使用して、このようなコンテンツを検索可能にすることもできます。

テキストのフォントサイズを小さくする、テキストのフォント色を背景色と同じにする、テキストを画像で覆うといった方法を使えば、人間の目からはある程度隠せるかもしれません。しかし、このような方法では、実際にはテキストが削除されていないため、検索エンジンによるインデックス登録や検索結果への表示を防ぐことはできません。

他にも、ドキュメントの種類によっては、情報が目に見えにくい形で含まれているものもあります。たとえば、ドキュメントの変更履歴が含まれていて、削除や変更を行ったテキストを表示できるものもあります。また、画像を切り抜いたり削除したりしても、そのすべてのバージョンが保持されるドキュメントもあります。ファイルにメタデータ(通常は表示されない)が含まれていて、そこにファイルのアクセス者や編集者の名前がリストされている場合もあります。

このような情報はすべて、ドキュメントがエクスポートされたり別の形式に変換されたりしても保持されうるものです。ファイルに削除すべき情報が含まれている場合は、そのファイルを公開する前に、対象の情報を完全に削除することが重要です。

ここでは、Google 検索によるインデックス登録や検索結果への表示がなされないよう、ドキュメントから情報を適切に削除するためのおすすめの方法を紹介します。

画像を埋め込み前に編集してエクスポートする

Google 検索には、ウェブで見つかった画像が表示されますが、その中にはウェブページ上の画像と、さまざまな形式のドキュメントに埋め込まれた画像の両方が含まれています。埋め込み画像については、それを含むドキュメントの編集ツールのみを使って、情報の削除が行われることがあります。その場合、画像がドキュメントから切り離されてインデックスに登録されると、削除が取り消されてしまう可能性があります。そのため、画像の編集はドキュメントへの埋め込み前に行うことをおすすめします。特に、次のことを推奨します。

  • ドキュメントへの埋め込み前に、画像から不要な部分を切り取ります。ドキュメント編集ツール(ワード プロセッサやスライド作成ツールなど)によっては、切り取り前の画像が保持され、それがドキュメントの公開バージョンに使用されることがあります。ツールの説明ドキュメントを詳細にご確認ください。
  • 画像に含まれるテキストやその他の非公開部分は、完全に削除するか不明瞭化します。画像にテキストが含まれていると、OCR システムによって検索可能なテキストに変換される可能性があるためです。
  • 不要なメタデータはすべて削除します。

上記の推奨事項を適用した後、更新済みの画像をベクター以外の単層の画像ファイル形式(PNG や WEBP など)でエクスポートまたは保存します。これにより、画像中の上記のような情報が誤って公開ドキュメントに含まれることがなくなります。

公開ファイル形式に移行する前に不要なテキストを編集または削除する

公開ドキュメントを生成する前に、表示したくないテキストを最終バージョンのファイルからすべて削除します。その後、公開ファイル形式に移行すれば、それまでの変更履歴が含まれることはありません。以下に、おすすめの方法を具体的に示します。

  • ファイルの情報を削除する必要がある場合は、適切なドキュメント編集ツールを使用します。たとえば、削除の方法として、テキストを黒い四角で覆うことは避けてください。これでは、テキストが公開ドキュメントに含まれたままになります。
  • 公開ファイルのドキュメント メタデータを再確認します。
  • 使用するファイル形式(PDF、画像など)向けのドキュメントの情報削除に関するおすすめの方法を適用します。
  • URL またはファイル名自体に含まれる情報に注意します。ウェブサイトの一部を robots.txt でブロックしても、URL は検索のインデックスに登録されます(コンテンツは登録されません)。URL パラメータには、メールアドレスや名前の代わりにハッシュを使用してください。
  • 認証を使用して、削除したコンテンツへのアクセスを制限することを検討します。結果のログインページに noindex robots メタタグを指定して、インデックス登録をブロックします。
  • 公開するときは、ウェブサイトが Google Search Console で確認済みであることを確かめます。これにより、必要な場合に迅速な削除作業が可能になります。
  1. 公開しているウェブサイトまたは場所からライブ ドキュメントを削除します。
  2. 確認済みのサイトに対して削除ツールを使用して、検索結果から問題のドキュメントを削除します。多数のドキュメントを削除する必要がある場合は、URL プレフィックスを使用します。確認済みサイトの場合、URL の削除には通常 1 日もかかりません。これで、削除したコンテンツを検索しても、問題のドキュメントは表示されなくなります。
  3. 適切に情報を削除したドキュメントを別の URL でホストします。こうすることで、インデックスに登録されているのがドキュメントの古いバージョンではなく、新しいバージョンであることを確認できます(URL の再クロールと検索インデックスの更新には時間がかかるため)。その後、対象ドキュメントへのリンクをすべて更新します。
  4. 情報の削除が不適切なドキュメントをホストしている他のすべてのサイトに連絡して、対象ドキュメントを削除するよう依頼します。Search Console アカウントで削除ツールを使用するよう依頼するか、古いコンテンツの削除ツールを使用して、Google に検索結果の更新をリクエストします。
  5. URL の削除リクエストが期限切れ(Google の検索インデックスで URL が更新されたか、約 6 か月後)になるのを待ちます。