このページでは、XML アノテーション ファイルを使用して検索エンジンの範囲を定義する方法について説明します。
概要
大規模な検索エンジンを構築している場合、大量のサイトを管理することは面倒な作業になることがあります。アノテーション ファイルにリストを追加し、アップロードすることで、多数のサイトを追加して管理できます。さらに、アノテーション ファイルを使用すると、検索結果のランキングを細かく制御できます。
アノテーション ファイルは、単にアノテーションのリストです。各アノテーションには、サイトとそれに関連付けられたラベルという 2 つのコンポーネントがあります。ラベルはプログラム可能検索エンジンによるサイトの処理方法、つまりサイトを含める、除外、昇格、または降格するかどうかを示すものです。コンテキスト ファイルではラベルを定義します。アノテーション ファイルでは、適切なラベルでサイトにタグを付けます。
アノテーション ファイルの編集を開始するときは、少数のアノテーションから始めます。アノテーションを使うと、検索エンジンのテストやトラブルシューティングが簡単になります。期待する結果が得られたら、アノテーションを少しずつ追加します。
コントロール パネルにアノテーション ファイルをアップロードできます。ファイルの上限について詳しくは、アノテーションの上限のセクションをご覧ください。
プログラム可能検索の XML 形式を使用する
プログラム可能検索エンジンの設定ファイルにあるすべての機能を利用するには、XML を使用します。
XML アノテーション
XML アノテーションの例を次に示します。このアノテーション ファイルは、www.webmd.com/hw/* の下のすべてを含める一方で、www.webmd.com/hw/cancer/* の下のすべてを除外するようプログラム可能検索エンジンに指示します。
<Annotations> <Annotation about="www.cancer.gov/cancertopics/types/liver/*"> <Label name="_include_"/> <Comment>government site</Comment> </Annotation> <Annotation about="www.medicinenet.com/liver_cancer/"> <Label name="_exclude_"/> <Comment>site on symptoms</Comment> </Annotation> <Annotation about="www.webmd.com/hw/*"> <Label name="_include_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.webmd.com/hw/cancer/*"> <Label name="_exclude_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.oncologychannel.com/*/treatment"> <Label name="_exclude_"/> </Annotation> </Annotations>
アノテーション ファイルは、次の階層の 4 つの要素を持ちます。
-
Annotations
(ルート要素)Annotation
Label
Comment
(省略可)
外部アノテーションの作成
検索エンジンの対象とするサイトのリストを記述する手順は次のとおりです。
<Annotations></Annotations>
ルート要素でファイルを開始します。<Annotation></Annotation>
タグを追加してアノテーションを作成し、サイトの URL パターンを指定してabout
属性を定義します。<Annotations> <Annotation about="www.webmd.com/hw/cancer/*"> </Annotation> </Annotations>
<Label name=" "/>
タグを使用してサイトを検索エンジンに関連付け、そのサイトを検索エンジンでどのように扱うかを指定します。検索エンジンのラベルは、検索エンジンのコンテキスト ファイルから取得できます。2 種類のラベルがあります。1 つはプログラム可能検索エンジンにサイトを追加するラベル、もう 1 つはプログラム可能検索エンジンからサイトを除外するラベルです。コンテキスト ファイルの検索エンジンのラベル名を変更していない場合、サイトを含めるラベルは_include_
の形式、サイトを除外するラベルは_exclude_
の形式になります。エラーを回避するには、これらのラベルを手入力するのではなく、コピーして貼り付けてください。<Annotations> <Annotation about="http://www.solarenergy.org/*"> <Label name="_include_"/> </Annotation> </Annotations>
1 つのサイトに複数のラベルを関連付けることができます。
コンテキスト ファイルのラベル名を変更した場合は、アノテーション ファイル内の
Label name
値も必ず更新してください。- サイトを追加するには、別の
Annotation
要素を作成して定義します。 - XML ファイルを保存します。
検索カバレッジの改善
プログラム可能検索エンジンは、Google インデックスを基盤として構築されています。これは、Google のインデックスに登録されているウェブページが検索エンジンからアクセスできることを意味します。逆に、Google がクロールしていないウェブページは検索結果に表示されません。現在 Google インデックスに登録されていないサイトをプログラム可能検索エンジンに含めるには、サイトマップを Google Search Console に送信します。
サイトマップには、サイト内のページのリストのほか、各ウェブページの更新頻度と各ページの重要性に関する情報を含んでいます。サイトマップを送信すると、Google がウェブページを検出し、クロール スケジュールを改善するのに役立ちます。サイトマップについて詳しくは、ウェブマスター ヘルプセンターとサイトマップ プロトコルの使用をご覧ください。より手軽なサイトマップの作成に関心をお持ちの場合は、http://www.sitemaps.org/protocol.php をご覧ください。
サイトマップの送信は、サイトに以下の項目がある場合に特に役立ちます。
- 動的コンテンツ
- AJAX や Flash の機能が充実したページなど、Googlebot(Google のウェブ クローラー)では検出されにくいウェブページです。
- そのウェブサイトにリンクしているウェブサイトはほとんどありません。
Googlebot は、ページ間のリンクをたどってウェブをクロールするため、サイトのリンクが適切に設定されていない場合は、クローラーが検出するのは困難になります。新しいウェブサイトの場合、そのサイトを参照しているウェブサイトはあまり多くないでしょう。
- 相互リンクの強固なネットワークがない、コンテンツ ページの大規模なアーカイブ
Google がインデックスに登録できるのは、アクセス可能なページのみです。そのため、ウェブページで robots.txt ファイルや robots メタタグを使用している場合は、そのページでクローラがブロックされないようにしてください。
ページがクロールされてインデックスに登録されるまでには時間がかかるため、カバレッジの向上は即座には得られません。ただし、インデックスに登録されたウェブページは、Google 検索とプログラム可能検索エンジンの両方に表示される可能性があります。
アノテーションに関する制限
次の表に、プログラム可能検索エンジンにアップロードされるアノテーション ファイルの上限を示します。
注: 上限を超えると、検索エンジンで検索結果が表示されない可能性があります。上限数には必ず従ってください。
Aspect | 上限 |
---|---|
ファイルサイズ(コンテキスト ファイルまたはアノテーション ファイル) | 30KB |
検索エンジンごとのアノテーションの最大数 | 5,000
ヒント: 検索エンジン数が 5,000 という大規模なサイト数の制限を超えている場合は、個々の URL を URL パターンに統合することを検討してください。 |