このページは Cloud Translation API によって翻訳されました。

アノテーション: 検索するサイトの定義

このページでは、XML アノテーションファイルを使用して検索エンジンの適用範囲を定義する方法について説明します。

概要
Programmable Search の XML 形式の使用
検索カバレッジの改善
アノテーションに関する制限事項

概要

大規模な検索エンジンを構築する場合は、大量のサイトを管理するのは面倒な場合があります。代わりに、多数のサイトをまとめてアノテーションファイルに記述し、アップロードすることで追加、管理できます。また、アノテーションファイルを使用すると、検索結果のランキングをより詳細に制御できます。

アノテーションファイルは、アノテーションのリストです。各アノテーションには、サイトとそれに関連するラベルという 2 つのコンポーネントがあります。このラベルは、プログラム可能検索エンジンにサイトの処理方法を指示します。つまり、サイトを追加、除外、昇格、降格のいずれにするかを指定します。コンテキストファイルでは、ラベルを定義します。アノテーションファイルで、サイトに適切なラベルのタグを付けます。

アノテーションファイルの編集を開始する際に、まずは少数のアノテーションから始めます。少数のアノテーションを使用すると、検索エンジンのテストやトラブルシューティングが容易になります。期待どおりの結果が得られたら、徐々にアノテーションを追加します。

コントロールパネルにアノテーションファイルをアップロードできます。ファイルの制限について詳しくは、アノテーションの制限のセクションをご覧ください。

トップへ戻る

Programmable Search の XML 形式の使用

プログラム可能検索エンジンの設定ファイルにあるすべての機能を利用するには、XML を使用するのがよいでしょう。

XML アノテーション

XML アノテーションの例を次に示します。このアノテーションファイルは、www.webmd.com/hw/* 以下のすべての項目を含め、www.webmd.com/hw/cancer/* 以下の項目をすべて除外するようにプログラム可能検索エンジンに指示します。

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

アノテーションファイルには、次の階層の 4 つの要素があります。

Annotations （ルート要素） <ph type="x-smartling-placeholder">
- Annotation
  - Label
  - Comment （省略可）

トップへ戻る

外部アノテーションを作成する

検索エンジンの対象とするサイトのリストを表示する手順は次のとおりです。

<Annotations></Annotations> ルート要素からファイルを開始します。
<Annotation></Annotation> タグを追加してアノテーションを作成し、サイトの URL パターンを使用して about 属性を定義します。
```
<Annotations>
   <Annotation about="www.webmd.com/hw/cancer/*">
   </Annotation>
   </Annotations>
```
<Label name=" "/> タグを使用してサイトを検索エンジンに関連付け、検索エンジンでのサイトの処理方法を指定します。検索エンジンのラベルは、検索エンジンのコンテキストファイルから取得できます。プログラム可能検索エンジンにサイトを追加するためのラベルと、プログラム可能検索エンジンからサイトを除外するためのラベルが表示されます。コンテキストファイルの検索エンジンラベルの名前を変更していない場合、サイトを含める場合は _include_、サイトを除外するラベルは _exclude_ の形式になります。エラーを防ぐには、これらのラベルを手作業で入力するのではなく、コピーして貼り付けてください。
```
   <Annotations>
   <Annotation about="http://www.solarenergy.org/*">
     <Label name="_include_"/>
   </Annotation>
</Annotations>
```
1 つのサイトに複数のラベルを関連付けることも

コンテキストファイルでラベルの名前を変更した場合は、アノテーションファイル内の Label name 値を忘れずに更新してください。
サイトを追加するには、別の Annotation 要素を作成して定義します。
XML ファイルを保存します。

トップへ戻る

検索カバレッジの改善

プログラム可能検索エンジンは Google インデックスを基に構築されています。つまり、Google インデックスに登録されているウェブページを検索エンジンが認識できるということです。逆に、Google がクロールしていないウェブページは検索結果に表示されません。現在 Google インデックスに登録されていないサイトをプログラム可能検索エンジンに含めるには、Google Search Console にサイトマップを送信します。

サイトマップには、サイト内のページのリストのほか、ウェブページの更新頻度と相対的な重要度に関する情報が含まれます。サイトマップを送信すると、Google がウェブページを検出し、クロールスケジュールを改善するのに役立ちます。サイトマップの詳細については、ウェブマスターヘルプセンターとサイトマッププロトコルの使用をご覧ください。より高度なサイトマップを作成したい場合は、http://www.sitemaps.org/protocol.php をご覧ください。

サイトマップの送信は、サイトに次のような内容がある場合に特に便利です。

動的コンテンツ
Googlebot（Google のウェブクローラー）が簡単に検出できないウェブページ（AJAX や Flash の豊富な機能を備えたページなど）
リンクしているウェブサイトはほとんどありません。
Googlebot は、あるページから別のページからリンクをたどることによってウェブをクロールします。そのため、サイトが適切にリンクされていないと、クローラーがサイトを発見することは困難です。ウェブサイトが新しい場合、そのサイトを参照しているウェブサイトは多くないでしょう。
相互リンクの強固なネットワークが存在しない、大量のコンテンツページのアーカイブ

Google は、アクセス可能なページのみをインデックスに登録できます。そのため、ウェブページで robots.txt ファイルや robots メタタグを使用している場合は、そのページでクローラがブロックされていないことを確認してください。

ページがクロールされてインデックスに登録されるまでには時間がかかるため、カバレッジは即座に改善されるわけではなく、ただし、ウェブページがインデックスに登録されると、Google 検索とプログラム可能検索エンジンの両方に表示される可能性があります。

トップへ戻る

アノテーションの制限

次の表に、プログラム可能検索エンジンにアップロードするアノテーションファイルの上限を示します。

注: 上限に厳密に従ってください。上限を超えると、検索エンジンに結果が表示されない場合があります。

Aspect	上限
ファイルサイズ（コンテキストファイルまたはアノテーションファイル）	30KB
検索エンジンごとのアノテーションの最大数	5,000 人ヒント: 検索エンジンがサイト数の上限（5,000 件）を超えている場合は、個々の URL を URL パターンに統合することを検討してください。

トップへ戻る

アノテーション: 検索するサイトの定義 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

概要

Programmable Search の XML 形式の使用

XML アノテーション

外部アノテーションを作成する

検索カバレッジの改善

アノテーションの制限

アノテーション: 検索するサイトの定義