アノテーション: 検索するサイトの定義
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
このページでは、XML アノテーション ファイルを使用して検索エンジンの適用範囲を定義する方法について説明します。
- 概要
- Programmable Search の XML 形式の使用
- 検索カバレッジの改善
- アノテーションに関する制限事項
概要
大規模な検索エンジンを構築する場合は、大量のサイトを管理するのは面倒な場合があります。代わりに、多数のサイトをまとめてアノテーション ファイルに記述し、アップロードすることで追加、管理できます。また、アノテーション ファイルを使用すると、検索結果のランキングをより詳細に制御できます。
アノテーション ファイルは、アノテーションのリストです。各アノテーションには、サイトとそれに関連するラベルという 2 つのコンポーネントがあります。このラベルは、プログラム可能検索エンジンにサイトの処理方法を指示します。つまり、サイトを追加、除外、昇格、降格のいずれにするかを指定します。コンテキスト ファイルでは、ラベルを定義します。アノテーション ファイルで、サイトに適切なラベルのタグを付けます。
アノテーション ファイルの編集を開始する際に、まずは少数のアノテーションから始めます。少数のアノテーションを使用すると、検索エンジンのテストやトラブルシューティングが容易になります。期待どおりの結果が得られたら、徐々にアノテーションを追加します。
コントロール パネルにアノテーション ファイルをアップロードできます。ファイルの制限について詳しくは、アノテーションの制限のセクションをご覧ください。
トップへ戻る
プログラム可能検索エンジンの設定ファイルにあるすべての機能を利用するには、XML を使用するのがよいでしょう。
XML アノテーション
XML アノテーションの例を次に示します。このアノテーション ファイルは、www.webmd.com/hw/* 以下のすべての項目を含め、www.webmd.com/hw/cancer/* 以下の項目をすべて除外するようにプログラム可能検索エンジンに指示します。
<Annotations>
<Annotation about="www.cancer.gov/cancertopics/types/liver/*">
<Label name="_include_"/>
<Comment>government site</Comment>
</Annotation>
<Annotation about="www.medicinenet.com/liver_cancer/">
<Label name="_exclude_"/>
<Comment>site on symptoms</Comment>
</Annotation>
<Annotation about="www.webmd.com/hw/*">
<Label name="_include_"/>
<Comment>great sites for patients!</Comment>
</Annotation>
<Annotation about="www.webmd.com/hw/cancer/*">
<Label name="_exclude_"/>
<Comment>great sites for patients!</Comment>
</Annotation>
<Annotation about="www.oncologychannel.com/*/treatment">
<Label name="_exclude_"/>
</Annotation>
</Annotations>
アノテーション ファイルには、次の階層の 4 つの要素があります。
-
Annotations
(ルート要素)
<ph type="x-smartling-placeholder">
トップへ戻る
外部アノテーションを作成する
検索エンジンの対象とするサイトのリストを表示する手順は次のとおりです。
<Annotations></Annotations>
ルート要素からファイルを開始します。
<Annotation></Annotation>
タグを追加してアノテーションを作成し、サイトの URL パターンを使用して about
属性を定義します。
<Annotations>
<Annotation about="www.webmd.com/hw/cancer/*">
</Annotation>
</Annotations>
<Label name=" "/>
タグを使用してサイトを検索エンジンに関連付け、検索エンジンでのサイトの処理方法を指定します。検索エンジンのラベルは、検索エンジンのコンテキスト ファイルから取得できます。プログラム可能検索エンジンにサイトを追加するためのラベルと、プログラム可能検索エンジンからサイトを除外するためのラベルが表示されます。コンテキスト ファイルの検索エンジン ラベルの名前を変更していない場合、サイトを含める場合は _include_
、サイトを除外するラベルは _exclude_
の形式になります。エラーを防ぐには、これらのラベルを手作業で入力するのではなく、コピーして貼り付けてください。
<Annotations>
<Annotation about="http://www.solarenergy.org/*">
<Label name="_include_"/>
</Annotation>
</Annotations>
1 つのサイトに複数のラベルを関連付けることも
コンテキスト ファイルでラベルの名前を変更した場合は、アノテーション ファイル内の Label name
値を忘れずに更新してください。
- サイトを追加するには、別の
Annotation
要素を作成して定義します。
- XML ファイルを保存します。
トップへ戻る
検索カバレッジの改善
プログラム可能検索エンジンは Google インデックスを基に構築されています。つまり、Google インデックスに登録されているウェブページを検索エンジンが認識できるということです。逆に、Google がクロールしていないウェブページは検索結果に表示されません。現在 Google インデックスに登録されていないサイトをプログラム可能検索エンジンに含めるには、Google Search Console にサイトマップを送信します。
サイトマップには、サイト内のページのリストのほか、ウェブページの更新頻度と相対的な重要度に関する情報が含まれます。サイトマップを送信すると、Google がウェブページを検出し、クロール スケジュールを改善するのに役立ちます。サイトマップの詳細については、ウェブマスター ヘルプセンターとサイトマップ プロトコルの使用をご覧ください。より高度なサイトマップを作成したい場合は、http://www.sitemaps.org/protocol.php をご覧ください。
サイトマップの送信は、サイトに次のような内容がある場合に特に便利です。
Google は、アクセス可能なページのみをインデックスに登録できます。そのため、ウェブページで robots.txt ファイルや robots メタタグを使用している場合は、そのページでクローラがブロックされていないことを確認してください。
ページがクロールされてインデックスに登録されるまでには時間がかかるため、カバレッジは即座に改善されるわけではなく、ただし、ウェブページがインデックスに登録されると、Google 検索とプログラム可能検索エンジンの両方に表示される可能性があります。
トップへ戻る
アノテーションの制限
次の表に、プログラム可能検索エンジンにアップロードするアノテーション ファイルの上限を示します。
注: 上限に厳密に従ってください。上限を超えると、検索エンジンに結果が表示されない場合があります。
Aspect |
上限 |
ファイルサイズ(コンテキスト ファイルまたはアノテーション ファイル) |
30KB |
検索エンジンごとのアノテーションの最大数 |
5,000 人
ヒント: 検索エンジンがサイト数の上限(5,000 件)を超えている場合は、個々の URL を URL パターンに統合することを検討してください。 |
トップへ戻る
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-07-25 UTC。
[null,null,["最終更新日 2025-07-25 UTC。"],[[["\u003cp\u003eDefine your Programmable Search Engine's coverage using an XML annotations file to manage large site collections and fine-tune search result rankings.\u003c/p\u003e\n"],["\u003cp\u003eAnnotations files use labels to include, exclude, promote, or demote sites within your search engine, providing granular control over search results.\u003c/p\u003e\n"],["\u003cp\u003eUtilize XML annotations to specify URL patterns and associate them with labels, enabling precise control over site inclusion and exclusion.\u003c/p\u003e\n"],["\u003cp\u003eImprove search coverage by submitting a Sitemap to Google Search Console, ensuring your site's pages are indexed and available in your search engine.\u003c/p\u003e\n"],["\u003cp\u003eAdhere to the annotations file size and maximum annotation limits to ensure optimal search engine performance.\u003c/p\u003e\n"]]],[],null,["# Annotations: Defining Sites to Search\n\nThis page describes how to define the coverage of your search engine using a XML annotations file.\n\n1. [Overview](#overview)\n2. [Using the Programmable Search XML Format](#xml)\n3. [Improving Search Coverage](#sitemaps)\n4. [Annotations Limits](#limits)\n\nOverview\n--------\n\nManaging a large collection of sites can be tedious if you're building a large search engine. Instead, you can add and manage a lot of sites by listing them in an annotations file and uploading it. In addition, annotations files give you far greater control over the ranking of search results.\n\nAn annotations file is simply a list of annotations. Each annotation has two components: the site and its associated labels. The label tells Programmable Search Engine how to handle a site; that is, whether a site should be included, excluded, promoted, or demoted. In the [context file](/custom-search/docs/context), you define labels; in the annotations file, you tag sites with the appropriate labels.\n\nWhen you start editing your annotations file, start out with a small number of annotations. It's easier to test and troubleshoot your search engine with a handful of annotations. When you get the results that you expect, incrementally add more annotations.\n\nYou can [upload the annotations file](/custom-search/docs/basics#edit) to the Control Panel. For details about file limits, see the [Annotations Limits](#limits) section.\n\n[Back to top](#top)\n\nUsing the Programmable Search XML Format\n----------------------------------------\n\nIf you want to take advantage of all the features available in the Programmable Search Engine configuration file, XML is the way to go.\n\n\n### XML Annotations\n\nThe following is an example of XML annotations. This annotations file tells Programmable Search Engine to include everything under www.webmd.com/hw/\\* but exclude everything under www.webmd.com/hw/cancer/\\*. \n\n```carbon\n\u003cAnnotations\u003e\n \u003cAnnotation about=\"www.cancer.gov/cancertopics/types/liver/*\"\u003e\n \u003cLabel name=\"_include_\"/\u003e\n \u003cComment\u003egovernment site\u003c/Comment\u003e\n \u003c/Annotation\u003e\n \u003cAnnotation about=\"www.medicinenet.com/liver_cancer/\"\u003e\n \u003cLabel name=\"_exclude_\"/\u003e\n \u003cComment\u003esite on symptoms\u003c/Comment\u003e\n \u003c/Annotation\u003e\n \u003cAnnotation about=\"www.webmd.com/hw/*\"\u003e\n \u003cLabel name=\"_include_\"/\u003e\n \u003cComment\u003egreat sites for patients!\u003c/Comment\u003e\n \u003c/Annotation\u003e\n \u003cAnnotation about=\"www.webmd.com/hw/cancer/*\"\u003e\n \u003cLabel name=\"_exclude_\"/\u003e\n \u003cComment\u003egreat sites for patients!\u003c/Comment\u003e\n \u003c/Annotation\u003e\n \u003cAnnotation about=\"www.oncologychannel.com/*/treatment\"\u003e\n \u003cLabel name=\"_exclude_\"/\u003e\n \u003c/Annotation\u003e\n\u003c/Annotations\u003e\n```\n\nThe annotations file has four elements in the following hierarchy:\n\n- `Annotations` *(root element)*\n - `Annotation`\n - `Label`\n - `Comment` *(optional)*\n\n[Back to top](#top)\n\n### Creating External Annotations\n\nTo list sites you want your search engine to cover, do the the following:\n\n1. Start the file with the `\u003cAnnotations\u003e\u003c/Annotations\u003e` root element.\n2. Create an annotation by adding the `\u003cAnnotation\u003e\u003c/Annotation\u003e` tags, and then define the `about` attribute with the URL pattern of the site. \n\n ```scdoc\n \u003cAnnotations\u003e\n \u003cAnnotation about=\"www.webmd.com/hw/cancer/*\"\u003e\n \u003c/Annotation\u003e\n \u003c/Annotations\u003e\n ```\n3. Associate the site with the search engine by using the `\u003cLabel name=\" \"/\u003e` tag, and specify how that site should be treated by the search engine. You can get the labels for your search engine from the Context file of the search engine. You'll find two labels: one for adding sites to your Programmable Search Engine and one for excluding sites from it. If you have not changed the name of the search engine label in the context file, the label for including sites is in the form of `_include_`, and the label for excluding sites is in the form of `_exclude_`. To avoid errors, copy and paste these labels instead of typing them by hand. \n\n ```scdoc\n \u003cAnnotations\u003e\n \u003cAnnotation about=\"http://www.solarenergy.org/*\"\u003e\n \u003cLabel name=\"_include_\"/\u003e\n \u003c/Annotation\u003e\n \u003c/Annotations\u003e\n ```\n\n A single site can have multiple labels associated with it,\n\n If you have changed the name of the label in the context file, remember to update the `Label name` values in your annotation file.\n4. To add more sites, create and define another `Annotation` element.\n5. Save the XML file.\n\n[Back to top](#top)\n\nImproving Search Coverage\n-------------------------\n\nProgrammable Search Engine is built on top of the Google index. This means that webpages that are in the Google index are available to your search engine; conversely, webpages that have not been crawled by Google will not show up in your search results. If you want your Programmable Search Engine to include sites that are not currently in the Google index, submit a Sitemap to [Google Search Console](https://www.google.com/webmasters/tools/dashboard).\n\nA Sitemap includes a list of pages in your site, as well as information about the update frequency of the webpages and their importance relative to each other. Submitting a Sitemap helps Google discover your webpages and improve the crawling schedule. To learn more about Sitemaps, see the [Webmaster Help Center](http://www.google.com/support/webmasters/bin/answer.py?answer=40318&query=sitemap&topic=&type=) and [Using the Sitemap Protocol](https://www.google.com/webmasters/tools/docs/en/protocol.html). If you are interested in building fancier Sitemaps, see \u003chttp://www.sitemaps.org/protocol.php\u003e.\n\nSubmitting Sitemaps is particularly helpful if your site has the following:\n\n- Dynamic content\n- Webpages that aren't easily discovered by Googlebot (Google's web crawler), such as pages with rich AJAX or Flash features\n- Few websites linking to it. Googlebot crawls the web by following links from one page to another, so if your site isn't well linked, it is hard for the crawler to discover it. If your website is new, probably not many websites are pointing to your site.\n\n- A large archive of content pages that does not have a strong network of cross-linking\n\nGoogle can index only pages it can access. So, if you use [robots.txt](/webmasters/control-crawl-index/docs/robots_txt) file or [robots meta tags](http://www.google.com/support/webmasters/bin/answer.py?answer=79812) in your webpages, make sure those pages don't block crawlers.\n\nImproved coverage is not instantaneous, as it takes some time for the pages to be crawled and indexed. But once your webpages are in the index, they could appear in both Google search and your Programmable Search Engine.\n\n[Back to top](#top)\n\nAnnotations Limits\n------------------\n\nThe following table lists the limits for annotations files that are uploaded to Programmable Search Engine:\n\n**Note:** Follow the limits closely; if you exceed them, your search engine might not show results.\n\n| Aspect | Limit |\n|-------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| File size (context or annotations files) | 30KB |\n| Maximum number of annotations per search engine | 5,000 **Tip:** If you find your search engine outgrowing the large 5,000-site limit, consider consolidating individual URLs into [URL patterns](https://support.google.com/programmable-search/answer/4513886). |\n\n[Back to top](#top)"]]