注释功能:定义要搜索的网站

本页介绍如何使用 XML 注释文件定义搜索引擎的覆盖范围。

  1. 概览
  2. 使用可编程搜索 XML 格式
  3. 提高搜索广告系列覆盖面
  4. 注解限制

概览

如果要构建大型搜索引擎,管理大量网站可能会很繁琐。不过,您可以通过在注释文件中列出并上传大量网站来添加和管理大量网站。此外,注释文件可让您更好地控制搜索结果的排名。

注解文件就是一个注解列表。每个注释都包含两个部分:网站及其关联的标签。该标签会告知可编程搜索引擎如何处理网站;即:是应包含、排除、升级还是将某个网站降位。在上下文文件中,您可以定义标签;,您就可以使用适当的标签标记网站。

开始修改注释文件时,请先添加少量注释。使用一些注释,可以更轻松地测试您的搜索引擎并进行问题排查。获得预期结果后,逐步添加更多注解。

您可以将注释文件上传到控制台。如需详细了解文件限制,请参阅注解限制部分。

返回页首

使用可编程搜索 XML 格式

如果您想利用可编程搜索引擎配置文件中的所有功能,则最好使用 XML。

XML 注解

以下是 XML 注解的一个示例。此注解文件会指示可编程搜索引擎包含 www.webmd.com/hw/* 下的所有内容,但排除 www.webmd.com/hw/cancer/* 下的所有内容。

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

注解文件具有以下层次结构中的四个元素:

  • Annotations (根元素)
    • Annotation
      • Label
      • Comment (选填)

返回页首

创建外部注释

如需列出您希望搜索引擎涵盖的网站,请执行以下操作:

  1. 文件应以 <Annotations></Annotations> 根元素开头。
  2. 通过添加 <Annotation></Annotation> 标记来创建注释,然后使用网站的网址格式定义 about 属性。
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. 使用 <Label name=" "/> 标记将网站与搜索引擎相关联,并指定搜索引擎应如何处理该网站。您可以从相应搜索引擎的上下文文件中获取该搜索引擎的标签。您会看到两个标签:一个用于向可编程搜索引擎添加网站,另一个用于从可编程搜索引擎中排除网站。如果您尚未更改上下文文件中搜索引擎标签的名称,则用于包含网站的标签为 _include_,用于排除网站的标签为 _exclude_。为避免错误,请复制并粘贴这些标签,而不是手动输入。
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    一个网站可以关联多个标签

    如果您在上下文文件中更改了标签的名称,请记得更新注解文件中的 Label name 值。

  4. 如需添加更多网站,请创建并定义另一个 Annotation 元素。
  5. 保存 XML 文件。

返回页首

提高搜索广告系列覆盖面

可编程搜索引擎建立在 Google 索引之上。这意味着您的搜索引擎可以访问 Google 索引中的网页;反之,Google 未抓取的网页不会显示在您的搜索结果中。如果您想在可编程搜索引擎中加入目前不在 Google 索引中的网站,请向 Google Search Console 提交站点地图。

站点地图包含您网站中网页的列表,以及网页的更新频率及其相对重要性的相关信息。提交站点地图有助于 Google 发现您的网页并改进抓取时间表。要了解有关站点地图的详情,请访问网站站长帮助中心使用站点地图协议。如果您想创建更精美的站点地图,请访问 http://www.sitemaps.org/protocol.php

如果您的网站具备以下条件,提交站点地图尤其有用:

  • 动态内容
  • Googlebot(Google 的网页抓取工具)不易发现的网页,例如具有丰富的 AJAX 或 Flash 功能的网页
  • 只有少数网站链接到该网址。

    Googlebot 通过跟踪网页间的链接抓取网页,因此,如果您的网站没有很好地链接,抓取工具就很难发现它。如果您的网站是新网站,可能没有多少网站指向您的网站。

  • 大量内容页归档,但没有强大的交叉链接网络

Google 只能将自己可以访问的网页编入索引。因此,如果您在网页中使用 robots.txt 文件或漫游器元标记,请确保这些网页不会阻止抓取工具。

覆盖面的扩大并非即时生效,因为 Google 需要一段时间才能抓取相应网页并将其编入索引。但是,在将您的网页编入索引后,它们可能会同时显示在 Google 搜索和您的可编程搜索引擎中。

返回页首

注解限制

下表列出了上传到可编程搜索引擎的注释文件的限制:

注意:请严格遵守这些限制;如果超出这些限值,您的搜索引擎可能就不会显示结果。

方面 限制
文件大小(上下文或注解文件) 30KB
每个搜索引擎的注释数量上限 5,000 次

提示:如果您发现自己所用的搜索引擎超过了网站数量上限 5,000 个,请考虑将单个网址整合到网址格式中。

返回页首