注释功能:定义要搜索的网站

本页介绍了如何使用 XML 注释文件定义搜索引擎的覆盖范围。

  1. 概览
  2. 使用可编程搜索 XML 格式
  3. 提高搜索广告系列覆盖面
  4. 注释限制

概览

如果要构建大型搜索引擎,管理大量网站可能会很繁琐。相反,您可以通过在注释文件中列出并上传大量网站来添加和管理大量网站。此外,注释文件还能让您更好地控制搜索结果的排名。

注解文件只是注解列表。每个注释都包含两部分:网站及其关联的标签。此标签用于告知可编程搜索引擎如何处理某个网站;即,是否应包含、排除、提升或降级某个网站。在上下文文件中,您可以定义标签;在注释文件中,您可以使用适当的标签来标记网站。

当您开始修改注释文件时,请先从少量注释开始。添加一些注释,可以更轻松地测试和排查搜索引擎问题。当您获得预期结果时,请循序渐进地添加更多注释。

您可以将注释文件上传到控制台。要详细了解文件限制,请参阅注释限制部分。

返回页首

使用可编程搜索 XML 格式

如果您想利用可编程搜索引擎配置文件中的所有功能,XML 是理想之选。

XML 注解

以下是 XML 注解的一个示例。此注解文件会告知可编程搜索引擎包含 www.webmd.com/hw/* 下的所有内容,但排除 www.webmd.com/hw/cancer/* 下的所有内容。

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

注释文件包含以下层次结构中的四个元素:

  • Annotations (根元素)
    • Annotation
      • Label
      • Comment (可选)

返回页首

创建外部注解

要列出您希望搜索引擎覆盖的网站,请执行以下操作:

  1. <Annotations></Annotations> 根元素启动文件。
  2. 添加 <Annotation></Annotation> 标记以创建注释,然后使用网站的网址格式定义 about 属性。
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. 使用 <Label name=" "/> 标记将该网站与搜索引擎相关联,并指定搜索引擎应如何处理该网站。您可以从搜索引擎的上下文文件中获取搜索引擎的标签。您会看到两个标签:一个用于将网站添加到您的可编程搜索引擎,另一个用于将网站从可编程搜索引擎中排除。如果您未在上下文文件中更改搜索引擎标签的名称,则用于添加网站的标签的格式为 _include_,用于排除网站的标签的格式为 _exclude_。为避免出错,请复制并粘贴这些标签,而不要手动输入。
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    一个网站可关联多个标签

    如果您更改了上下文文件中标签的名称,请记得更新注解文件中的 Label name 值。

  4. 如需添加更多网站,请创建并定义另一个 Annotation 元素。
  5. 保存 XML 文件。

返回页首

提高搜索广告系列覆盖面

可编程搜索引擎建立在 Google 索引之上。这意味着 Google 索引中的网页可供您的搜索引擎访问;相反,尚未被 Google 抓取的网页将不会显示在您的搜索结果中。如果您希望可编程搜索引擎包含目前尚未编入 Google 索引的网站,请向 Google Search Console 提交站点地图。

站点地图包含网站中网页的列表,以及网页的更新频率及其相对重要性的信息。提交站点地图有助于 Google 发现您的网页并改善抓取时间表。要了解有关站点地图的详情,请参阅网站站长帮助中心使用站点地图协议。如果您有兴趣构建更精彩的站点地图,请访问 http://www.sitemaps.org/protocol.php

如果您的网站满足以下要求,那么提交站点地图会特别有用:

  • 动态内容
  • Googlebot(Google 的网页抓取工具)不易发现的网页,例如具有丰富的 AJAX 或 Flash 功能的网页
  • 链接到该网址的网站很少。

    Googlebot 通过跟踪从一个网页指向另一个网页的链接来抓取网页,因此,如果您的网站没有很好地链接,抓取工具就很难发现它。如果您的网站是新建的,指向您网站的网站可能并不多。

  • 大型内容页归档,没有强大的交叉链接网络

Google 只能将自己有权访问的网页编入索引。因此,如果您在网页中使用 robots.txt 文件或漫游器元标记,请确保这些网页不会阻止抓取工具进行抓取。

提高覆盖率并不是即时的,因为系统需要一些时间来抓取网页并将其编入索引。但是,将您的网页编入索引后,它们可能会同时出现在 Google 搜索和您的可编程搜索引擎中。

返回页首

注释限制

下表列出了上传到可编程搜索引擎的注释文件的限制:

注意:请严格遵守限制;如果您超出这些限制,搜索引擎可能无法显示结果。

宽高比 限值
文件大小(上下文或注释文件) 30KB
每个搜索引擎的注释数量上限 5000

提示:如果您发现搜索引擎超出了 5,000 个网站数量上限,请考虑将单个网址合并为网址格式

返回页首