使用配置文件创建可编程搜索引擎

本页面介绍了可编程搜索引擎配置文件背后的基本概念。

  1. 概览
  2. 可编程搜索引擎中包含什么
  3. 组件如何协同工作
  4. 创建搜索引擎
  5. 修改可编程搜索引擎文件
  6. 选择合适的广告格式

概览

如果控制台无法提供您所需要的自定义级别,请考虑使用可编程搜索 XML 格式,该格式赋予您更大的控制力、灵活性,并让您使用更强大的功能。

要使用可编程搜索引擎配置文件,请先使用可编程搜索引擎控制面板创建一个基本搜索引擎。创建搜索引擎后,您可以从控制台的概览页下载您的注释和上下文 XML 文件。

XML 基础知识

可扩展标记语言 (XML) 是一种通用标记语言。它是包含标签的文本,您可以阅读。例如,可编程搜索 XML 格式包含以下标记:<Context> </Context><LookAndFeel> </LookAndFeel>

与任何 XML 文件一样,可编程搜索引擎规范必须符合 XML 语法 (<element attribute="value">content</element>) 且格式正确。XML 具有以下规则:

  • XML 要求您在顶级标记之前添加 XML 声明 (<?xml version="1.0"?>),但可编程搜索引擎配置文件没有此要求。
  • 所有元素都必须有一个起始标记 (<tag>) 和一个结束标记 (</tag>)。
  • 所有代码都必须正确嵌套。XML 代码不能如下所示:<sandwich><filling> peanut butter</sandwich></filling>。相反,它应如下所示:<sandwich><filling> peanut butter</filling></sandwich>
  • XML 区分大小写,因此,请仔细遵循说明中标记的大小写和拼写。
  • 所有属性值都必须括在英文双引号 (<element attribute="value">) 中。
  • 所有属性都必须在起始标记 (<element attribute="value">) 而非结束标记 ( </element>) 中定义。

您可以使用注释标记 (<!-- your comment here -->) 为自己撰写备注,但可编程搜索引擎不会将该行文本解析为 XML 代码。除了撰写提醒或说明外,您还可以使用注释暂时不让某些 XML 代码(可能是因为您想要试验某些效果或想要排查问题)。但是,这些注释不会保留在您从控制台下载的文件中。如果您想保留评论,则应该保留一份副本,即使您已将评论过的 XML 文件上传至控制台。

您可以使用简单的文本编辑器来创建和编辑 XML 文件。只需以文件扩展名 .xml 的形式保存文本文件(例如 cse_badminton.xml)即可。

返回页首

可编程搜索引擎中包含哪些功能

可编程搜索引擎有两个主要组件,每个组件都由 XML 文件控制:

  • 上下文:上下文 XML 文件描述了搜索引擎的基本功能。它指定了搜索引擎的全局设置,例如是否启用图片搜索或宣传。每个搜索引擎都有自己的上下文文件。详细了解上下文 XML 文件。若要详细了解如何为您的搜索引擎选择最合适的文件格式,请参阅为您的搜索引擎选择正确的格式
  • 注释:注释 XML 文件会列出您希望搜索引擎涵盖的网页或网站,并指明您对网站在搜索结果中的排名方式有何偏好。每个网站及其相关信息都称为一个“注释”。详细了解注解 XML 文件。

我们不建议您从头开始创建这些文件。请改为从控制台的概览页面下载这些文件。

除了这些主要组件之外,搜索引擎还可以提供以下辅助文件:

  • 促销活动:促销活动 XML 文件会列出一系列由一组预定义的查询字词触发的自定义结果。如果用户输入的搜索内容与您的某个查询字词完全匹配,宣传就会显示在页面顶部。您可以使用促销信息直接回答用户的查询,将他们引导至重要信息,或将用户引至未在结果页顶部显示但仍具有高度相关性的网页。在控制台中,促销活动是在促销活动标签页中定义的。详细了解促销活动。
  • 同义词:同义词 XML 文件可扩展用户的查询,以包含搜索字词的变体。例如,如果您的用户搜索“simian”搜索引擎还会搜索“monkey”和“猿”之类的文字在控制台中,同义词在同义词标签页中定义。详细了解同义词。

组件如何协同工作

上下文 XML 文件未指定要使用的注解文件,且注解 XML 未引用上下文文件。可编程搜索引擎使用标签来关联上下文和注释。上下文 XML 文件包含用于标识搜索引擎的标签,注释 XML 中列出的每个注释都使用一个或多个标签进行标记,这些标签用于标识它所属的搜索引擎。如果您在上下文文件中更改标签的名称,则必须更改已使用相应标签标记的所有注释。

虽然您可以上传多个批注文件,但当您通过控制面板下载这些文件时,可编程搜索引擎会把您的所有批注文件合并成一个批注文件。批注文件可让您灵活地为不同的搜索引擎自定义同一网站。例如,一个搜索引擎可以将其搜索范围限制在一些网站上,另一个搜索引擎可以排除这些网站,还有另一个搜索引擎可以宣传这些网站。

context.xml

下面是一个 context.xml 文件示例,其中包含用于标识应用的搜索引擎的标签:

<BackgroundLabels>
  <Label name="_include_" mode="FILTER"/>
  <Label name="_exclude_" mode="ELIMINATE"/>
<BackgroundLabels>

annotations.xml

以下注释文件示例展示了每个网站(注释)如何与标签相关联:

<Annotation about="code.google.com/*" score="1">
  <Label name="_include_"/>
</Annotation>

返回页首

创建高级可编程搜索引擎

创建高级引擎涉及以下步骤:

  1. 确定适合您需求的格式
  2. 为您的搜索引擎定义规范
  3. 指示可编程搜索引擎搜索哪些网站
  4. 告诉可编程搜索引擎如何对搜索结果进行排名

修改可编程搜索引擎文件

要使用 XML 文件,请从控制台的概览页下载 XML 规范。无需从头开始创建文件。执行以下操作:

  1. 从控制台的概览页下载上下文文件或注释文件。点击搜索功能部分中的下载按钮。
  2. 使用可以处理 UNIX 样式的行结尾的文本编辑器(写字板、Emacs 和 TextMate 有效,NotePad 则不行)。您可以随意为文件命名,只要使用文件扩展名 .xml(例如 cx_global.xml)保存文件即可。
  3. 为所下载的文件创建备份副本,以防修改后的版本无法按预期运行,而您必须还原到先前的版本。

    如果您没有创建副本,而您修改的版本不能正常工作,则需要调试文件或重新重新创建您的搜索引擎。没意思。

  4. 修改并保存该 XML 文件。请确保文本编辑器将文件保存为 Unicode 文本文档,而不是某种其他文件格式。
  5. 概览页面的搜索功能部分下上传文件。

选择合适的广告格式

在开始创建可编程搜索引擎之前,请先确定哪种格式最符合您的需求。您不想选择比实际需求更强大、更复杂的格式,也不希望使用会很快无法发展的格式。

请使用下表选择适当的格式。

要创建 使用 因为 限制 更多信息
一个或几个网站较少的搜索引擎 控制台 通过填写文本框,您可以快速创建可编程搜索引擎,而无需使用文本编辑器创建文件并上传文件。 控制面板主要用于:熟悉可编程搜索引擎以及创建只有少数网站的搜索引擎。 使用入门
使用大量网站、使用 Feed 的复杂搜索引擎 上下文文件和注解文件

可编程搜索引擎文件可让您更好地控制搜索引擎,并大大简化网站定义和管理任务。

即使您计划使用上下文和注释文件创建搜索引擎,您还是最好熟悉一下控制台。

您自定义的搜索引擎越多,它就越复杂。你必须学习可编程搜索元素和属性,虽然学起来不难,但确实需要你花一些时间。

您必须阅读开发者指南的其余部分,但遗憾的是,这并不是最精彩的阅读材料。

上下文:定义搜索引擎规范注释:选择网站

返回页首