使用配置文件创建可编程搜索引擎

本页介绍了可编程搜索引擎配置文件背后的基本概念。

  1. 概览
  2. 可编程搜索引擎包含哪些内容
  3. 组件如何协同工作
  4. 创建搜索引擎
  5. 修改可编程搜索引擎文件
  6. 选择合适的广告格式

概览

如果控制台未提供您所需的自定义级别,请考虑使用可编程搜索 XML 格式,该格式可让您获得更多的控制权、更高的灵活性和更强大的功能。

要使用可编程搜索引擎配置文件,请先使用可编程搜索引擎控制台创建一个基本搜索引擎。创建搜索引擎后,您可以从控制台的概述页下载注释和上下文 XML 文件。

XML 基础知识

可扩展标记语言 (XML) 是一种通用标记语言。它是带有标签的文本,您可以阅读。例如,可编程搜索 XML 格式包含以下标记:<Context> </Context><LookAndFeel> </LookAndFeel>

与任何 XML 文件一样,您的可编程搜索引擎规范必须遵循 XML 语法 (<element attribute="value">content</element>) 且必须采用正确的格式。XML 具有以下规则:

  • XML 要求您在顶级标记前面添加 XML 声明 (<?xml version="1.0"?>),但可编程搜索引擎配置文件不要求这样做。
  • 您的所有元素都必须有一个起始标记 (<tag>) 和一个结束标记 (</tag>)。
  • 所有代码都必须正确嵌套。您不能使用如下所示的 XML 代码:<sandwich><filling> peanut butter</sandwich></filling>。而是应类似于 <sandwich><filling> peanut butter</filling></sandwich>
  • XML 区分大小写,因此,请严格遵守说明中标记的大小写和拼写要求。
  • 所有属性值都必须用双引号 (<element attribute="value">) 括起来。
  • 所有属性都必须在起始标记 (<element attribute="value">) 中定义,而不是在结束标记 ( </element>) 中定义。

您可以使用注释标记 (<!-- your comment here -->) 自行撰写备注,而可编程搜索引擎不会将相应文本行解析为 XML 代码。除了撰写提醒或说明之外,您还可以使用注释来暂时使某些 XML 代码不再使用(可能是因为您想要试验某些效果或想要排查问题)。但是,这些注释不会保留在您从控制台下载的文件中。如果您希望保留评论,即使在将评论的 XML 文件上传到控制台之后,也应保留这些文件的副本。

您可以使用简单的文本编辑器来创建和编辑 XML 文件。只需以文件扩展名 .xml 保存文本文件(例如 cse_badminton.xml)即可。

返回页首

可编程搜索引擎简介

可编程搜索引擎有两个主要组件,每个组件都由一个 XML 文件控制:

  • 上下文:上下文 XML 文件描述了搜索引擎的基本功能。它用于指定搜索引擎的全局设置,例如是否启用图片搜索或置顶结果。每个搜索引擎都有自己的上下文文件。详细了解上下文 XML 文件。如需详细了解如何为您的搜索引擎选择最合适的文件格式,请参阅为搜索引擎选择正确的文件格式
  • 注释:注释 XML 文件会列出您希望搜索引擎涵盖的网页或网站,并指示您希望如何在搜索结果中对这些网站排名的所有偏好设置。每个网站及其相关信息称为“注释”。详细了解注解 XML 文件。

我们不建议您从头开始创建上述任一文件。而应从控制台的概览页下载这些配置文件。

除了这些主要组件之外,搜索引擎还可以包含以下辅助文件:

  • 置顶:置顶 XML 文件会列出一系列由一组预定义的查询字词触发的自定义结果。如果用户输入的搜索内容与您的某个查询字词完全匹配,宣传广告就会显示在页面顶部。您可以使用宣传内容直接回答用户的查询,引导他们查看重要信息,或者将他们引导至不在搜索结果页顶部但与用户密切相关的网页。在控制台中,推广活动在推广活动标签中进行定义。详细了解促销活动
  • 同义词:同义词 XML 文件会扩展用户的查询,以包含搜索字词的变体。例如,如果用户搜索“simian”,则搜索引擎也会搜索“monkey”和“ape”。在控制台中,同义词通过同义词标签进行定义。详细了解同义词。

组件如何协同工作

上下文 XML 文件未指定要使用的注解文件,并且注解 XML 不引用上下文文件。可编程搜索引擎使用标签来关联上下文和注解。上下文 XML 文件包含用于标识搜索引擎的标签,并且注释 XML 中列出的每个注释都使用一个或多个标签进行标记,这些标签用于标识其所属的搜索引擎。如果您在上下文文件中更改标签名称,则必须更改所有以该标签标记过的注释。

虽然您可以上传多个注释文件,但当您通过控制台下载这些文件时,可编程搜索引擎会将您的所有注释文件合并为一个注释文件。利用注释文件,您可以灵活地针对各种搜索引擎自定义同一网站。例如,一个搜索引擎可以将搜索范围限制到某些网站,另一个搜索引擎可以排除这些网站,而另一个搜索引擎可以宣传这些网站。

context.xml

以下是 context.xml 文件的示例,其中包含标识了该文件所应用的搜索引擎的标签:

<BackgroundLabels>
  <Label name="_include_" mode="FILTER"/>
  <Label name="_exclude_" mode="ELIMINATE"/>
<BackgroundLabels>

annotations.xml

下面是一个注释文件示例,显示了每个网站(注释)如何与标签关联:

<Annotation about="code.google.com/*" score="1">
  <Label name="_include_"/>
</Annotation>

返回页首

创建高级可编程搜索引擎

创建高级引擎涉及以下步骤:

  1. 确定适合您需求的格式
  2. 为您的搜索引擎定义规范
  3. 告知可编程搜索引擎要搜索哪些网站
  4. 告知可编程搜索引擎如何对搜索结果进行排名

修改可编程搜索引擎文件

要处理 XML 文件,请从控制台的概览页下载 XML 规范。无需从头开始创建文件。执行以下操作:

  1. 从控制台的概览页下载上下文文件或注释文件。点击搜索功能部分中的下载按钮。
  2. 使用可处理 UNIX 样式行尾的文本编辑器(WordPad、Emacs 和 TextMate 可正常使用;NotePad 不行)。您可以随意命名文件,只需使用文件扩展名 .xml(例如 cx_global.xml)保存即可
  3. 为已下载的文件创建备份,以防修改后的版本无法正常运行,并且必须恢复到之前的版本。

    如果您没有制作副本,而修改的版本也无法正常工作,则您需要调试您的文件或重新重新创建搜索引擎。没意思。

  4. 编辑并保存 XML 文件。确保您的文本编辑器将文件另存为 Unicode 文本文档,而不是某种其他文件格式。
  5. 概览页的搜索功能部分下上传文件。

选择合适的广告格式

在开始创建可编程搜索引擎之前,请确定哪种格式最适合您的需求。您一定不想选择功能更强大、比您需要的格式更复杂,也不希望使用那些很快就消失不见的格式。

使用下表选择适当的格式。

创建 使用 因为 限制 更多信息
拥有少量网站的一个或多个搜索引擎 控制台 通过填写文本框,您可以快速创建可编程搜索引擎,而无需使用文本编辑器创建文件并上传文件。 控制面板主要适用于熟悉可编程搜索引擎和创建只有少数网站的搜索引擎。 使用入门
使用大量网站的复杂搜索引擎使用 Feed 上下文文件和注解文件

可编程搜索引擎文件可以让您更好地控制自己的搜索引擎,并简化网站定义和管理任务。

即使您计划使用上下文和注释文件创建搜索引擎,也最好熟悉一下控制台。

您对搜索引擎的自定义程度越高,它就会变得越复杂。您必须学习可编程搜索元素和属性,它们并不难上手,但需要您投入一些时间。

很遗憾,您必须阅读开发者指南的其余部分,这并不是最精彩的阅读材料。

上下文:定义搜索引擎规范注释:选择网站

返回页首