本页面介绍了可编程搜索引擎配置文件背后的基本概念。
概览
如果控制台无法提供您所需要的自定义级别,请考虑使用可编程搜索 XML 格式,该格式赋予您更大的控制力、灵活性,并让您使用更强大的功能。
要使用可编程搜索引擎配置文件,请先使用可编程搜索引擎控制面板创建一个基本搜索引擎。创建搜索引擎后,您可以从控制台的概览页下载您的注释和上下文 XML 文件。
XML 基础知识
可扩展标记语言 (XML) 是一种通用标记语言。它是包含标签的文本,您可以阅读。例如,可编程搜索 XML 格式包含以下标记:<Context> </Context>
和 <LookAndFeel> </LookAndFeel>
。
与任何 XML 文件一样,可编程搜索引擎规范必须符合 XML 语法 (<element attribute="value">content</element>
) 且格式正确。XML 具有以下规则:
- XML 要求您在顶级标记之前添加 XML 声明 (
<?xml version="1.0"?>
),但可编程搜索引擎配置文件没有此要求。 - 所有元素都必须有一个起始标记 (
<tag>
) 和一个结束标记 (</tag>
)。 - 所有代码都必须正确嵌套。XML 代码不能如下所示:
<sandwich><filling> peanut butter</sandwich></filling>
。相反,它应如下所示:<sandwich><filling> peanut butter</filling></sandwich>
。 - XML 区分大小写,因此,请仔细遵循说明中标记的大小写和拼写。
- 所有属性值都必须括在英文双引号 (
<element attribute="value">
) 中。 - 所有属性都必须在起始标记 (
<element attribute="value">
) 而非结束标记 (</element>
) 中定义。
您可以使用注释标记 (<!-- your comment here -->
) 为自己撰写备注,但可编程搜索引擎不会将该行文本解析为 XML 代码。除了撰写提醒或说明外,您还可以使用注释暂时不让某些 XML 代码(可能是因为您想要试验某些效果或想要排查问题)。但是,这些注释不会保留在您从控制台下载的文件中。如果您想保留评论,则应该保留一份副本,即使您已将评论过的 XML 文件上传至控制台。
您可以使用简单的文本编辑器来创建和编辑 XML 文件。只需以文件扩展名 .xml
的形式保存文本文件(例如 cse_badminton.xml
)即可。
可编程搜索引擎中包含哪些功能
可编程搜索引擎有两个主要组件,每个组件都由 XML 文件控制:
- 上下文:上下文 XML 文件描述了搜索引擎的基本功能。它指定了搜索引擎的全局设置,例如是否启用图片搜索或宣传。每个搜索引擎都有自己的上下文文件。详细了解上下文 XML 文件。若要详细了解如何为您的搜索引擎选择最合适的文件格式,请参阅为您的搜索引擎选择正确的格式。
- 注释:注释 XML 文件会列出您希望搜索引擎涵盖的网页或网站,并指明您对网站在搜索结果中的排名方式有何偏好。每个网站及其相关信息都称为一个“注释”。详细了解注解 XML 文件。
我们不建议您从头开始创建这些文件。请改为从控制台的概览页面下载这些文件。
除了这些主要组件之外,搜索引擎还可以提供以下辅助文件:
- 促销活动:促销活动 XML 文件会列出一系列由一组预定义的查询字词触发的自定义结果。如果用户输入的搜索内容与您的某个查询字词完全匹配,宣传就会显示在页面顶部。您可以使用促销信息直接回答用户的查询,将他们引导至重要信息,或将用户引至未在结果页顶部显示但仍具有高度相关性的网页。在控制台中,促销活动是在促销活动标签页中定义的。详细了解促销活动。
- 同义词:同义词 XML 文件可扩展用户的查询,以包含搜索字词的变体。例如,如果您的用户搜索“simian”搜索引擎还会搜索“monkey”和“猿”之类的文字在控制台中,同义词在同义词标签页中定义。详细了解同义词。
组件如何协同工作
上下文 XML 文件未指定要使用的注解文件,且注解 XML 未引用上下文文件。可编程搜索引擎使用标签来关联上下文和注释。上下文 XML 文件包含用于标识搜索引擎的标签,注释 XML 中列出的每个注释都使用一个或多个标签进行标记,这些标签用于标识它所属的搜索引擎。如果您在上下文文件中更改标签的名称,则必须更改已使用相应标签标记的所有注释。
虽然您可以上传多个批注文件,但当您通过控制面板下载这些文件时,可编程搜索引擎会把您的所有批注文件合并成一个批注文件。批注文件可让您灵活地为不同的搜索引擎自定义同一网站。例如,一个搜索引擎可以将其搜索范围限制在一些网站上,另一个搜索引擎可以排除这些网站,还有另一个搜索引擎可以宣传这些网站。
context.xml
下面是一个 context.xml 文件示例,其中包含用于标识应用的搜索引擎的标签:
<BackgroundLabels> <Label name="_include_" mode="FILTER"/> <Label name="_exclude_" mode="ELIMINATE"/> <BackgroundLabels>
annotations.xml
以下注释文件示例展示了每个网站(注释)如何与标签相关联:
<Annotation about="code.google.com/*" score="1"> <Label name="_include_"/> </Annotation>
创建高级可编程搜索引擎
创建高级引擎涉及以下步骤:
- 确定适合您需求的格式。
- 为您的搜索引擎定义规范。
- 指示可编程搜索引擎搜索哪些网站。
- 告诉可编程搜索引擎如何对搜索结果进行排名。
修改可编程搜索引擎文件
要使用 XML 文件,请从控制台的概览页下载 XML 规范。无需从头开始创建文件。执行以下操作:
- 从控制台的概览页下载上下文文件或注释文件。点击搜索功能部分中的下载按钮。
- 使用可以处理 UNIX 样式的行结尾的文本编辑器(写字板、Emacs 和 TextMate 有效,NotePad 则不行)。您可以随意为文件命名,只要使用文件扩展名
.xml
(例如cx_global.xml
)保存文件即可。 - 为所下载的文件创建备份副本,以防修改后的版本无法按预期运行,而您必须还原到先前的版本。
如果您没有创建副本,而您修改的版本不能正常工作,则需要调试文件或重新重新创建您的搜索引擎。没意思。
- 修改并保存该 XML 文件。请确保文本编辑器将文件保存为 Unicode 文本文档,而不是某种其他文件格式。
- 在概览页面的搜索功能部分下上传文件。
选择合适的广告格式
在开始创建可编程搜索引擎之前,请先确定哪种格式最符合您的需求。您不想选择比实际需求更强大、更复杂的格式,也不希望使用会很快无法发展的格式。
请使用下表选择适当的格式。
要创建 | 使用 | 因为 | 限制 | 更多信息 |
---|---|---|---|---|
一个或几个网站较少的搜索引擎 | 控制台 | 通过填写文本框,您可以快速创建可编程搜索引擎,而无需使用文本编辑器创建文件并上传文件。 | 控制面板主要用于:熟悉可编程搜索引擎以及创建只有少数网站的搜索引擎。 | 使用入门 |
使用大量网站、使用 Feed 的复杂搜索引擎 | 上下文文件和注解文件 | 可编程搜索引擎文件可让您更好地控制搜索引擎,并大大简化网站定义和管理任务。 即使您计划使用上下文和注释文件创建搜索引擎,您还是最好熟悉一下控制台。 |
您自定义的搜索引擎越多,它就越复杂。你必须学习可编程搜索元素和属性,虽然学起来不难,但确实需要你花一些时间。
您必须阅读开发者指南的其余部分,但遗憾的是,这并不是最精彩的阅读材料。 |
上下文:定义搜索引擎规范和注释:选择网站 |