本页提到了 XML 版本的 Custom Search JSON API,该版本仅适用于 Google Site Search 客户。
- 概览
- 可编程搜索引擎请求格式
<ph type="x-smartling-placeholder">
- </ph>
- 请求概览
- 查询字词
- 请求参数 <ph type="x-smartling-placeholder">
- 将查询和结果呈现国际化
<ph type="x-smartling-placeholder">
- </ph>
- 字符编码
- 界面语言
- 简体中文和繁体中文搜索
- 过滤结果
<ph type="x-smartling-placeholder">
- </ph>
- 自动过滤搜索结果
- 语言和国家/地区过滤
- 使用安全搜索功能过滤成人内容
- XML 结果
<ph type="x-smartling-placeholder">
- </ph>
- Google XML 结果 DTD
- XML 响应简介
- 常规、图片和 高级搜索查询 <ph type="x-smartling-placeholder">
概览
Google WebSearch 服务支持 Google Site Search 客户在自己的网站上显示 Google 搜索结果。通过 WebSearch 服务使用基于 HTTP 的简单协议提供搜索服务 结果。搜索管理员可以完全控制 以及它们向 最终用户本文档详细介绍了 Google 搜索请求和结果格式。
为了检索 Google 网页搜索结果,您的应用会向 向 Google 发送简单的 HTTP 请求。然后,Google 会以 XML 格式返回搜索结果 格式。XML 格式的结果使您能够自定义 搜索结果的显示方式。
WebSearch 请求格式
请求概述
Google 搜索请求是一个标准的 HTTP GET
命令。它
其中包含一系列与您的
查询。这些参数以 name=value 的形式包含在请求网址中
字符对。参数包括
搜索查询和唯一引擎 ID (cx
) 等数据,用于标识
发送 HTTP 请求的引擎。WebSearch 或图片搜索服务会返回
响应您的 HTTP 请求的 XML 结果。
查询字词
大多数搜索请求包含一个或多个查询字词。查询字词 在搜索请求中显示为参数的值。
查询字词可以指定要过滤和 整理 Google 返回的搜索结果。查询可以指定:
- 要包含的字词或词组或
排除
<ph type="x-smartling-placeholder">
- </ph>
- 搜索查询中的所有字词(默认)
- 搜索查询中的确切词组
- 搜索查询中的任何字词或词组
- 在文档的什么位置查找
搜索字词
<ph type="x-smartling-placeholder">
- </ph>
- 文档中的任意位置(默认)
- 仅在文档正文中
- 仅在文档标题中
- 仅在文档网址中
- 仅在文档的链接中
- 对文件本身的限制
<ph type="x-smartling-placeholder">
- </ph>
- 包含或排除特定文件类型的文档 (如 PDF 文件或 Word 文档)
- 会返回以下内容的特殊网址查询:
了解与给定网址相关的信息,而不是执行搜索
<ph type="x-smartling-placeholder">
- </ph>
- 会返回有关网址的一般信息的查询,例如 其“开放目录”类别、摘要或语言
- 返回链接到网址的一组网页的查询
- 返回一组与给定网址类似的网页的查询
默认搜索引擎
搜索查询参数值必须经过网址转义。请注意, 会用加号 ("+") 代替其中的所有空格序列 搜索查询的内容相关内容将在本文档的网址转义部分进一步讨论。
使用 q 参数。答 示例搜索查询字词是:
q=horses+cows+pigs
默认情况下,Google WebSearch 服务仅返回 在搜索查询中包含所有字词。
请求参数
本部分列出了在设置 搜索请求。这些参数分为两个列表。第一个列表包含与所有搜索请求相关的参数。第二个列表包含 是 只与高级搜索请求相关。
必须提供三个请求参数:
- client 参数必须设置为
google-csbe
- output 参数会指定
所返回的 XML 结果的格式;结果可通过 (xml) 返回
或不带 (
xml_no_dtd
) 对 Google DTD 的引用。我们建议 将此值设置为xml_no_dtd
。注意:如果您不指定此参数, HTML(而非 XML)。
- 表示唯一 ID 的 cx 参数
引擎的 ID。
除以下参数外最常用的请求参数 包括:
WebSearch 查询示例
以下示例展示了几个 WebSearch HTTP 请求, 说明如何使用不同的查询参数。 WebSearch 查询中提供了不同的查询参数, 参数定义和高级搜索查询 参数部分。
此请求要求提供前 10 个结果 (start=0&num=10
)
针对查询字词“红袜”(q=red+sox
)。该查询还会
指定结果应来自加拿大网站 (cr=countryCA
)
并且应使用法语 (lr=lang_fr
) 书写。最后,查询
为 client、output、
和 cx 参数,这三个参数都是必选参数。
http://www.google.com/search?
start=0
&num=10
&q=red+sox
&cr=countryCA
&lr=lang_fr
&client=google-csbe
&output=xml_no_dtd
&cx=00255077836266642015:u-scht7a-8i
该示例使用了一些高级搜索查询
参数来进一步自定义搜索查询。此请求使用 as_q
参数 (as_q=red+sox
),而不是 q 参数。它还使用
使用 as_eq 参数排除包含“Yankees”一词的所有文档从
搜索结果(as_eq=yankees
条)。
http://www.google.com/search?
start=0
&num=10
&as_q=red+sox
&as_eq=Yankees
&client=google-csbe
&output=xml_no_dtd
&cx=00255077836266642015:u-scht7a-8i
WebSearch 查询参数定义
c2coff | |||||||
---|---|---|---|---|---|---|---|
说明 | 可选。c2coff 参数可启用或停用简化版 和繁体中文搜索功能。 此参数的默认值为
|
||||||
示例 | q=google&c2coff=1 |
客户端 | |
---|---|
说明 | 必需。 |
示例 | q=google&client=google-csbe |
cr | |
---|---|
说明 | 可选。 Google WebSearch 会根据 分析:
请参阅国家/地区 (cr) 参数 值部分,查看此参数的有效值列表。 |
示例 | q=Frodo&cr=countryNZ |
cx | |
---|---|
说明 | 必需。 |
示例 | q=Frodo&cx=00255077836266642015:u-scht7a-8i |
filter | |||||||
---|---|---|---|---|---|---|---|
说明 | 可选。filter 参数会激活或 停用对 Google 搜索结果的自动过滤。请参阅本单元的自动过滤部分, 文档。
注意:默认情况下,Google 会将过滤应用于 以提高搜索结果质量。 |
||||||
示例 | q=google&filter=0 |
gl | |
---|---|
说明 | 可选。 在 WebSearch 请求中指定 |
示例 | 此请求提升以英国境内撰写的
网页搜索结果: |
hl | |
---|---|
说明 | 可选。 请参阅将查询国际化中的界面语言 和结果呈现方式,了解更多信息和支持的界面语言 查看受支持语言的列表。 |
示例 | 此请求定位的是法语版葡萄酒广告。(Vin 为 法语中表示葡萄酒的意思。) q=vin&ip=10.10.10.10&ad=w5&hl=fr |
高清 | |
---|---|
说明 | 可选。 |
示例 | 此请求搜索的是“披萨”和“奶酪”该表达式与
|
ie | |
---|---|
说明 | 可选。 请参阅字符编码部分,了解何时可能需要使用此参数。 有关详情,请参阅字符编码
Schemes 部分,查看可能的 |
示例 | q=google&ie=utf8&oe=utf8 |
lr | |
---|---|
说明 | 可选。 Google WebSearch 会根据 分析:
请参阅语言( |
示例 | q=Frodo&lr=lang_en |
编号 | |
---|---|
说明 | 可选。
注意:如果搜索结果的总数低于 请求的数量,那么所有可用的搜索结果都会 返回。 |
示例 | q=google&num=10 |
oe | |
---|---|
说明 | 可选。 请参阅字符编码部分,了解何时可能需要使用此参数。 有关详情,请参阅字符编码
Schemes 部分,查看可能的 |
示例 | q=google&ie=utf8&oe=utf8 |
output | |||||||
---|---|---|---|---|---|---|---|
说明 | 必需。
|
||||||
示例 | output=xml_no_dtd |
q | |
---|---|
说明 | 可选。 此外,还有一些特殊的查询字词
用作 Google 搜索控制台包含一份热门报告,
使用 注意:为 q 参数指定的值 必须经过网址转义。 |
示例 | q=vacation&as_oq=london+paris |
安全 | |||||||||
---|---|---|---|---|---|---|---|---|---|
说明 | 可选。
|
||||||||
示例 | q=adult&safe=high |
start | |
---|---|
说明 | 可选。
|
示例 | start=10 |
排序 | |
---|---|
说明 | 可选。 |
示例 |
|
Ud | |
---|---|
说明 | 可选。 http://www.花井鮨.com 此参数的有效值为 如果 http://www.xn--elq438j.com. 注意:这是一项 Beta 版功能。 |
示例 | q=google&ud=1 |
高级搜索
图片下方列出的其他查询参数与高级搜索查询相关。 提交高级搜索时,多个参数的值(例如 as_eq、 as_epq、as_oq 等)都会影响查询 搜索字词。此图片显示了 Google 的“高级搜索”页面。在映像上,每个资源的名称 高级搜索参数以红色文本显示在内部或旁边 与该参数对应的网页上的 字段
高级搜索查询参数
as_dt | |
---|---|
说明 | 可选。 |
示例 | as_dt=i,as_dt=e |
as_epq | |
---|---|
说明 | 可选。 |
示例 | as_epq=abraham+lincoln |
as_eq | |
---|---|
说明 | 可选。 |
示例 |
|
as_lq | |
---|---|
说明 | 可选。 |
示例 |
|
as_nlo | |
---|---|
说明 | 可选。 |
示例 | 以下代码将搜索范围设置为 5 至 10(含边界值):
|
as_nhi | |
---|---|
说明 | 可选。 |
示例 | 以下代码将搜索范围设置为 5 至 10(含边界值):
|
as_oq | |
---|---|
说明 | 可选。 |
示例 |
|
as_q | |
---|---|
说明 | 可选。 |
示例 |
|
as_qdr | |
---|---|
说明 | 可选。
|
示例 |
以下示例请求获取过去一年的结果:
以下示例请求过去 10 天的结果:
|
as_sitesearch | |
---|---|
说明 | 可选。 |
示例 |
|
特殊查询字词
Google WebSearch 允许使用多种特殊查询字词,
访问 Google 搜索引擎的其他功能。这些
q 请求参数的值中应包含特殊查询字词。与其他查询字词一样,
特殊查询字词必须进行网址转义。答
包含英文冒号 (:) 的特殊查询字词的数量。此角色
也必须经过网址转义;其网址转义值为 %3A
。
反向链接 [link:] | |
---|---|
说明 |
您还可以使用 as_lq 请求
用于提交 注意:您不能在
使用 |
示例 |
|
布尔值 OR 搜索 [ 或 ] | |
---|---|
说明 |
您还可以使用 as_oq 请求 参数来提交针对一组字词中的任何字词的搜索。 注意:如果搜索请求 指定查询“伦敦+OR+巴黎”,搜索结果将包括 至少包含这两个字词中一个字词的文档。在某些情况下 有文档可能同时包含两个字词。 |
示例 | 搜索伦敦或巴黎: 用户输入:
london OR
paris 查询字词:q=london+OR+paris 搜索度假以及伦敦或巴黎: 查询字词:
q=vacation+london+OR+paris 搜索“度假”以及“伦敦、巴黎”或“巧克力”之一: 查询字词:
q=vacation+london+OR+paris+OR+chocolates 搜索“度假”和“巧克力”以及“北京”或“北京” 权重最小的巧克力: 查询字词:
q=vacation+london+OR+paris+chocolates 在 也包含伦敦或巴黎: 查询字词:
q=vacation+london+OR+paris+chocolates+flowers 搜索度假以及伦敦或巴黎其中一个度假地点,同时搜索 代表一种巧克力或鲜花: 查询字词: q=vacation+london+OR+paris+chocolates+OR+flowers |
排除查询字词 [-] | |
---|---|
说明 | 排除 (
如果某个搜索字词包含 不止一种含义。例如,“bass”一词可以返回结果 比如鱼类或者音乐如果您正在查找关于以下内容的文档: 鱼,那么您可以从搜索结果中排除与音乐相关的文档 排除查询字词。 您还可以使用 as_eq 请求 用于排除与特定字词或词组匹配的文档的参数 。 |
示例 | 用户输入: bass -music 查询字词: q=bass+%2Dmusic |
文件类型排除 [ -文件类型:] | |
---|---|
说明 |
注意:您可以排除多个
添加更多 Google 支持的文件类型包括:
未来可能会添加其他文件类型。最新版本的 列表可随时在 Google 的文件类型常见问题解答中找到。 |
示例 | 此示例返回提及“Google”的文档不过那个
不是 PDF 文档: 此示例返回提及“Google”的文档但是
不包含 PDF 和 Word 文档: |
文件类型过滤 [ filetype: ] | |
---|---|
说明 |
你可以限制搜索
将结果添加到与多个文件扩展名之一匹配的文档
更多 默认情况下,搜索结果 添加任何文件扩展名的文档。 Google 支持的文件类型包括:
未来可能会添加其他文件类型。最新版本的 列表可随时在 Google 的文件类型常见问题解答中找到。 |
示例 | 此示例返回提及“Google”的 PDF 文档: 此示例返回的 PDF 和 Word 文档中包含
“Google”: |
包含查询字词 [+] | |
---|---|
说明 | 包含 (+) 查询字词指定 都必须在搜索结果包含的所有文档中使用。要使用 您需要添加查询字词前,必须添加 包含在所有带“+”的搜索结果中(加号)。
您应在 Google 搜索常用字词前加上 |
示例 | 用户输入: Star Wars Episode +I 查询字词: q=Star+Wars+Episode+%2BI |
仅链接 搜索,所有字词 [ allinlinks: ] | |
---|---|
说明 |
如果您的搜索查询包含“
|
示例 | 用户输入:allinlinks: Google search 查询字词: q=allinlinks%3A+Google+search |
词组搜索 | |
---|---|
说明 | 词组搜索 (") 查询字词可让您搜索 将词组用引号或 用连字符连接它们。
如果您要执行搜索,词组搜索 。 您还可以使用 as_epq 请求 参数来提交词组搜索。 |
示例 | 用户输入:"Abraham Lincoln" 查询字词: q=%22Abraham+Lincoln%22 |
仅搜索文字,所有字词 [allintext:] | |
---|---|
说明 |
如果您的搜索查询包含“
|
示例 | 此示例指定
“Google”和“搜索”必须出现在包含的所有文档的正文中
出现在搜索结果中: 用户输入: allintext:Google search 查询字词: q=allintext%3AGoogle+search |
标题搜索,单个字词 [intitle:] | |
---|---|
说明 |
注意:您可以指定更多
输入多个单词,
每个此类字词前面的
|
示例 | 本例将单词“Google”必须出现在
搜索结果中所有文档的标题,以及
"搜索"必须出现在标题、网址、链接或正文中的任何位置
其中一份文件: |
标题搜索,所有字词 [allintitle:] | |
---|---|
说明 |
注意:在搜索查询的开头放置
|
示例 | 此示例将字词“Google”和“搜索”
必须出现在任何文档的标题中: |
网址搜索,单个字词 [inurl:] | |
---|---|
说明 |
|
示例 | 本例将单词“Google”必须出现在
搜索结果中所有文档的网址,以及“search”一词
必须出现在这些内容的标题、网址、链接或正文中的任何位置
文档: |
网址搜索,所有字词 [allinurl:] | |
---|---|
说明 |
|
示例 | 此示例将字词“Google”和“搜索”
必须出现在任何文档的网址中: |
网络文档信息 [info:] | |
---|---|
说明 |
注意:您不能在
使用 |
示例 | 用户输入: info:www.google.com 查询字词: q=info%3Awww.google.com |
示例图片查询
以下示例展示了几个图片 HTTP 请求,以说明如何使用不同的查询参数。本文“图片查询参数定义”部分提供了不同查询参数的定义。
此请求针对查询字词“monkey”提供前 5 个结果 (start=0&num=5
)(q=monkey
),文件类型 .png。最后,该查询指定 client
、output
和 cx
参数的值,这三个参数都是必需参数。
http://www.google.com/cse? searchtype=image start=0 &num=5 &q=monkey &as_filetype=png &client=google-csbe &output=xml_no_dtd &cx=00255077836266642015:u-scht7a-8i
图片搜索查询参数
as_filetype | |
---|---|
说明 | 可选。返回指定类型的图片。允许使用的值包括: |
示例 | q=google&as_filetype=png |
imgsz | |
---|---|
说明 | 可选。返回指定尺寸的图片,其中尺寸可以是以下其中一项:
|
示例 | q=google&as_filetype=png&imgsz=icon |
图片类型 | |
---|---|
说明 | 可选。返回某一类型的图片,该类型可以是:
|
示例 | q=google&as_filetype=png&imgtype=photo |
imgc | |
---|---|
说明 | 可选。返回黑白、灰度或彩色图片:
|
示例 | q=google&as_filetype=png&imgc=gray |
imgcolor | |
---|---|
说明 | 可选。返回特定主色的图片:
|
示例 | q=google&as_filetype=png&imgcolor=yellow |
as_rights | |
---|---|
说明 | 可选。基于许可的过滤条件。支持的值包括:
|
示例 | q=cats&as_filetype=png&as_rights=cc_attribute |
请求限制
下面的图表列出了针对您发送的搜索请求的限制 发送给 Google:
组件 | 限制 | 评论 |
---|---|---|
搜索请求长度 | 2048 个字节 | |
查询字词数量 | 10 | 包含以下参数中的术语:q、as_epq、as_eq、as_lq、as_oq、as_q |
结果数量 | 20 | 如果您将 num 参数设置为大于 20 的数字,则只会返回 20 个结果。接收者 要获得更多结果,您需要发送多个请求, 使用以下代码递增 start 参数的值。 。 |
国际化查询和结果呈现
通过 Google WebSearch 服务,您可以搜索 支持多种语言您可以指定系统应 用于解读 HTTP 请求并对 XML 响应进行编码 (使用 ie 和 oe 搜索) 参数)。您还可以过滤结果,使其仅包含文档 以某些语言编写。
以下部分讨论了与在以下位置搜索相关的问题: 多种语言:
字符编码
服务器将数据(如网页)发送给用户代理(如 编码为一系列字节。然后,用户代理 将字节转换为字符序列。在向 WebSearch 服务,则可以为 搜索查询和您收到的 XML 响应。
您可以使用 ie 请求参数来指定
HTTP 请求中字符的编码机制。您可以
也可以使用 oe 参数来指定
Google 在对您的 XML 响应进行编码时应采用的协议。如果您
使用除 ISO-8859-1
(或 latin1
)以外的编码方案,请确保指定正确的值
ie 和 oe 参数。
注意:如果您要为多个
建议您使用 utf8
(UTF-8) 编码值
ie 和 oe 参数。
请参阅字符 编码方案附录,查看 您可以用作 ie 和 oe 参数。
有关字符编码的更多常规信息,请访问 http://www.w3.org/TR/REC-html40/charset.html。
界面语言
您可以使用 hl 请求参数来 确定图形界面的语言hl 参数值可能会影响 XML 搜索结果,尤其是 国际查询时(使用 lr 参数)未明确指定语言限制。在此类 那么 hl 参数可以提升搜索结果 使用用户的输入语言。
我们建议您明确设置 hl 参数 确保 Google 选择最高质量的 搜索结果。
请参阅支持的界面 语言部分,查看 hl 参数的有效值的完整列表。
搜索以特定语言编写的文档
您可以使用 lr 请求参数执行以下操作: 将搜索结果限制为以特定语言编写的文档 或一组语言。
lr 参数支持布尔值运算符,可让您指定 应从搜索中包含(或排除)的多种语言 结果。
以下示例展示了如何使用布尔值运算符 不同语言。
对于用日语撰写的文档:
lr=lang_jp
对于意大利语或德语文档:
lr=lang_it|lang_de
对于非匈牙利语或捷克语的文档:
lr=(-lang_hu).(-lang_cs)
请参阅语言集合 值部分,查看 lr 参数和布尔值 运算符部分。 运算符。
简体中文和繁体中文搜索
简体中文和繁体中文是两种书写变体 这些语言非常重要相同的概念在 每个变体。对于其中一个变体中的查询,Google WebSearch 服务可以返回同时包含 变体。
如需使用此功能,请执行以下操作:
以下示例展示了您可以在结果请求中包含的查询参数 简体中文和繁体中文。(请注意,其他必需信息, (未设置为客户端)。
search?hl=zh-CN &lr=lang_zh-TW|lang_zh-CN &c2coff=0
过滤结果
Google 网页搜索提供了多种过滤搜索结果的方法 结果:
自动过滤搜索结果
为了尽可能提供最佳搜索结果,Google 使用两种方法自动过滤 通常被视为不良内容:
-
重复内容:如果多个文档包含 那么只有这组文档中最相关的文档 。
-
挤出参与者:如果有多个搜索结果 那么 Google 可能不会显示来自该网站的所有搜索结果, 显示
中排名较低的结果 它们的排名会有所不同
我们建议您针对常规搜索请求使这些过滤条件保持启用状态 因为过滤条件可显著提高大多数搜索结果的质量 结果。不过,您可以通过将filter查询参数设置为0(在您的 搜索请求。
语言和国家/地区过滤
Google WebSearch 服务会返回 所有网络文档。主索引包含 按特定属性(包括语言) 和原产国。
您可以使用 lr 和 cr 请求参数将搜索结果限制为 以特定语言撰写的文档或源自 特定国家/地区。
Google WebSearch 通过分析以下各项来确定文档所用的语言:
- 文档网址的顶级域名 (TLD)
- 文档中的语言元标记
- 文档正文中使用的主要语言
另请参阅 lr 参数的定义,搜索
用特定语言编写的文档和可指定的语言集合值
用作lr参数值
了解有关根据语言限制结果的信息。
Google WebSearch 通过分析以下内容来确定文档所属的国家/地区:
- 文档网址的顶级域名 (TLD)
- Web 服务器 IP 地址的地理位置
另请参阅 cr 参数的定义和国家/地区合集 可用作 cr 参数的值的值,详细了解如何按国家/地区限制结果 来源。
注意:您可以将不同语言组合起来 值和国家/地区值来自定义您的搜索结果。对于 例如,您可以请求以法语撰写的文档, 或者您可以索要 不是用英文写的。lr 和 cr 参数都支持布尔值运算符。
使用安全搜索功能过滤成人内容
许多 Google 客户都不希望显示以下内容的搜索结果: 网站 包含成人内容的广告。借助我们的安全搜索过滤器 搜索结果中包含成人内容并将其删除。 Google 的过滤器使用专有技术检查关键字和词组 和网址。虽然没有过滤器能做到百分之百准确 从您的搜索结果中移除绝大多数成人内容 结果。
Google 致力于确保安全搜索功能能提供最新、最全面的搜索结果, 通过持续抓取网络和整合更新, 从用户建议中选择。
安全搜索功能支持以下语言:
荷兰语 英语 法语 德语 |
意大利语 葡萄牙语(巴西) 西班牙语 繁体中文 |
您可以调整 Google 对搜索结果的过滤程度 safe 查询参数代表成人内容。 下表介绍了 Google 的安全搜索设置以及这些设置如何 设置将影响您的搜索结果:
安全搜索级别 | 说明 |
---|---|
高价 | 启用更严格的版本 安全搜索 |
medium | 屏蔽含有以下内容的网页 色情和其他露骨的色情内容。 |
关闭 | 不过滤成人 内容。 |
*安全搜索的默认设置为关闭。
如果您已启用安全搜索功能,但发现某些网站包含 搜索结果中包含冒犯性内容,请将网站的网址发送至 safesearch@google.com,我们会 调查该网站。
XML 结果
Google XML 结果 DTD
Google 使用相同的 DTD 来描述所有类型的 搜索结果。许多标记和属性都适用于所有 。不过,有些代码只适用于 。因此,DTD 中的定义可能会更少, 其定义要比本文档中给出的限制更为严格。
本文档介绍了 DTD 的相关方面, 。查看 DTD 时,如果您正在处理 您可以放心地忽略 此处记录。如果 DTD 和 文档中记录了这一事实。
Google 可以返回 XML 结果,无论是否引用 最新的 DTD。DTD 是一份帮助搜索管理员的指南 和 XML 解析器能够理解 Google 的 XML 结果。由于 Google 的 XML 语法可能会不时发生变化,因此您不应自行配置 解析器使用 DTD 来验证每个 XML 结果。
此外,您不应配置 XML 解析器来获取 DTD。Google 更新 DTD 这些请求会导致不必要的延迟和带宽 要求。
Google 建议您使用 xml_no_dtd 输出格式来获取 XML 结果。 如果您在搜索请求中指定 xml output 格式, 唯一的区别在于 XML 结果中包含以下行:
<!DOCTYPE GSP SYSTEM "google.dtd">
您可以通过以下网址访问最新的 DTD: http://www.google.com/google.dtd.
请注意,D DTD 中的部分功能目前可能无法使用或受支持。
关于 XML 响应
- 所有元素值都是适合显示的有效 HTML,除非 在 XML 标记定义中另有说明。
- 某些元素值是需要先进行 HTML 编码的网址, 。
- 您的 XML 解析器应忽略未记录的属性和标记。 这样,您的应用无需修改即可继续运行 (如果 Google 向 XML 输出添加更多功能)。
- 某些字符在作为值包含在
XML 标记。您的 XML 处理器应该将这些实体转换回
适当的字符。如果您未能正确转换实体,
例如,浏览器可能字符为“&”。
XML
标准文档记录这些字符;这些字符是
下表中重现了这些错误:
角色 转义形式 实体 字符代码 和符号 & & ; 单引号 ' ' ; 双引号 " " " 大于号 > > > 小于号 < < <
常规和高级搜索查询的 XML 结果
常规/高级搜索:示例查询和 XML 结果
此示例 WebSearch 请求要求 10 个结果 (num=10
)
关于搜索字词“socer”(q=socer
),表示
“soccer”在这个例子中被故意拼错了。)
http://www.google.com/search?
q=socer
&hl=en
&start=10
&num=10
&output=xml
&client=google-csbe
&cx=00255077836266642015:u-scht7a-8i
此请求会生成以下 XML 结果。请注意, XML 结果中的几条注释,以指示某些标记 会显示相应的结果。
<?xml version="1.0" encoding="ISO-8859-1" standalone="no" ?>
<GSP VER="3.2">
<TM>0.452923</TM>
<Q>socer</Q>
<PARAM name="cx" value="00255077836266642015:u-scht7a-8i" original_value="00255077836266642015%3Au-scht7a-8i"/>
<PARAM name="hl" value="en" original_value="en"/>
<PARAM name="q" value="socer" original_value="socer"/>
<PARAM name="output" value="xml" original_value="xml"/>
<PARAM name="client" value="google-csbe" original_value="google-csbe"/>
<PARAM name="num" value="10" original_value="10"/>
<Spelling>
<Suggestion q="soccer"><b><i>soccer</i></b></Suggestion>
</Spelling>
<Context>
<title>Sample Vacation CSE</title>
<Facet>
<FacetItem>
<label>restaurants</label>
<anchor_text>restaurants</anchor_text>
</FacetItem>
<FacetItem>
<label>wineries</label>
<anchor_text>wineries</anchor_text>
</FacetItem>
</Facet>
<Facet>
<FacetItem>
<label>golf_courses</label>
<anchor_text>golf courses</anchor_text>
</FacetItem>
</Facet>
<Facet>
<FacetItem>
<label>hotels</label>
<anchor_text>hotels</anchor_text>
</FacetItem>
</Facet>
<Facet>
<FacetItem>
<label>nightlife</label>
<anchor_text>nightlife</anchor_text>
</FacetItem>
</Facet>
<Facet>
<FacetItem>
<label>soccer_sites</label>
<anchor_text>soccer sites</anchor_text>
</FacetItem>
</Facet>
</Context>
<RES SN="1" EN="10">
<M>6080</M>
/*
* The FI tag after the comment indicates that the result
* set has been filtered. If the number of results were exact, the
* FI tag would be replaced by an XT tag in the same format.
*/
<FI />
<NB>
/*
* Since the request is for the first page of results, the PU tag,
* which contains a link to the previous page of search results,
* is not included in this XML result. If the sample result did include
* a previous page of results, it would be listed here, in the same format
* as the NU tag on the following line
*/
<NU>/search?q=socer&hl=en&lr=&ie=UTF-8&output=xml&client=test&start=10&sa=N</NU>
</NB>
<R N="1">
<U>http://www.soccerconnection.net/</U>
<UE>http://www.soccerconnection.net/</UE>
<T>SoccerConnection.net</T>
<CRAWLDATE>May 21, 2007</CRAWLDATE>
<S><b>soccer</b>; players; coaches; ball; world cup;<b>...</b></S>
<Label>transcodable_pages</Label>
<Label>accessible</Label>
<Label>soccer_sites</Label>
<LANG>en</LANG>
<HAS>
<DI>
<DT>SoccerConnection.net</DT>
<DS>Post your <b>soccer</b> resume directly on the Internet.</DS>
</DI>
<L/>
<C SZ="8k" CID="kWAPoYw1xIUJ"/>
<RT/>
</HAS>
</R>
/*
* The result includes nine more results, each enclosed by an R tag.
*/
</RES>
</GSP>
常规/高级搜索:XML 标记
常规搜索请求和高级搜索的 XML 响应 请求使用相同的 XML 标记集。这些 XML 标记显示在 请参阅上面的 XML 示例,并在下表中加以说明。
以下 XML 标记按标记名称的字母顺序列出,每个 标记定义包含标记的说明, 标记在 XML 结果中的显示方式以及标记的 内容。如果该标记是另一个 XML 标记的子标记,或者该标记具有 子标记或属性本身,此信息也会在 代码的定义表中
在 定义。这些符号及其含义如下:
* = 子标记的零个或多个实例
+ = 子标记的一个或多个实例
B | C | D | F | G | H | 左 | M | 北 | 问题 | R | 南 | T | U | X |
anchor_text | |
---|---|
定义 | <anchor_text> 标记用于指定 向用户显示的优化选项 标签相关联。由于优化标签 使用下划线替换非字母数字字符 在界面中显示 <label> 标记的值。相反,您应显示 <anchor_text> 标记。 |
示例 | <anchor_text>高尔夫 课程</anchor_text> |
父标记 | FacetItem |
内容格式 | 文本 |
屏蔽 | |
---|---|
定义 | 此标记用于将区块的内容封装在推广结果的正文行中。每个块都有子标记 T、U 和 L。非空 T 标记表示该文本块包含文本;非空 U 和 L 标记表示该段包含一个链接(在 U 子标记中提供网址,L 子标记中提供定位文字)。 |
子标记 | T、U、L |
父标记 | BODY_LINE |
内容格式 | 空 |
BODY_LINE | |
---|---|
定义 | 该标记用于封装推荐结果正文中的一行内容。每个正文行都由多个 BLOCK 标记组成,其中包含一些文字或带有网址和定位文字的链接。 |
子标记 | 屏蔽* |
父标记 | SL_MAIN |
内容格式 | 空 |
C | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
定义 | <C> 标记表示 WebSearch 服务
可以检索此搜索结果网址的缓存版本。您不能
通过 XML API 检索缓存的网页
转到 www.google.com
内容。 |
|||||||||
属性 |
|
|||||||||
示例 | <C SZ="6,000"CID="kvOXK_cYSSgJ"/> | |||||||||
父标记 | 有 | |||||||||
内容格式 | 空 |
C2C | |
---|---|
定义 | <C2C> 标记表示 结果指向的是繁体中文网页。此代码 只有在简体中文和繁体中文 中文搜索已启用。请参阅 c2coff 查询参数定义,详细了解如何启用和 停用此功能 |
内容格式 | 文本 |
上下文 | |
---|---|
定义 | <Context> 标记封装了 与一组搜索结果相关联的优化标签。 |
示例 | <Context> |
子标记 | title、Facet+ |
内容格式 | Container |
抓取日期 | |
---|---|
定义 | <CRAWLDATE> 标记用于标识
上次抓取网页的时间。不会针对每个搜索结果页返回 |
示例 | <CRAWLDATE>5 月 21 日 2005 年</CRAWLDATE> |
父标记 | R |
内容格式 | 文本 |
DI | |
---|---|
定义 | <DI> 标记封装了开放式目录项目 (ODP) 类别信息。 |
示例 | <DI> |
子标记 | DT?、DS? |
父标记 | 有 |
内容格式 | 空 |
DS | |
---|---|
定义 | <DS> 代码会提供针对 仅限 ODP 目录中的单个类别。 |
示例 | <DS>发布您的 足球直接在 。</DS> |
父标记 | DI |
内容格式 | 文本(可以包含 HTML) |
DT | |
---|---|
定义 | <DT> 标记提供单个 类别。 |
示例 | <DT>SoccerConnection.net</DT> |
父标记 | DI |
内容格式 | 文本(可以包含 HTML) |
商品详情 | |
---|---|
定义 | <Facet> 代码包含 <FacetItem> 代码的逻辑分组。您可以 制作 使用可编程搜索引擎 引擎 XML 规范格式。如果您没有创建这些 results_xml_tag_Context><Context>代码将 包含向上 四个 <Facet> 标记。每个 <Facet> 标记内的项目将按显示目的进行分组,但可能没有逻辑关系 关系。 |
示例 | <Facet> |
子标记 | FacetItem+、title+ |
父标记 | 上下文 |
内容格式 | Container |
FacetItem | |
---|---|
定义 | <FacetItem> 标记封装了信息 与一组搜索结果相关的优化标签的信息。 |
示例 | <FacetItem> |
子标记 | label、anchor_text+ |
父标记 | 商品详情 |
内容格式 | FacetItem |
芬兰 | |
---|---|
定义 | <FI> 标记充当标记 指示是否针对搜索执行了文档过滤。 请参阅自动过滤部分 有关 Google 搜索结果的更多信息 过滤器。 |
示例 | <FI /> |
父标记 | 反抗军 |
内容格式 | 空 |
GSP | |||||||
---|---|---|---|---|---|---|---|
定义 | <GSP> 标记 封装 Google XML 搜索结果中返回的所有数据。“Gmail 赞助广告”为 是“Google 搜索协议”的缩写。 |
||||||
属性 |
|
||||||
示例 | <GSP VER="3.2"> | ||||||
子标记 | PARAM+、Q、RES?、TM | ||||||
内容格式 | 空 |
有 | |
---|---|
定义 | <HAS> 标记用于封装
有关任何特殊搜索
请求参数。
注意:<HAS> 用于 WebSearch 比 DTD 的限制更严格。 |
子标记 | DI?L?、C?、RT? |
父标记 | R |
ISURL | |
---|---|
定义 | Google 返回 <ISURL> 标记 如果关联的搜索查询是网址,则会发生该错误。 |
父标记 | GSP |
内容格式 | 空 |
L | |
---|---|
定义 | 是否存在 <L> 标记 表示 WebSearch 服务可以找到链接到 此搜索结果网址。要查找此类网站,您可以使用 link: 特殊查询字词。 |
父标记 | 有 |
内容格式 | 空 |
标签 | |
---|---|
定义 | <label> 标记指定优化标签 您可以用它来过滤收到的搜索结果。要使用 优化标签,请将字符串 more:[[label tag value]] 添加到 您向 Google 发送的 HTTP 请求中 q 参数的值为 如以下示例中所示。请注意,该值必须为 在将查询发送给 Google 之前进行网址转义。 This example uses the refinement label golf_courses to 注意:<label> 标记不同于 <Label> 标记,用于标识优化标签 您搜索结果中的特定网址。 |
示例 | <label>golf_courses</label> |
父标记 | FacetItem |
内容格式 | 文本 |
LANG | |
---|---|
定义 | <LANG> 标记包含 Google 猜出的 搜索结果的语言。 |
示例 | <LANG>zh-CN</LANG> |
父标记 | R |
内容格式 | 文本 |
M | |
---|---|
定义 | <M> 标记用于标识 该搜索的结果数。 注意 :此估算值可能不准确。 |
示例 | <M>16200000</M> |
父标记 | 反抗军 |
内容格式 | 文本 |
新生儿 | |
---|---|
定义 | <NB> 标记封装了导航信息,即链接到搜索结果的下一页或上一页 结果 - 针对结果集。 注意:此标记仅存在 。 |
示例 | <NB> |
子标记 | NU?、PU? |
父标记 | 反抗军 |
内容格式 | 空 |
NU | |
---|---|
定义 | <NU> 标记包含指向 搜索结果的下一页。 |
示例 | <NU>/search?q=flowers&num=10&hl=zh-CN&ie=UTF-8 &output=xml&client=test&start=10</NU> |
父标记 | 注意 |
内容格式 | 文本(相对网址) |
PARAM | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
定义 | <PARAM> 标记 指定在与 以及 XML 结果。该参数的相关信息 标记属性(name、value、original_value), 为 HTTP 请求中提交的每个参数分别创建一个 PARAM 标记。 |
||||||||||||
属性 |
|
||||||||||||
示例 | <PARAM name="cr"value="countryNZ" original_value="国家/地区"/> | ||||||||||||
父标记 | GSP | ||||||||||||
内容格式 | 复杂 |
PU | |
---|---|
定义 | <PU> 标记提供指向 搜索结果的上一页。 |
示例 | <PU>/search?q=flowers&num=10&hl=zh-CN&output=xml &client=test&start=10</PU> |
父标记 | 注意 |
内容格式 | 文本(相对网址) |
Q | |
---|---|
定义 | <Q> 标记用于标识搜索查询 在与 XML 结果相关联的 HTTP 请求中提交。 |
示例 | <Q>披萨</Q> |
父标记 | GSP |
内容格式 | 文本 |
R | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
定义 | <R> 标记封装了 结果。 注意:<R> 标记的定义适用于 WebSearch 比 DTD 的限制更严格。 |
|||||||||
属性 |
|
|||||||||
子标记 | U、UE、T?、CRAWLDATE、S?、LANG?、有 | |||||||||
父标记 | 反抗军 |
反抗军 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
定义 | <RES> 标记封装了 以及这些结果的详情。 |
|||||||||
属性 |
|
|||||||||
示例 | <RES SN="1"zh-CN="10"> | |||||||||
子标记 | M、FI?、XT?、NB?、R* | |||||||||
父标记 | GSP | |||||||||
内容格式 | 空 |
S | |
---|---|
定义 | <S> 标记包含搜索 以粗体突出显示查询字词的结果。换行符是 包含正确的文本换行。 |
示例 | <S>华盛顿 (CNN) - 结束 参议院对总统的僵局 <b>布什</b>司法精选 让五位提名者进行最终投票,同时保留 <b>...<b>...</b><S> |
父标记 | R |
内容格式 | 文本 (HTML) |
SL_MAIN | |
---|---|
定义 | 此标记用于封装推广结果的内容。用于解析促销信息。标题链接的定位文字和网址分别包含在 T 和 U 子标记中。正文行和链接包含在 BODY_LINE 子标记中。 |
子标记 | BODY_LINE*、T、U |
父标记 | SL_RESULTS |
内容格式 | 空 |
SL_RESULTS | |
---|---|
定义 | 用于提升结果的容器标记。只要搜索结果中有促销活动,系统就会显示其中一个提醒。SL_MAIN 子标记包含主结果数据。 |
子标记 | SL_MAIN* |
父标记 | R |
内容格式 | 空 |
拼写 | |
---|---|
定义 | <Speaking> 标记封装了备用 针对所提交查询的拼写建议。此标记只会在以下位置出现: 搜索结果首页。拼写建议功能已在以下版本中提供: 英语、中文、日语和韩语。 注意:Google 只会针对以下查询返回拼写建议 gl参数值所在的查询 小写字母。 |
示例 | <拼写> |
子标记 | 建议 |
父标记 | GSP |
内容格式 | 空 |
建议 | |||||||
---|---|---|---|---|---|---|---|
定义 | <Suggestion> 标记包含 针对所提交查询的备选拼写建议。您可以使用 标记的内容向您的搜索用户建议其他拼写。 q 属性的值是 可用作查询字词的网址转义拼写建议。 | ||||||
属性 |
|
||||||
示例 | <建议 q="soccer">&lt;b&gt;&lt;i&gt;soccer&lt;/i&gt;&lt;/b&gt;</Suggestion> | ||||||
父标记 | 拼写 | ||||||
内容格式 | 文本 (HTML) |
T | |
---|---|
定义 | <T> 标记包含标题 结果的一部分。 |
示例 | <T>Amici 的东海岸 披萨店</T> |
父标记 | R |
内容格式 | 文本 (HTML) |
标题 | |
---|---|
定义 | 作为 <Context> 的子标记时,<Context> 标记包含可编程搜索引擎的名称。 作为 <Facet> 的子元素,<title> 标记为一组构面提供标题。 |
示例 | 作为 <Context> 的子元素:<title>My Search Engine</title> 作为 <Facet> 的子元素:<title>facet 标题</title> |
父标记 | Context、Facet |
内容格式 | 文本 |
TM | |
---|---|
定义 | <TM> 标记用于标识总服务器时间 (以秒为单位)。 |
示例 | <TM>0.100445</TM> |
父标记 | GSP |
内容格式 | 文本(浮点数) |
TT | |
---|---|
定义 | <TT> 标记提供搜索 提示。 |
示例 | <TT><i>提示:对于大部分 按回车键会产生与点击 “搜索”按钮。</i></TT> |
父标记 | GSP |
U | |
---|---|
定义 | <U> 标记提供网址 部分。 |
示例 | <U>http://www.dominos.com/</U> |
父标记 | R |
内容格式 | 文本(绝对网址) |
UD | |
---|---|
定义 | <UD> 标记提供以 IDN 编码的 (国际域名)搜索结果的网址。该值允许 使用当地语言显示域名。例如, 经过 IDN 编码的网址 http://www.%E8%8A%B1%E4%BA%95.com 可被解码并显示为 http://www.花井鮨.com。 <UD> 标记将仅包含在 包含 ud 参数的请求。 注意:这是一项 Beta 版功能。 |
示例 | <UD>http://www.%E8%8A%B1%E4%BA%95.com/</UD> |
父标记 | R |
内容格式 | 文本(经过 IDN 编码的网址) |
UE | |
---|---|
定义 | <UE> 标记提供网址 部分。该值会进行网址转义,因此适合 在网址中作为查询参数传递的情况。 |
示例 | <UE>http://www.dominos.com/</UE> |
父标记 | R |
内容格式 | 文本(网址转义网址) |
XT | |
---|---|
定义 | <XT> 标记表示 由 M 标记指定的估算结果总数实际上代表了 结果总数。请参阅自动 过滤部分。 |
示例 | <XT /> |
父标记 | 反抗军 |
内容格式 | 空 |
图片搜索查询的 XML 结果
此示例图片请求请求获取 5 个关于搜索字词“monkey”的结果 (num=5)(q=monkey)
http://www.google.com/cse? searchtype=image &num=2 &q=monkey &client=google-csbe &output=xml_no_dtd &cx=00255077836266642015:u-scht7a-8i
此请求会生成以下 XML 结果。
<GSP VER="3.2"> <TM>0.395037</TM> <Q>monkeys</Q> <PARAM name="cx" value="011737558837375720776:mbfrjmyam1g" original_value="011737558837375720776:mbfrjmyam1g" url_<escaped_value="011737558837375720776%3Ambfrjmyam1g" js_escaped_value="011737558837375720776:mbfrjmyam1g"/> <PARAM name="client" value="google-csbe" original_value="google-csbe" url_escaped_value="google-csbe" js_escaped_value="google-csbe"/> <PARAM name="q" value="monkeys" original_value="monkeys" url_escaped_value="monkeys" js_escaped_value="monkeys"/> <PARAM name="num" value="2" original_value="2" url_escaped_value="2" js_escaped_value="2"/> <PARAM name="output" value="xml_no_dtd" original_value="xml_no_dtd" url_escaped_value="xml_no_dtd" js_escaped_value="xml_no_dtd"/> <PARAM name="adkw" value="AELymgUP4VYSok20wy9SeYczEZ5UXxpBmRsJH4oC4aXhVuZgwGKuponcNXjrYkkw2bRv1BylIm89ndJ-Q4vxvyW0tcbiqipcQC9op_cBG84T12WMvX8660A" original_value="AELymgUP4VYSok20wy9SeYczEZ5UXxpBmRsJH4oC4aXhVuZgwGKuponcNXjrYkkw2bRv1BylIm89ndJ-Q4vxvyW0tcbiqipcQC9op_cBG84T12WMvX8660A" url_escaped_value="AELymgUP4VYSok20wy9SeYczEZ5UXxpBmRsJH4oC4aXhVuZgwGKuponcNXjrYkkw2bRv1BylIm89ndJ-Q4vxvyW0tcbiqipcQC9op_cBG84T12WMvX8660A" js_escaped_value="AELymgUP4VYSok20wy9SeYczEZ5UXxpBmRsJH4oC4aXhVuZgwGKuponcNXjrYkkw2bRv1BylIm89ndJ-Q4vxvyW0tcbiqipcQC9op_cBG84T12WMvX8660A"/> <PARAM name="hl" value="en" original_value="en" url_escaped_value="en" js_escaped_value="en"/> <PARAM name="oe" value="UTF-8" original_value="UTF-8" url_escaped_value="UTF-8" js_escaped_value="UTF-8"/> <PARAM name="ie" value="UTF-8" original_value="UTF-8" url_escaped_value="UTF-8" js_escaped_value="UTF-8"/> <PARAM name="boostcse" value="0" original_value="0" url_escaped_value="0" js_escaped_value="0"/> <Context> <title>domestigeek</title> </Context> <ARES/> <RES SN="1" EN="2"> <M>2500000</M> <NB> <NU>/images?q=monkeys&num=2&hl=en&client=google-csbe&cx=011737558837375720776:mbfrjmyam1g&boostcse=0&output=xml_no_dtd &ie=UTF-8&oe=UTF-8&tbm=isch&ei=786oTsLiJaaFiALKrPChBg&start=2&sa=N </NU> </NB> <RG START="1" SIZE="2"/> <R N="1" MIME="image/jpeg"> <RU>http://www.flickr.com/photos/fncll/135465558/</RU> <U> http://farm1.static.flickr.com/46/135465558_123402af8c.jpg </U> <UE> http://farm1.static.flickr.com/46/135465558_123402af8c.jpg </UE> <T>Computer <b>Monkeys</b> | Flickr - Photo Sharing!</T> <RK>0</RK> <BYLINEDATE>1146034800</BYLINEDATE> <S>Computer <b>Monkeys</b> | Flickr</S> <LANG>en</LANG> <IMG WH="500" HT="305" IID="ANd9GcQARKLwzi-t4lpWi2AERV3kJb4ansaQzTn3MNDZR9fD_JDiktPKByKUBLs"> <SZ>88386</SZ> <IN/> </IMG> <TBN TYPE="0" WH="130" HT="79" URL="http://t0.gstatic.com/images?q=tbn:ANd9GcQARKLwzi- t4lpWi2AERV3kJb4ansaQzTn3MNDZR9fD_JDiktPKByKUBLs"/> </R> <R N="2" MIME="image/jpeg"> <RU> http://www.flickr.com/photos/flickerbulb/187044366/ </RU> <U> http://farm1.static.flickr.com/73/187044366_506a1933f4.jpg </U> <UE> http://farm1.static.flickr.com/73/187044366_506a1933f4.jpg </UE> <T> one. ugly. <b>monkey</b>. | Flickr - Photo Sharing! </T> <RK>0</RK> <BYLINEDATE>1152514800</BYLINEDATE> <S>one. ugly. <b>monkey</b>.</S> <LANG>en</LANG> <IMG WH="400" HT="481" IID="ANd9GcQ3Qom0bYbee4fThCQVi96jMEwMU6IvVf2b8K5vERKVw- EF4tQQnDDKOq0"><SZ>58339</SZ> <IN/> </IMG> <TBN TYPE="0" WH="107" HT="129" URL="http://t1.gstatic.com/images?q=tbn:ANd9GcQ3Qom0bYbee4fThCQ Vi96jMEwMU6IvVf2b8K5vERKVw-EF4tQQnDDKOq0"/> </R> </RES> </GSP>
图片搜索:XML 标记
下表显示了在用于图片搜索查询的 XML 响应中使用的其他 XML 标记。
在 定义。这些符号及其含义如下:
* = 子标记的零个或多个实例
+ = 子标记的一个或多个实例
RG | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
定义 | <RG> 标记包含单个图片搜索结果的详细信息。 |
|||||||||
属性 |
| |||||||||
父标记 | 反抗军 |
俄罗斯 | |
---|---|
定义 | <RU tag> 标记包含每个图片搜索结果的详细信息。 |
父标记 | R |