网址和哈希处理

本文档适用于以下方法:Update API (v4)fullHashes.find

概览

安全浏览列表由长度可变的 SHA256 哈希(请参阅列表内容)组成。如需根据安全浏览列表(在本地或服务器上)检查某个网址,客户端必须先计算该网址的哈希前缀。

如要计算网址的哈希前缀,请按以下步骤操作:

  1. 对网址进行规范化(请参阅规范化)。
  2. 为网址创建后缀/前缀表达式(请参阅后缀/前缀表达式)。
  3. 计算每个后缀/前缀表达式的完整长度哈希(请参阅哈希计算)。
  4. 计算每个完整长度的哈希的哈希前缀(请参阅哈希前缀计算)。

请注意,这些步骤反映了安全浏览服务器维护安全浏览列表时所用的流程。

规范化

首先,我们假设客户端已解析网址,并使其根据 RFC 2396 有效。 如果网址使用国际化域名 (IDN),客户端应将网址转换为 ASCII Punycode 表示法。网址必须包含路径组成部分;也就是说,该网址必须以斜杠(“http://google.com/”)结尾。

首先,从网址中移除制表符 (0x09)、CR (0x0d) 和 LF (0x0a) 字符。请勿删除这些字符的转义序列(例如“%0a”)。

其次,如果网址以片段结尾,请移除片段。例如,将“http://google.com/#frag”缩短为“http://google.com/”。

第三,反复对网址执行百分号取消转义,直到网址中不再有百分号转义。

如需对主机名进行规范化,请执行以下操作

从网址中提取主机名,然后:

  1. 移除所有前导和尾随的点。
  2. 用单点替换连续的点。
  3. 如果主机名可以解析为 IP 地址,请将其标准化为 4 个由点分隔的小数值。客户端应处理任何合法的 IP 地址编码,包括八进制、十六进制以及少于 4 个组成部分。
  4. 将整个字符串小写。

如需对路径进行规范化,请执行以下操作

  1. 通过将“/./”替换为“/”,并移除“/../”以及前面的路径组成部分,解析路径中的序列“/../”和“/./”。
  2. 将连续斜杠替换成单个斜杠字符。

请勿将这些路径规范化应用于查询参数。

在网址中,对 <= ASCII 32、>= 127、“#”或“%”的所有字符进行百分号转义。转义应使用大写的十六进制字符。

以下是有助于验证规范化实施的测试。

Canonicalize("http://host/%25%32%35") = "http://host/%25";
Canonicalize("http://host/%25%32%35%25%32%35") = "http://host/%25%25";
Canonicalize("http://host/%2525252525252525") = "http://host/%25";
Canonicalize("http://host/asdf%25%32%35asd") = "http://host/asdf%25asd";
Canonicalize("http://host/%%%25%32%35asd%%") = "http://host/%25%25%25asd%25%25";
Canonicalize("http://www.google.com/") = "http://www.google.com/";
Canonicalize("http://%31%36%38%2e%31%38%38%2e%39%39%2e%32%36/%2E%73%65%63%75%72%65/%77%77%77%2E%65%62%61%79%2E%63%6F%6D/") = "http://168.188.99.26/.secure/www.ebay.com/";
Canonicalize("http://195.127.0.11/uploads/%20%20%20%20/.verify/.eBaysecure=updateuserdataxplimnbqmn-xplmvalidateinfoswqpcmlx=hgplmcx/") = "http://195.127.0.11/uploads/%20%20%20%20/.verify/.eBaysecure=updateuserdataxplimnbqmn-xplmvalidateinfoswqpcmlx=hgplmcx/";
Canonicalize("http://host%23.com/%257Ea%2521b%2540c%2523d%2524e%25f%255E00%252611%252A22%252833%252944_55%252B") = "http://host%23.com/~a!b@c%23d$e%25f^00&11*22(33)44_55+";
Canonicalize("http://3279880203/blah") = "http://195.127.0.11/blah";
Canonicalize("http://www.google.com/blah/..") = "http://www.google.com/";
Canonicalize("www.google.com/") = "http://www.google.com/";
Canonicalize("www.google.com") = "http://www.google.com/";
Canonicalize("http://www.evil.com/blah#frag") = "http://www.evil.com/blah";
Canonicalize("http://www.GOOgle.com/") = "http://www.google.com/";
Canonicalize("http://www.google.com.../") = "http://www.google.com/";
Canonicalize("http://www.google.com/foo\tbar\rbaz\n2") ="http://www.google.com/foobarbaz2";
Canonicalize("http://www.google.com/q?") = "http://www.google.com/q?";
Canonicalize("http://www.google.com/q?r?") = "http://www.google.com/q?r?";
Canonicalize("http://www.google.com/q?r?s") = "http://www.google.com/q?r?s";
Canonicalize("http://evil.com/foo#bar#baz") = "http://evil.com/foo";
Canonicalize("http://evil.com/foo;") = "http://evil.com/foo;";
Canonicalize("http://evil.com/foo?bar;") = "http://evil.com/foo?bar;";
Canonicalize("http://\x01\x80.com/") = "http://%01%80.com/";
Canonicalize("http://notrailingslash.com") = "http://notrailingslash.com/";
Canonicalize("http://www.gotaport.com:1234/") = "http://www.gotaport.com/";
Canonicalize("  http://www.google.com/  ") = "http://www.google.com/";
Canonicalize("http:// leadingspace.com/") = "http://%20leadingspace.com/";
Canonicalize("http://%20leadingspace.com/") = "http://%20leadingspace.com/";
Canonicalize("%20leadingspace.com/") = "http://%20leadingspace.com/";
Canonicalize("https://www.securesite.com/") = "https://www.securesite.com/";
Canonicalize("http://host.com/ab%23cd") = "http://host.com/ab%23cd";
Canonicalize("http://host.com//twoslashes?more//slashes") = "http://host.com/twoslashes?more//slashes";

后缀/前缀表达式

对网址进行规范化后,下一步是创建后缀/前缀表达式。每个后缀/前缀表达式都包含主机后缀(或完整主机)和路径前缀(或完整路径),如这些示例所示。

后缀/前缀表达式等效正则表达式
a.b/mypath/
http\:\/\/.*\.a\.b\/mypath\/.*
c.d/full/path.html?myparam=a
http\:\/\/.*.c\.d\/full\/path\.html?myparam=a

客户端最多可形成 30 种不同的主机后缀和路径前缀组合。 这些组合仅使用网址的主机和路径部分。架构、用户名、密码和端口会被舍弃。如果网址包含查询参数,则至少一个组合将包含完整路径和查询参数。

对于主机,客户端最多可尝试 5 个不同的字符串。他们分别是:

  • 网址中的确切主机名。
  • 从最后五个组件开始,然后依次移除前导组件形成的主机名(最多四个)。顶级域名可以跳过。如果主机是 IP 地址,则不应检查这些额外的主机名。

对于路径,客户端最多可尝试 6 个不同的字符串。它们是:

  • 网址的确切路径包括查询参数。
  • 网址的确切路径不包含查询参数。
  • 从根部 (/) 开始并连续附加路径组成部分(包括尾随斜杠)形成的四个路径。

以下示例演示了检查行为:

对于网址 http://a.b.c/1/2.html?param=1,客户端将尝试以下可能的字符串:

a.b.c/1/2.html?param=1
a.b.c/1/2.html
a.b.c/
a.b.c/1/
b.c/1/2.html?param=1
b.c/1/2.html
b.c/
b.c/1/

对于网址 http://a.b.c.d.e.f.g/1.html,客户端将尝试以下可能的字符串:

a.b.c.d.e.f.g/1.html
a.b.c.d.e.f.g/
(Note: skip b.c.d.e.f.g, since we'll take only the last five hostname components, and the full hostname)
c.d.e.f.g/1.html
c.d.e.f.g/
d.e.f.g/1.html
d.e.f.g/
e.f.g/1.html
e.f.g/
f.g/1.html
f.g/

对于网址 http://1.2.3.4/1/,客户端将尝试以下可能的字符串:

1.2.3.4/1/
1.2.3.4/

哈希计算

创建后缀/前缀表达式集后,下一步是计算每个表达式的完整长度 SHA256 哈希值。下面提供了一个可用于验证哈希计算的单元测试(在伪 C 中)。

来自 FIPS-180-2 的示例:

Unit Test (in pseudo-C)

// Example B1 from FIPS-180-2
string input1 = "abc";
string output1 = TruncatedSha256Prefix(input1, 32);
int expected1[] = { 0xba, 0x78, 0x16, 0xbf };
assert(output1.size() == 4);  // 4 bytes == 32 bits
for (int i = 0; i < output1.size(); i++) assert(output1[i] == expected1[i]);

// Example B2 from FIPS-180-2
string input2 = "abcdbcdecdefdefgefghfghighijhijkijkljklmklmnlmnomnopnopq";
string output2 = TruncatedSha256Prefix(input2, 48);
int expected2[] = { 0x24, 0x8d, 0x6a, 0x61, 0xd2, 0x06 };
assert(output2.size() == 6);
for (int i = 0; i < output2.size(); i++) assert(output2[i] == expected2[i]);

// Example B3 from FIPS-180-2
string input3(1000000, 'a');  // 'a' repeated a million times
string output3 = TruncatedSha256Prefix(input3, 96);
int expected3[] = { 0xcd, 0xc7, 0x6e, 0x5c, 0x99, 0x14, 0xfb, 0x92,
                    0x81, 0xa1, 0xc7, 0xe2 };
assert(output3.size() == 12);
for (int i = 0; i < output3.size(); i++) assert(output3[i] == expected3[i]);

哈希前缀计算

最后,客户端需要计算每个完整长度 SHA256 哈希值的哈希前缀。对于安全浏览功能,哈希前缀由 SHA256 哈希的最高 4-32 个字节组成。

来自 FIPS-180-2 的示例:

  • FIPS-180-2 中的示例 B1
    • 输入为“abc”。
    • SHA256 摘要为 ba7816bf 8f01cfea 414140de 5dae2223 b00361a3 96177a9c b410ff61 f20015ad。
    • 32 位哈希前缀为 ba7816bf。
  • FIPS-180-2 中的示例 B2
    • 输入为“abcdbcdecdefdefgefghfghighijhijkijkljklmklmnlmnomnopnopq”。
    • SHA256 摘要为 248d6a61 d20638b8 e5c02693 0c3e6039 a33ce459 64ff2167 f6ecedd4 19db06c1。
    • 48 位哈希前缀为 248d6a61 d206。