2009年9月3日星期四
原文: Advanced Q&A from (the appropriately-named) SMX Advanced
发表于: 2009年8月6日星期四 上午7:28
初夏时节, SMX大会升级版 在我们的美丽城市西雅图再次登陆。本次SMX大会的水平确实很进阶。在问答环节我收到了很多问题,其中一些问题需要我回去做一些研究才能给出解答。在此,正如我已经承诺的,是对这些问题作出的解答。
问: 我们听说谷歌目前就 Flash内容的索引 做得比以前 更好 了。如果我的一个Flash文件需要从外部文件中抽取内容,而这个外部文件已经被 robots.txt 屏蔽,Flash文件的内容还会被收录吗(Flash文件并未被robots.txt屏蔽)?或者谷歌不能索引到该内容?
答: 我们目前还无法抓取被robots.txt阻止的文件中的内容。所以即使人们能够看到内容(比如在Flash中看到),搜索引擎还是无法抓取到该内容。要了解更多细节,请查看 Flash索引现在可以加载外部资源了! 一文。
问: 基于用户行为习惯或者点击流量提供定制内容的网站已经变得越来越普遍了。如果一个用户从搜索结果网页进入我的站点,我能根据用户的搜索词来为他们定制网页内容或者重定向用户吗?或者这种行为有可能被认为是 隐藏真实内容 ?例如,如果一些人搜索“古董浮雕吊坠”,但是却在我的站点上点击了“古董珠宝”网页,那么如果我了解了他们的搜索目的,我可以将他们重定向到我的古董浮雕吊坠的特定网页吗?
答: 如果你将用户重定向至或者为用户返回的内容与Googlebot在这个URL上看到的内容不一样的话,(例如,在 google.com 的参考内容或查询字符串),我们就认为这是隐藏真实内容。如果搜索用户想要点击“古董珠宝”的搜索结果,你应该为他们如实提供网页内容,哪怕你认为另一个不同的网页可能会更好。你可以在你的网页上将相关网页链接起来(例如,从你的“古董浮雕吊坠”链接到你的“古董珠宝”网页,反之亦然。这样,任何人不论从任何来源登录这些网页,都能跨页浏览);但是我们不认为你应该代替用户决定他们想看到什么样的网页。
问: 即使是向不同的访问者提供不同内容,谷歌认为常规非恶意网站测试(例如A/B或者多变量测试)是不违反 谷歌网站管理员指南 的。原因之一是,尽管搜素引擎可能只看到了网页的初始内容,而看不到其替换版本,但是还有一定比例的用户看到的是同样的初始内容,因此这些测试并不是特意为了搜索引擎而做。
然而,一些测试服务通常推荐站长们在实验完成之后以合并各种成功因素的网页形式应用于100%的流量一段时间,进一步验证转换率是否理想。这种情况会被谷歌视为隐藏真实内容吗?
答: 为了验证实验结果是否正确,在一段时间内将各种成功因素合并并应用于100%的流量中,是可以被接受的。然而,正如我们在关于这个主题的文章中指出的,“如果我们发现一个网站在几个月里百分之百地运行一个单一的非原创的网页集成,我们将会把这个站点从我们的索引中移除。”如果你想要确认实验的结果但是又担心“究竟多久才算很久”,请考虑运行一个跟进的实验,在其中你可以通过网页集成来发送大部分的流量,但仍然发送原始网页给一小部分访问者作为一种控制。这就是谷歌关于自己开发的测试工具—网站优化器的建议。
问: 如果一个网页的HTTP标头所标明的字符编码与在meta equiv="Content-Type"标签里所指定的不同,谷歌会关注哪一个?
答: 两者我们都会关注,并且会基于网页内容做一些处理或者推测。如果两者不同但都可用,那么大多数的主流浏览器会优先使用HTTP标头中标明的字符编码。然而,如果你发现两者不一致,最好的办法就是选定其中之一!
问: 谷歌如何处理URL中的三字节UTF-8编码的国际字符(例如中文或者日文字符)?这类URL在一些应用中无法识别。谷歌可以正确地处理这样的字符吗?换句话说,谷歌是否能理解 www.example.com/%E9%9D%B4 是否同www.example.com/shoes一样与“鞋子”相关?
答: 我们可以正确处理在URL中的路径和参数中出现的%已转义的UTF-8编码字符,同时,我们也了解用这样形式编码的关键字。就一个域名中的国际字符而言,我们建议使用 punycode 式编码而非%式编码,因为一些比较旧版本的浏览器(如IE6)并不支持非-ASCII码域名。
如果你还有其他问题,就请加入我们的 论坛 吧。