关于图片搜索

2012年6月7日星期四

发表者: Gary Illyes ,网站管理员趋势分析师
原文: 1000 Words About Images


创造性是我们生活的一个重要方面,它几乎可以为我们所做的一切事情起到锦上添花的作用。比如,我想给朋友制作一杯样式精美的咖啡,但我却连一个创意点子都想不出来,这时候,就是我到 Google图片 上寻找灵感的时候了。




您在我们提供的搜索结果中看到的图片,来源于许多不同的人或网站—— 包括博主、媒体渠道、和图片库网站等,他们在自己的HTML页面中嵌入了这些图片。Google可以索引许多格式的图片,比如BMP、GIF、JPEG、PNG、WebP以及SVG等。

但是,Google是如何知道这些图片是有关咖啡的,而不是有关茶的呢?当我们的算法索引图片时,它会研究图片所在网页上的文字内容,以了解更多有关该图片的信息。另外,我们也会参考该网页的标题及其主体内容;可能还会从该图片的文件名、指向它的链接锚文本(anchor text)、以及它的“替代文本( alt text )”中了解更多的信息;也许会使用计算机视觉来更详细地了解该图片,如果文本也存在于该网页上,也可以使用 图片站点地图 中提供的说明性文字。

为了帮助我们索引您的图片,请确保:
•    您的图片以及嵌入了图片的HTML页面都是可以被Google抓取的;
•    图片使用的是我们支持的格式:BMP、GIF、JPEG、PNG、WebP或SVG。

此外,我们建议:
•    图片的文件名与图片的内容相关联;
•    图片的alt属性应该用便于记忆和识别的文字描述;
•    最后,如果HTML页面上的文字内容以及图片附近的文本与该图片相关,也会有助于Google索引图片。

接下来我们来回答一些常见问题:

问:为什么有时侯我看到的是Googlebot抓取我的图片,而不是Googlebot-Image?
答:一般来说,如果Google不清楚一个URL是否会链接到某个图片时,就会发生这种情况,所以我们会先用Googlebot来抓取该URL。如果我们确定该URL链接到某个图片,则通常会使用Googlebot-Image重新访问。正因为如此,一般来说,比较好的做法是允许Googlebot 和Googlebot-Image能够同时抓取您的图片和网页。

问:这些图片有最大文件尺寸限制,是真的吗?
答:我们很高兴能够索引任何大小的图片;没有文件大小方面的限制。

问:EXIF、XMP以及我的图片中包含的其他元数据会怎么样?
答:我们可能会使用所发现的任何信息,以帮助我们的用户更轻松地找到他们正在寻找的资源。此外,诸如EXIF数据之类的信息可能会显示在您点击某个图片时出现的空隙页面右侧边栏中。



问:我真的应该提交图片站点地图吗?这有什么好处?
答:是的! 图片站点地图 会帮助我们了解您的新图片,也可以帮助我们了解这些图片讲述的内容。

问:我正在使用CDN托管我的图片,那么我如何能够同时使用图片站点地图呢?
答: 跨域限制 只适用于站点地图的标签。在图片站点地图中,允许该标签指向其他域上的URL,所以您对自己的图片使用CDN托管不会有什么影响。另外,我们也鼓励您在网站管理员工具中验证CDN域名,以便我们可以通知您我们可能会发现的任何抓取错误。

问:如果Google可以在我拥有的多个域或子域上找到我的图片,比如CDN或相关网站,会有麻烦吗?
答:一般来说,最好的做法是任何类型的内容都只提供一份副本。如果您跨多个主机名复制自己的图片,那么,我们的算法可能会选择其中一份作为该图片的典型副本,而该副本有可能并不是您的首选版本。另外,这也会导致我们对您的图片的抓取和索引速度变慢。

问:有时侯我们会发现某张图片的原始来源的排名会低于其他来源,这是为什么?
答:请记住,我们是使用网页上的文本内容来确定图片背景信息的。例如,如果图片的原始来源是某图片库的一个只有很少量文本内容的网页,那么,含有大量文本内容的网页有可能在搜索结果中排名靠前。如果您发现某项特定查询的搜索结果非常不准确,那么请点击搜索结果下方的反馈链接进行反馈,或在我们的 网站管理员帮助论坛 中分享您的示例。

安全搜索功能
如果用户启用了安全搜索过滤器,我们的算法就会使用多种信号来决定是否应从搜索结果中过滤出某幅图片 ——或某个完整网页(在网页搜索的情况下)。在过滤图片时,这些信号中有一些是通过计算机视觉生成的,不过,安全搜索算法也会考虑一些比较简单的因素,比如该图片曾经的使用地点以及使用背景等。

然而,自我标记的成人网页是最强的信号之一。所以我们建议,管理那些发布成人内容的网站管理员应使用下列任意一种元标签标记他们的网页:

<meta name="rating" content="adult" />
<meta name="rating" content="RTA-5042-1996-1400-1577-RTA" />

很多用户不希望看到他们的搜索结果中包含成人内容(尤其是与孩子使用同一台计算机的用户)。此时,如果网站管理员提供任意一种此类元标签,用户将不会再搜索出他们不希望看到的搜索结果,从而得到更好的用户体验。

与所有其他的算法相同,安全搜索有时候也可能会发生不小心把内容过滤掉的情况。如果您认为安全搜索功能错误地过滤了您的图片或网页,请使用 下方的表单 告诉我们。

如果您想了解更多关于我们如何索引图片的信息,请到我们的帮助中心查看 图片板块 ,阅读我们的 《搜索引擎优化初学者指南》 ,其中包含大量的相关信息;如果您还有其他问题,请到 网站管理员帮助论坛 发帖咨询。