Google 如何针对存在语言或字母系统不一致问题的文档生成标题
2022 年 6 月 3 日,星期五
本周,我们在算法方面进行了一些改进,以便识别标题元素与其内容采用不同语言或字母系统编写的文档,并选择与文档语言和字母系统类似的标题。这是基于以下一般原则:文档标题应该与其主要内容使用同一种语言或字母系统来编写。这是我们可能不再局限于网页搜索结果标题的标题元素的原因之一。
多语言标题
多语言标题用两种不同的语言或字母系统重复同一短语。最常见的格式是在原始标题文本中附加英文版本。
गीतांजलि की जीवनी - Geetanjali Biography in Hindi
在此示例中,标题由两部分组成(用连字符分隔),它们以不同的语言(印地语和英语)表示相同的内容。虽然标题采用两种语言,但文档本身只使用印地语编写。我们的系统检测到这种不一致的情况,可能只使用印地语标题文字,例如:
गीतांजलि की जीवनी
拉丁文字标题
音译是指用一种语言编写的内容转换为使用不同字母系统或字母的另一种语言。例如,假设某首歌曲的网页标题是用印地语写的,但经过音译后使用了拉丁字符,而不是印地语的母语梵文:
jis desh me holi kheli jati hai
在这种情况下,我们的系统会尝试使用网页上占据主导地位的字母系统查找替代标题,本例中可能是:
जिस देश में होली खेली जाती है
摘要
一般情况下,我们的系统往往使用网页的标题元素。如果网页包含多语言或音译标题,我们的系统可能会寻找与网页主导语言相匹配的替代标题。因此,最好提供与网页主要内容的语言和/或字母系统相匹配的标题。
欢迎在我们的论坛中进一步提供反馈,包括以英语和日语讨论此主题的现有帖子。
发布者:Google 搜索团队的 Koji Kojima
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
[null,null,[],[[["Google Search is now using an algorithmic improvement to identify and select titles that match the language and script of the webpage content."],["This update primarily affects pages with multilingual or transliterated titles where the title element differs from the page's main content."],["Google's system may choose alternative titles to better reflect the page's predominant language and script, improving user experience."],["Website owners are encouraged to ensure their page titles align with the language and script of their content for optimal search results."]]],["An algorithmic improvement was introduced to identify and correct title inconsistencies. When a document's title differs in language or script from its content, the system now selects a title that aligns with the document's primary language. For multilingual titles that contain the same text in multiple languages, the system may use only the part that matches the document's content language. For transliterated titles, the system may seek titles using the predominant script of the page.\n"]]