Google 如何為語言或指令碼不一致的文件產生標題
2022 年 6 月 3 日,星期五
我們在本週對演算法進行一些改善,以識別標題元素與內容採用不同語言或指令碼撰寫的文件,並選擇與文件語言和指令碼相似的標題。這個機制是以一般原則為根據,也就是文件標題應以主要內容的語言或指令碼撰寫。
我們將使用網頁搜尋結果標題的標題元素以外的內容,而這是其中一個原因。
多語言標題
多語言標題會用兩種不同的語言或指令碼重複相同的詞組。
最常用的模式就是在原文標題文字中附加英文版本。
गीतांजलि की जीवनी - Geetanjali Biography in Hindi
在這個範例中,標題是由兩個部分組成 (以連字號分隔),以不同的語言 (北印度文和英文) 表示相同的內容。雖然標題使用兩種語言,但文件本身僅使用北印度文撰寫。我們的系統偵測到這種不一致的狀況,可能只使用北印度文的標題文字,例如:
गीतांजलि की जीवनी
拉丁字母書寫的標題
音譯是指將用一種語言撰寫的內容轉換為另一種使用不同字集或字母的語言。例如,假設某首歌曲的網頁標題是以北印度文撰寫,但是經過音譯後卻使用了拉丁字元,而非北印度文的梵文字母,例如:
jis desh me holi kheli jati hai
在這種情況下,我們的系統會嘗試使用網頁上主要的字集來尋找替代標題,在這個案例中可能是:
जिस देश में होली खेली जाती है
摘要
一般來說,我們的系統通常會使用網頁的標題元素。如果是多語言或音譯標題,我們的系統會尋找符合網頁主要語言的替代文字。因此,最好是提供與網頁主要內容的語言和/或字集相符的標題。
歡迎您繼續在論壇中 (包括這個主題現有的英文和日文討論串) 提供更多意見。
發文者:Google 搜尋團隊的 Koji Kojima
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
[null,null,[],[[["Google Search is now using an algorithmic improvement to identify and select titles that match the language and script of the webpage content."],["This update primarily affects pages with multilingual or transliterated titles where the title element differs from the page's main content."],["Google's system may choose alternative titles to better reflect the page's predominant language and script, improving user experience."],["Website owners are encouraged to ensure their page titles align with the language and script of their content for optimal search results."]]],["An algorithmic improvement was introduced to identify and correct title inconsistencies. When a document's title differs in language or script from its content, the system now selects a title that aligns with the document's primary language. For multilingual titles that contain the same text in multiple languages, the system may use only the part that matches the document's content language. For transliterated titles, the system may seek titles using the predominant script of the page.\n"]]