Jak Google generuje tytuły dokumentów, których język lub skrypt są nieprawidłowo dopasowane

Piątek, 3 czerwca 2022 r.

W tym tygodniu wprowadziliśmy udoskonalenie algorytmu identyfikującego dokumenty, w których element tytułu lub jest napisany w innym języku lub alfabecie niż zawartość, i wybiera tytuł podobny do języka i skryptu dokumentu. Jest to zgodne z ogólną zasadą, że tytuł dokumentu powinien być napisany w języku lub alfabecie jego głównej zawartości. To jeden z powodów, dla których elementy tytułów mogą wykraczać poza tytuły wyników wyszukiwania.

Tytuły wielojęzyczne

Tytuły wielojęzyczne powtarzają to samo wyrażenie w 2 różnych językach lub alfabetach. Najpopularniejszy wzorzec to dołączanie angielskiej wersji tekstu do tytułu.

गीतांजलि की जीवनी - biografia Geetanjali w hindi

W tym przykładzie tytuł składa się z 2 części (podzielonych łącznikiem) i zawiera te same treści w różnych językach (hindi i angielskim). Tytuł jest w obu językach, ale sam dokument jest tylko w języku hindi. Nasz system wykrywa takie niespójności i może używać tylko tekstu nagłówka w języku hindi, na przykład:

गीतांजलि की जीवनी

Tytuły w alfabecie łacińskim

Transliteracja oznacza sytuację, gdy treść jest napisana w innym języku, a za pomocą innego pisma lub alfabetu. Weźmy na przykład tytuł strony z utworem napisanym w języku hindi, ale z transliteracją, aby użyć znaków łacińskich zamiast natywnego pisma dewanagari w języku hindi:

jis desh me holi kheli jati hai

W takim przypadku nasz system próbuje znaleźć alternatywny tytuł, korzystając ze skryptu dominującego na stronie, który w tym przypadku może być:

जिस देश में होली खेली जाती है

Podsumowanie

Zasadniczo nasze systemy używają elementu tytułu strony. W przypadku tytułów wielojęzycznych lub z transliteracją nasze systemy mogą wyszukiwać alternatywy pasujące do dominującego języka strony. Dlatego warto użyć tytułu, który jest zgodny z językiem lub alfabetem głównej treści strony.

Zachęcamy do dalszego dzielenia się swoimi opiniami na naszym forum dyskusyjnym, w tym w istniejących wątkach dotyczących tego tematu w językach angielskimjapońskim.