Piątek, 17 września 2021 r.
W zeszłym miesiącu podzieliliśmy się informacjami na temat naszego nowego systemu generowania tytułów dla wyników ze stronami internetowymi. Dzięki opiniom naszych użytkowników mogliśmy go ulepszyć. Oto więcej informacji o tym, nad czym ostatnio pracujemy, oraz dodatkowe wskazówki dla twórców.
Najczęściej używane są elementy tytułu
Jak pisaliśmy w ostatnim poście, nasz nowy system korzysta z treści w elementach HTML tytułu (inaczej tagach tytułu), aby wyświetlać tytuły w przypadku większości stron internetowych. Na podstawie otrzymanych opinii wprowadziliśmy w naszym systemie zmiany. Polegają one na tym, że elementy tytułu są teraz używane w około 87% przypadków, a nie jak dotychczas – w około 80% przypadków.
Dlaczego nie używamy elementów tytułu w 100% przypadków? W przypadkach, gdy nasze systemy wykryją, że element tytułu nie opisuje strony w wystarczający sposób, od 2012 roku używamy tekstu znalezionego w innych miejscach. Tytuły niektórych stron są puste. Niektóre strony mają takie same tytuły niezależnie od treści. Niektóre strony w ogóle nie mają elementów tytułu.
Przykłady korzystania z tekstu poza elementami tytułu
Nasz nowy system został opracowany tak, aby lepiej działał w sytuacjach, gdy informacje spoza elementów tytułu mogą być przydatne. Oto kilka przykładów tego, co wykrywa system i jakie wprowadza korekty. Przykłady utworzyliśmy na podstawie prawdziwych problemów, jakie wyszukiwarka napotyka na bilionach stron.
Tytuły niepełne
Tytuły niepełne często występują wtedy, gdy administratorzy dużych witryn używają szablonów do tworzenia tytułów i brakuje części informacji. Szablon może np. w pierwszej części tytułu umieszczać podsumowanie strony, a w drugiej nazwę witryny. W niepełnych tytułach często brakuje podsumowania, więc wyglądają na przykład tak:
| Nazwa witryny
Nasz system został opracowany tak, aby wykrywał niepełne tytuły i dostosowywał je, korzystając z informacji w elementach nagłówka lub innych części strony ze znaczną ilością tekstu. Pozwala to uzyskać tytuł, który prawdopodobnie miała przekazywać witryna, na przykład taki:
Nazwa produktu | Nazwa witryny
Tytuły nieaktualne
Tytuły nieaktualne występują wtedy, gdy ta sama strona jest cyklicznie używana do przekazywania niemal tych samych informacji, ale element tytułu nie jest aktualizowany o najnowszą datę. Weźmy na przykład taki element tytułu:
Kryteria przyjęcia na rok 2020 – Uniwersytet wielu talentów
W tym przykładzie tytuł strony informuje o tym, że jej treść mówi o warunkach przyjęcia na studia. Strona ma duży, widoczny nagłówek „Kryteria przyjęcia na rok 2021”, ale z jakiegoś powodu element tytułu nie został zaktualizowany do bieżącej daty. Nasze systemy wykrywają ten brak spójności i korzystają z daty w nagłówku, aby utworzyć taki tytuł:
Kryteria przyjęcia na rok 2021 – Uniwersytet wielu talentów
Tytuły niedokładne
Czasami tytuły nie dość dokładnie odzwierciedlają treść strony. Na przykład strona może mieć zawartość dynamiczną z elementem tytułu w tej postaci:
Duże, pluszowe zwierzaki, niedźwiedzie, misie polarne – nazwa witryny
Sugeruje to, że odwiedzający stronę powinni znaleźć na niej produkty wymienione w tytule. Pojawia się jednak problem, ponieważ jest to tytuł statyczny, a zawartość strony dynamicznie się zmienia. Czasami te produkty występują na stronie, a czasami nie.
Nasz system próbuje wykryć, czy tytuł prawidłowo sugeruje, jaka jest zawartość strony. Jeśli system wykryje niezgodność, modyfikuje tytuł, aby użytkownicy byli lepiej poinformowani o tym, co mogą znaleźć na stronie:
Pluszowe zwierzaki – nazwa witryny
Tytuły powtarzające się na małą skalę
Powtarzające się tytuły są łatwe do wykrycia. Ten sam tytuł pojawia się na wszystkich lub niemal wszystkich stronach witryny. Inaczej są to powtarzające się elementy tytułów, które występują w podzbiorze stron w witrynie. Nasz system je wykrywa, tak samo jak wykrywa powtarzające się elementy tytułów w całej witrynie.
Jako przykład posłuży nam forum dyskusyjne o programach telewizyjnych. Froum może mieć różne obszary przewidziane do rozmów na temat różnych programów, a także obszary przewidziane na wątki, gdzie toczy się dyskusja na temat poszczególnych odcinków danego programu. Elementy tytułu powtarzające się na małą skalę występują na stronach o sezonach. W tytułach pominięte są numery sezonów, dlatego trudno się zorientować, która strona służy do rozmów na temat konkretnego sezonu. Przez to pojawiają się tytuły powielone:
Najlepszy serial na świecie
Najlepszy serial na świecie
Najlepszy serial na świecie
Nasz system wykrywa numery sezonów używane w dużych, dobrze widocznych tekstach nagłówków i wstawia go do tytułów. Dzięki temu są one bardziej przydatne:
Sezon 1 – Najlepszy serial na świecie
Sezon 2 – Najlepszy serial na świecie
Sezon 3 – Najlepszy serial na świecie
Wskazówki dla właścicieli witryn
Nasza główna rada dla właścicieli witryn ogólnie jest taka sama jak na naszej stronie pomocy na ten temat. Należy dbać o tworzenie świetnych tagów HTML tytułu. To właśnie z nich najbardziej korzystamy.
Zalecamy też przyjrzenie się naszym przykładom. Być może w Twojej witrynie znajdują się tytuły skonstruowane w podobny sposób, przez co nasze systemy szukają informacji poza elementami tytułu. Wprowadzone przez nas zmiany mają głównie zapobiegać występowaniu problemów z tytułami, z których istnienia twórcy mogą sobie nie zdawać sprawy. Dzięki tym zmianom zwiększa się szansa na wykorzystanie elementów tytułu. Również nam na tym zależy.
Nadal będziemy pracować nad ulepszaniem tytułów
Żaden system generowania tytułów nigdy nie będzie działać perfekcyjne. Używanie elementów tytułów w 100% wiąże się z problemami, które opisaliśmy powyżej. Zdajemy sobie również sprawę z tego, że nasz system obsługi tytułów nie jest doskonały. Opinia naszych użytkowników bardzo pomogła nam ulepszyć nasz system. Zachęcamy do dalszego dzielenia się swoimi opiniami na naszym forum dyskusyjnym, w tym w istniejących wątkach dotyczących tego tematu w językach angielskim i japońskim.