Szczegółowy przewodnik po działaniu wyszukiwarki Google

Wyszukiwarka Google jest w pełni zautomatyzowaną wyszukiwarką korzystającą z programów nazywanych robotami indeksującymi, które regularnie przeglądają różne zakątki sieci w poszukiwaniu nowych stron i dodają je do naszego indeksu. Znaczna większość stron wyświetlanych w naszych wynikach nie została zgłoszona ręcznie do uwzględnienia w indeksie, ale znaleziona i dodana automatycznie podczas przeszukiwania sieci przez nasze roboty indeksujące. W tym dokumencie opisujemy etapy działania wyszukiwarki w kontekście Twojej witryny. Podstawowa wiedza na ten temat pomoże Ci rozwiązywać problemy ze skanowaniem oraz indeksowaniem stron i poznać metody optymalizacji wyświetlania witryny w wyszukiwarce Google.

Kilka uwag na początek

Zanim przejdziemy do szczegółowych informacji o działaniu wyszukiwarki, musimy zaznaczyć, że Google nie przyjmuje opłat za częstsze indeksowanie stron ani za poprawę ich pozycji w rankingu. Jeśli ktoś twierdzi inaczej, po prostu się myli.

Nie gwarantujemy skanowania, indeksowania ani wyświetlania Twojej strony w wynikach, nawet jeśli jest ona zgodna z podstawowymi zasadami wyszukiwania w Google.

Wyszukiwarka Google działa w 3 etapach i nie wszystkie strony przechodzą przez każdy z nich:

  1. Skanowanie: Google pobiera tekst, obrazy i filmy ze stron znalezionych w internecie, korzystając z automatycznych programów nazywanych robotami.
  2. Indeksowanie: Google analizuje tekst, obrazy i pliki wideo na stronie, a następnie przechowuje informacje w indeksie Google, czyli w dużej bazie danych.
  3. Wyświetlanie wyników wyszukiwania: gdy użytkownik wyszukuje informacje w Google, wyszukiwarka zwraca informacje pasujące do jego zapytania.

Skanowanie

Pierwszy krok to zdobycie informacji o tym, jakie strony występują w internecie. Nie ma centralnego rejestru wszystkich stron internetowych, dlatego Google musi nieustannie szukać nowych i zaktualizowanych stron i dodawać je do listy tych, które są już znane. Ten proces nazywa się „wykrywaniem adresów URL”. Niektóre strony są znane, bo robot Google już je odwiedził. O istnieniu nowych stron Google dowiaduje się, śledząc linki ze znanych stron: na przykład strona centrum, taka jak strona kategorii, zawiera link do nowego posta na blogu. Inne strony udaje się znaleźć dzięki przesłanym listom stron (mapom witryn) do zindeksowania przez Google.

Gdy Google znajdzie adres URL strony, może ją odwiedzić (lub ją „zindeksować”), aby dowiedzieć się, co ona zawiera. Do skanowania miliardów stron internetowych używamy ogromnej liczby komputerów. Aplikacją odpowiedzialną za te czynności jest Googlebot (zwany też robotem, botem lub pająkiem). Googlebot działa według określonych algorytmów, aby wybierać witryny, które należy zindeksować, i ustalać, jak często mają być sprawdzane oraz ile stron z danej witryny pobrać. Roboty Google są tak zaprogramowane, aby nie indeksowały witryny zbyt szybko, żeby jej nie przeciążać. Mechanizm działa na podstawie odpowiedzi witryny (na przykład występowanie błędów HTTP 500 oznacza, że trzeba zwolnić działanie) i ustawień w Search Console.

Googlebot nie indeksuje wszystkich wykrytych stron. Właściciel witryny może nie zezwolić na indeksowanie niektórych jej stron, a inne mogą być niedostępne bez zalogowania się w witrynie.

Podczas indeksowania Google renderuje stronę i uruchamia znaleziony kod JavaScript przy użyciu najnowszej wersji Chrome, podobnie jak używana przez Ciebie przeglądarka renderuje strony, które odwiedzasz. Renderowanie jest ważne, ponieważ strony często pobierają treść za pomocą JavaScriptu, a bez renderowania Google może ich nie widzieć.

Skanowanie zależy od tego, czy roboty Google mają dostęp do witryny. Do częstych problemów z dostępem Googlebota do witryn należą:

Indeksowanie

Po znalezieniu strony Google stara się rozpoznać jej tematykę. Ten etap nazywa się indeksowaniem i obejmuje przetwarzanie oraz analizę treści tekstowych, kluczowych tagów i atrybutów treści, takich jak elementy <title> i atrybuty alt, obrazy, filmy oraz innych treści.

Podczas indeksowania Google sprawdza, czy strona nie jest duplikatem innej strony w internecie lub stroną kanoniczną. Strona kanoniczna to taka, która może pojawiać się w wynikach wyszukiwania. Aby wybrać stronę kanoniczną, najpierw gromadzimy strony znalezione w internecie z podobną zawartością (tworzymy z nich klaster), a potem wybieramy tę, która jest najbardziej reprezentatywna dla grupy. Pozostałe strony w grupie to wersje alternatywne, które mogą być wyświetlane w różnych kontekstach, np. gdy użytkownik wyszukuje na urządzeniu mobilnym lub szuka konkretnej strony z tej grupy.

Google zbiera też sygnały dotyczące strony kanonicznej i jej zawartości, których może użyć w następnym etapie, czyli wyświetlaniu strony w wynikach wyszukiwania. Niektóre sygnały to między innymi język strony, kraj, na który skierowana jest treść, czy łatwość poruszania się po stronie.

Zebrane informacje o stronie kanonicznej i jej klastrze mogą być przechowywane w indeksie Google – dużej bazie danych hostowanej na tysiącach komputerów. Indeksowanie nie jest gwarantowane. Nie każda strona przetwarzana przez Google jest indeksowana.

Indeksowanie zależy również od zawartości strony i jej metadanych. Oto niektóre typowe problemy z indeksowaniem:

Wyświetlanie wyników wyszukiwania

Gdy użytkownik wpisuje zapytanie, nasze komputery wyszukują w indeksie pasujące strony, a potem zwracają wyniki, które w naszej ocenie mają najwyższą jakość i są najtrafniejsze względem zapytania użytkownika. Trafność jest określana na podstawie setek czynników, które mogą obejmować takie informacje jak lokalizacja, język i urządzenie użytkownika (komputer lub telefon). Dzięki temu zapytanie „naprawa rowerów” powoduje wyświetlenie użytkownikowi w Warszawie innych wyników niż w Hongkongu.

Niekiedy Search Console może wskazywać, że strona jest zindeksowana, mimo że nie widać je w wynikach wyszukiwania. Możliwe przyczyny:

Ten przewodnik wyjaśnia sposób działania wyszukiwarki. Pamiętaj jednak, że stale pracujemy nad ulepszaniem naszych algorytmów. Aby śledzić te zmiany, obserwuj bloga Centrum wyszukiwarki Google.