Pliki PDF w wynikach wyszukiwania Google

Czwartek, 1 września 2011 r.

Podstawową misją Google jest porządkowanie informacji z całego świata oraz udostępnianie ich do ogólnego użytku. Podczas wykonywania tego ambitnego zadania napotykamy czasami pliki w formacie innym niż HTML, np. pliki PDF, arkusze kalkulacyjne czy prezentacje. To żaden problem dla naszych algorytmów. Pracujemy nad tym, by wyodrębniać odpowiednie treści i właściwie je indeksować na potrzeby wyników wyszukiwania. Jak naprawdę wygląda indeksowanie tych typów plików i jakie wytyczne obowiązują w ich przypadku, skoro często te pliki znacznie się różnią od standardowego kodu HTML? Co się dzieje, jeśli webmaster nie chce, abyśmy je indeksowali?

Pliki PDF zaczęliśmy indeksować w 2001 roku i obecnie mamy setki milionów zindeksowanych plików tego typu. Zebraliśmy najczęstsze pytania dotyczące indeksowania plików PDF, a oto odpowiedzi:

P: Czy Google może indeksować pliki PDF dowolnego typu?
O: Z reguły możemy indeksować zawartość tekstową (w dowolnym języku) pochodzącą z plików PDF, w których zastosowano różne rodzaje kodowania znaków – pod warunkiem, że nie są one chronione hasłem ani zaszyfrowane. Jeśli treść jest umieszczona jako obraz, możemy ją przetworzyć za pomocą algorytmów OCR, aby wyodrębnić tekst. Ogólna zasada jest taka, że jeśli da się skopiować tekst z dokumentu PDF i wkleić go do standardowego dokumentu tekstowego, można go zindeksować.

P: Co się dzieje z obrazami w plikach PDF?
O: Obecnie obrazy nie są indeksowane. Abyśmy mogli zindeksować obrazy, musisz dla nich utworzyć strony HTML. Aby zwiększyć prawdopodobieństwo, że Twoje obrazy pojawią się w wynikach wyszukiwania, przeczytaj Sprawdzone metody korzystania z Grafiki Google.

P: Jak traktowane są linki w dokumentach PDF?
O: Ogólnie linki w plikach PDF są traktowane podobnie do linków w plikach HTML: mogą przekazywać PageRank oraz inne sygnały indeksowania, a po zindeksowaniu pliku PDF można je też śledzić. Obecnie w dokumentach PDF nie można używać linków nofollow.

P: Jak mogę zapobiec wyświetlaniu moich plików PDF w wynikach wyszukiwania? Albo jak je usunąć, jeśli się tam pojawiają?
O: Najprostszym sposobem, aby zablokować wyświetlanie dokumentów PDF w wynikach wyszukiwania, jest dodanie tagu X-Robots-Tag: noindex w nagłówku HTTP używanym do wyświetlania pliku. Jeśli zostały już zindeksowane, z czasem znikną z wyników, jeśli użyjesz tagu X-Robot-Tag z regułą noindex. Aby przyspieszyć ich usunięcie, możesz użyć narzędzia do usuwania adresów URL dostępnego w Narzędziach Google dla webmasterów.

P: Czy pliki PDF mogą mieć wysoką pozycję w wynikach wyszukiwania?
O: Oczywiście. Zwykle zajmują one podobną pozycję w rankingu jak inne strony internetowe. Na przykład w momencie publikacji tego posta wyszukiwane hasła: przegląd rynku hipotecznego, formularz IRS 2011 czy paracetamol ekspertyza zwracają dokumenty PDF, które zajmują wysoką pozycję w wynikach wyszukiwania dzięki zawartym w nich treściom, sposobowi, w jaki zostały umieszczone na stronach internetowych, i linkom prowadzącym do nich z innych stron.

P: Jeśli mam strony zarówno w formacie HTML, jak i PDF, to czy ich zawartość zostanie uznana za powielone treści?
O: Jeśli to możliwe, zalecamy wyświetlanie jednej kopii treści. Jeśli to niemożliwe, wskaż preferowaną wersję, na przykład uwzględniając preferowany adres URL w mapie witryny albo określając wersję kanoniczną w kodzie HTML lub nagłówkach HTTP zasobu PDF. Więcej wskazówek znajdziesz w artykule o wyborze strony kanonicznej w naszym Centrum pomocy.

P: Jaki mam wpływ na tytuł mojego dokumentu PDF wyświetlany w wynikach wyszukiwania?
O: Do ustalenia wyświetlanego tytułu używamy głównie 2 elementów: tytułu z metadanych pliku oraz tekstu kotwicy linków wskazujących dany plik PDF. Zalecamy zaktualizowanie obu tych elementów, aby nasze algorytmy otrzymały wyraźny sygnał, którego tytułu powinniśmy użyć.

Aby dowiedzieć się więcej, obejrzyj film Matta Cutta o optymalizacji plików PDF pod kątem wyszukiwania i odwiedź nasze Centrum pomocy, gdzie znajdziesz informacje o typach treści, które możemy indeksować. Jeśli masz propozycje albo chcesz się podzielić opinią, skontaktuj się z nami na Forum pomocy dla webmasterów.