PDF dalam hasil penelusuran Google

Kamis, 01 September 2011

Misi kami adalah mengelola informasi dunia serta membuatnya berguna dan dapat diakses semua orang. Dalam misi yang ambisius ini, terkadang kami menemukan file non-HTML seperti PDF, spreadsheet, dan presentasi. Kami tidak membiarkan berbagai jenis file ini memperlambat algoritme kami; kami berupaya keras untuk mengekstrak konten yang relevan dan mengindeksnya dengan tepat untuk hasil penelusuran kami. Namun, sebenarnya bagaimana cara kami mengindeks jenis file ini, dan—karena sering kali berbeda jauh dengan HTML standar—pedoman apa yang berlaku untuk file tersebut? Bagaimana jika webmaster tidak ingin kami mengindeksnya?

Google mulai mengindeks file PDF pertama kali pada tahun 2001 dan saat ini telah mengindeks ratusan juta file PDF. Kami telah mengumpulkan pertanyaan paling umum tentang pengindeksan PDF; berikut jawabannya:

T: Bisakah Google mengindeks semua jenis file PDF?
J: Umumnya kami dapat mengindeks konten tekstual (yang ditulis dalam bahasa apa pun) dari file PDF yang menggunakan berbagai jenis encoding karakter, selama konten tersebut tidak dilindungi sandi atau dienkripsi. Jika teks disematkan sebagai gambar, kami dapat memproses gambar tersebut dengan algoritme OCR untuk mengekstrak teksnya. Prinsipnya adalah jika Anda dapat menyalin dan menempelkan teks dari dokumen PDF ke dokumen teks standar, kami juga dapat mengindeks teks tersebut.

T: Bagaimana dengan gambar dalam file PDF?
J: Saat ini gambar tidak diindeks. Agar kami dapat mengindeks gambar, Anda harus membuat halaman HTML untuk gambar tersebut. Untuk meningkatkan peluang gambar Anda ditampilkan di hasil penelusuran kami, harap baca praktik terbaik Google Gambar.

T: Bagaimana link diperlakukan dalam dokumen PDF?
J: Umumnya, link dalam file PDF diperlakukan mirip seperti link di HTML: link tersebut dapat melalui PageRank dan sinyal pengindeksan lainnya, dan kami mungkin akan mengikutinya setelah kami meng-crawl file PDF-nya. Saat ini, Anda tidak dapat menggunakan link nofollow dalam dokumen PDF.

T: Bagaimana cara mencegah file PDF saya muncul di hasil penelusuran; atau jika sudah muncul, bagaimana cara menghapusnya?
J: Cara paling sederhana untuk mencegah dokumen PDF muncul di hasil penelusuran adalah dengan menambahkan X-Robots-Tag: noindex di header HTTP yang digunakan untuk menayangkan file. Jika link sudah diindeks, lama-kelamaan link akan dihapus jika Anda menggunakan X-Robot-Tag dengan aturan noindex. Untuk penghapusan yang lebih cepat, Anda dapat menggunakan alat penghapusan URL di Alat WebMaster Google.

T: Bisakah file PDF mendapatkan peringkat tinggi di hasil penelusuran?
J: Tentu saja. Peringkat file PDF umumnya mirip dengan halaman web lainnya. Misalnya, pada waktu postingan ini dipublikasikan, mortgage market review, irs form 2011, atau paracetamol expert report semuanya menampilkan dokumen PDF dan berhasil mendapatkan peringkat tinggi di hasil penelusuran kami, berkat kontennya dan cara penyematan serta penautannya dari halaman web lain.

T: Apakah akan dianggap sebagai konten duplikat jika saya memiliki salinan halaman dalam bentuk HTML dan PDF?
J: Jika memungkinkan, sebaiknya tayangkan satu salinan untuk setiap konten Anda. Jika tidak memungkinkan, pastikan Anda menunjukkan versi yang lebih disukai dengan, misalnya, menyertakan URL yang lebih disukai di peta situs atau dengan menentukan versi kanonis di HTML atau di header HTTP resource PDF. Untuk tips lainnya, baca artikel Pusat Bantuan kami tentang kanonikalisasi.

T: Bagaimana cara memengaruhi judul yang ditampilkan di hasil penelusuran dokumen PDF saya?
J: Kami menggunakan dua elemen utama untuk menentukan judul yang ditampilkan: metadata judul dalam file, dan teks link pada link yang mengarah ke file PDF. Agar algoritme kami mendapatkan sinyal kuat mengenai judul yang tepat untuk digunakan, sebaiknya perbarui kedua elemen tersebut.

Jika Anda ingin mempelajari lebih lanjut, tonton video Matt Cutts tentang pengoptimalan file PDF untuk penelusuran, dan kunjungi Pusat Bantuan kami untuk mengetahui informasi tentang jenis konten yang dapat kami indeks. Jika ada masukan atau saran, harap beri tahu kami di Forum Bantuan Webmaster.