PDF trong kết quả tìm kiếm trên Google

Thứ Năm, ngày 1 tháng 9 năm 2011

Sứ mệnh của chúng tôi là sắp xếp thông tin của thế giới, giúp những thông tin đó trở nên hữu ích và dễ dàng tiếp cận trên toàn cầu. Trong quá trình thực hiện nhiệm vụ đầy tham vọng này, đôi khi chúng tôi gặp phải các tệp không phải HTML như PDF, bảng tính và bản trình bày. Thuật toán của chúng tôi không cho phép mình chậm lại vì sự đa dạng của các loại tệp. Chúng tôi luôn nỗ lực để trích xuất nội dung liên quan và lập chỉ mục nội dung đó một cách phù hợp cho kết quả tìm kiếm. Nhưng làm cách nào để chúng tôi lập chỉ mục các loại tệp này và những nguyên tắc nào áp dụng cho các tệp này khi mà chúng quá khác biệt so với tệp HTML tiêu chuẩn? Nếu quản trị viên trang web không muốn chúng tôi lập chỉ mục các tệp đó thì sao?

Google bắt đầu lập chỉ mục các tệp PDF vào năm 2001 và hiện có hàng trăm triệu tệp PDF đã được lập chỉ mục. Chúng tôi đã thu thập các câu hỏi thường gặp nhất về việc lập chỉ mục tệp PDF. Sau đây là câu trả lời:

Hỏi: Google có lập chỉ mục được tất cả các loại tệp PDF không?
Đáp: Nhìn chung, chúng tôi có thể lập chỉ mục nội dung văn bản (viết bằng ngôn ngữ bất kỳ) trong các tệp PDF sử dụng nhiều loại mã hoá ký tự, miễn là những tệp này không được mã hoá hay bảo vệ bằng mật khẩu. Nếu văn bản được nhúng dưới dạng hình ảnh, chúng tôi có thể xử lý hình ảnh bằng thuật toán OCR để trích xuất văn bản. Quy tắc chung là nếu bạn có thể sao chép và dán văn bản từ một tài liệu PDF vào một tài liệu văn bản bình thường, thì chúng tôi cũng có thể lập chỉ mục văn bản đó.

Hỏi: Hình ảnh trong tệp PDF sẽ được xử lý như thế nào?
Đáp: Hiện tại, những hình ảnh như vậy chưa được lập chỉ mục. Nếu muốn chúng tôi lập chỉ mục hình ảnh của bạn, bạn nên tạo trang HTML cho hình ảnh đó. Để tăng khả năng chúng tôi trả về hình ảnh của bạn trong kết quả tìm kiếm, vui lòng đọc các phương pháp hay nhất về Google Hình ảnh.

Hỏi: Các đường liên kết trong tài liệu PDF được xử lý như thế nào?
Đáp: Nhìn chung, các đường liên kết trong tệp PDF được xử lý tương tự như các đường liên kết trong HTML: những đường liên kết này có thể chuyển PageRank và các tín hiệu lập chỉ mục khác. Chúng tôi có thể đi theo các đường liên kết này sau khi thu thập dữ liệu tệp PDF. Hiện tại, bạn không thể sử dụng đường liên kết nofollow trong tài liệu PDF.

Hỏi: Làm cách nào để tôi có thể ngăn tệp PDF của mình xuất hiện trong kết quả tìm kiếm; hoặc nếu tệp PDF đã xuất hiện trong kết quả tìm kiếm rồi thì làm cách nào để xoá nội dung đó?
Đáp: Cách đơn giản nhất để ngăn tài liệu PDF xuất hiện trong kết quả tìm kiếm là thêm một X-Robots-Tag: noindex trong tiêu đề HTTP dùng để phân phát tệp đó. Nếu tệp đã được lập chỉ mục, nó sẽ biến mất theo thời gian khi bạn sử dụng X-Robot-Tag có quy tắc noindex. Để xoá nhanh hơn, bạn có thể sử dụng Công cụ xoá URL trong Công cụ quản trị trang web của Google.

Hỏi: Tệp PDF có thể xếp hạng cao trong kết quả tìm kiếm không?
Đáp: Chắc chắn là có rồi! Tệp PDF thường được xếp hạng tương tự như các trang web khác. Ví dụ: tại thời điểm đăng bài này, các cụm từ tìm kiếm đánh giá thị trường thế chấp, biểu mẫu thuế 2011 hoặc báo cáo chuyên môn về paracetamol đều trả về tài liệu PDF với thứ hạng cao trong kết quả tìm kiếm của chúng tôi, nhờ vào nội dung cũng như cách nhúng và liên kết những tài liệu đó từ các trang web khác.

Hỏi: Nếu tôi có bản sao các trang của mình ở cả định dạng HTML và PDF, thì đó có được coi là nội dung trùng lặp không?
Đáp: Bất cứ khi nào có thể, bạn nên phân phát chỉ một phiên bản cho nội dung của mình. Nếu không thể làm vậy, hãy đảm bảo bạn chỉ định phiên bản ưu tiên của mình, ví dụ: đưa URL ưu tiên vào sơ đồ trang web hoặc chỉ định phiên bản chính tắc trong HTML hoặc trong Tiêu đề HTTP của tài liệu PDF đó. Để nắm được các mẹo khác, hãy đọc bài viết của chúng tôi về quy trình chuẩn hoá trong Trung tâm trợ giúp.

Hỏi: Làm cách nào để tôi có thể tác động đến tiêu đề xuất hiện trong kết quả tìm kiếm cho tài liệu PDF của mình?
Đáp: Chúng tôi sử dụng hai yếu tố chính để xác định tiêu đề xuất hiện trong kết quả tìm kiếm: siêu dữ liệu tiêu đề trong tệp và văn bản liên kết của các đường liên kết trỏ đến tệp PDF đó. Để cung cấp cho thuật toán của chúng tôi tín hiệu rõ ràng về tiêu đề mà bạn muốn sử dụng, bạn nên cập nhật cả hai yếu tố trên.

Nếu bạn muốn tìm hiểu thêm, hãy xem video của Matt Cutt về việc tối ưu hoá tệp PDF cho công cụ tìm kiếm và truy cập vào Trung tâm trợ giúp của chúng tôi để biết thông tin về các loại nội dung mà chúng tôi có thể lập chỉ mục. Nếu bạn có ý kiến phản hồi hoặc đề xuất, vui lòng cho chúng tôi biết trong Diễn đàn trợ giúp dành cho quản trị viên trang web.