Chuyên đề của tháng 12 về thu thập dữ liệu: Cách thức và lý do Googlebot thu thập dữ liệu

Thứ Ba, ngày 3 tháng 12 năm 2024

Chắc bạn đã từng nghe qua rằng Google Tìm kiếm cần thực hiện một số việc trước khi một trang web có thể xuất hiện trong kết quả của Google Tìm kiếm. Một trong những bước này được gọi là thu thập dữ liệu. Đối với Google Tìm kiếm, hoạt động thu thập dữ liệu là do Googlebot (một chương trình chạy trên máy chủ của Google) thực hiện. Chương trình này sẽ truy xuất URL và xử lý các vấn đề như lỗi mạng, lệnh chuyển hướng và các chức năng nhỏ khác có thể gặp phải trong quá trình hoạt động trên web. Tuy nhiên, có một vài thông tin không thường được đề cập đến. Trong tháng này, mỗi tuần chúng ta sẽ cùng khám phá một số thông tin trong số đó, vì những nội dung được nói đến đó có thể ảnh hưởng đáng kể đến cách Google thu thập dữ liệu trang web của bạn.

Ôn lại đôi chút: Hoạt động thu thập dữ liệu là gì?

Thu thập dữ liệu là quá trình khám phá các trang web mới và truy cập lại các trang web đã được cập nhật, đồng thời tải các trang đó xuống. Tóm lại, Googlebot sẽ lấy một URL, tạo một yêu cầu HTTP tới máy chủ lưu trữ URL đó, rồi xử lý phản hồi từ máy chủ đó; đồng thời có thể Googlebot sẽ đi theo lệnh chuyển hướng, xử lý lỗi và chuyển nội dung trên trang đến hệ thống lập chỉ mục của Google.

Tuy nhiên, các trang web hiện đại không chỉ là HTML thuần tuý, vậy còn các tài nguyên khác cấu thành nên một trang thì sao? Việc thu thập dữ liệu các tài nguyên này ảnh hưởng như thế nào đến "hạn mức thu thập dữ liệu"? Có thể lưu các tài nguyên này có thể lưu vào bộ nhớ cache ở phía Google không? Ngoài ra, có sự khác biệt nào giữa những URL chưa từng được thu thập dữ liệu và những URL đã được lập chỉ mục? Trong bài đăng này, chúng ta sẽ trả lời những câu hỏi này cùng nhiều câu hỏi khác!

Googlebot và hoạt động thu thập dữ liệu các tài nguyên trên trang

Ngoài HTML, các trang web hiện đại sử dụng kết hợp nhiều công nghệ như JavaScript và CSS để mang đến cho người dùng trải nghiệm sống động và các chức năng hữu ích. Khi truy cập vào các trang như vậy bằng trình duyệt, thì trước tiên trình duyệt sẽ tải URL gốc xuống. URL này sẽ lưu trữ dữ liệu cần thiết để bắt đầu tạo trang cho người dùng — HTML của trang. Dữ liệu ban đầu này có thể chứa tham chiếu đến các tài nguyên như JavaScript và CSS, nhưng cũng có thể chứa hình ảnh và video mà trình duyệt sẽ tải xuống một lần nữa để lần lượt tạo trang sau cùng mà người dùng thấy.

Google cũng làm chính xác như vậy, mặc dù có chút khác biệt:

  1. Googlebot tải dữ liệu ban đầu xuống từ URL gốc (HTML của trang).
  2. Googlebot chuyển dữ liệu đã tìm nạp đến Dịch vụ kết xuất web (WRS).
  3. Thông qua Googlebot, WRS sẽ tải các tài nguyên được tham chiếu trong dữ liệu ban đầu xuống.
  4. WRS tạo trang bằng cách sử dụng tất cả tài nguyên đã tải xuống, cũng giống như trình duyệt của người dùng.

So với trình duyệt, thời gian giữa mỗi bước có thể lâu hơn đáng kể do các quy tắc ràng buộc về lịch biểu, chẳng hạn như tải dự kiến của máy chủ lưu trữ các tài nguyên cần thiết để kết xuất trang. Và đây là lúc chúng ta nên đề cập đến hạn mức thu thập dữ liệu.

Hoạt động thu thập dữ liệu các tài nguyên cần thiết để kết xuất một trang sẽ làm giảm hạn mức thu thập dữ liệu đối với tên máy chủ lưu trữ tài nguyên đó. Để khắc phục vấn đề này, WRS tìm cách lưu mọi tài nguyên (JavaScript và CSS) được tham chiếu trong các trang mà dịch vụ này kết xuất vào bộ nhớ đệm. Thời gian tồn tại của bộ nhớ cache của WRS không bị ảnh hưởng bởi các lệnh HTTP đối với bộ nhớ cache; thay vào đó, WRS lưu mọi nội dung vào bộ nhớ cache trong tối đa 30 ngày, giúp duy trì hạn mức thu thập dữ liệu của trang web đối với các tác vụ thu thập dữ liệu khác.

Xét từ góc độ chủ sở hữu trang web, việc quản lý cách thức thu thập dữ liệu và tài nguyên được thu thập dữ liệu có thể ảnh hưởng đến hạn mức thu thập dữ liệu của trang web. Bạn nên:

  1. Sử dụng ít tài nguyên nhất có thể để mang lại trải nghiệm tuyệt vời cho người dùng; trang càng cần ít tài nguyên để kết xuất, thì càng tiêu hao ít hạn mức thu thập dữ liệu trong quá trình kết xuất.
  2. Thận trọng khi sử dụng các tham số hao tốn nhiều bộ nhớ cache: nếu URL của tài nguyên thay đổi, có thể Google sẽ cần thu thập dữ liệu lại các tài nguyên đó, ngay cả khi nội dung của các tài nguyên đó không thay đổi. Tất nhiên, điều này sẽ làm tiêu hao hạn mức thu thập dữ liệu.
  3. Lưu trữ tài nguyên trên một tên máy chủ khác với trang web chính, chẳng hạn như bằng cách sử dụng CDN, hoặc chỉ cần lưu trữ tài nguyên trên một miền con khác. Điều này sẽ chuyển các vấn đề về hạn mức thu thập dữ liệu sang máy chủ lưu trữ thực hiện việc phân phát tài nguyên.

Tất cả những điểm này cũng áp dụng cho tài nguyên đa phương tiện. Nếu Googlebot (hoặc cụ thể hơn là Googlebot-ImageGooglebot-Video tương ứng) tìm nạp các tài nguyên đó, thì sẽ tiêu tốn hạn mức thu thập dữ liệu của trang web.

Bạn cũng có thể thêm tệp robots.txt vào danh sách này. Tuy nhiên, xét từ góc độ kết xuất trang web, việc không cho phép thu thập dữ liệu tài nguyên thường gây ra vấn đề. Nếu WRS không tìm nạp được tài nguyên quan trọng đối với quá trình kết xuất, thì có thể Google Tìm kiếm sẽ gặp sự cố khi trích xuất nội dung của trang và cho phép trang có được thứ hạng trong Tìm kiếm.

Googlebot thu thập dữ liệu gì?

Nguồn tốt nhất để phân tích những tài nguyên mà Google đang thu thập dữ liệu là nhật ký truy cập thô của trang web. Trong nhật ký này sẽ có một mục tương ứng với từng URL mà trình duyệt và trình thu thập dữ liệu yêu cầu. Để xác định trình thu thập dữ liệu của Google trong nhật ký truy cập, chúng tôi đã xuất bản nội dung về dải IP trong tài liệu dành cho nhà phát triển.

Tất nhiên, tài nguyên tốt thứ hai là báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu trong Search Console. Báo cáo này phân tích từng loại tài nguyên tương ứng với trình thu thập dữ liệu:

Báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu trong Search Console cho thấy các loại tài nguyên mà Googlebot đã thu thập dữ liệu

Sau cùng, nếu thực sự quan tâm đến hoạt động thu thập dữ liệu và kết xuất, cũng như muốn trao đổi về vấn đề này với người khác, thì cộng đồng Trung tâm Tìm kiếm là nơi dành cho bạn. Ngoài ra, bạn cũng có thể tìm chúng tôi trên LinkedIn.


Nội dung cập nhật

  • Nội dung cập nhật vào ngày 6 tháng 12 năm 2024: Hãy lưu ý đến tác động về hiệu suất khi phân phát tài nguyên từ một nguồn khác.

Bạn muốn tìm hiểu thêm về hoạt động thu thập dữ liệu? Xem toàn bộ loạt bài Chuyên đề của tháng 12 về thu thập dữ liệu: