Ý nghĩa của hạn mức thu thập dữ liệu đối với Googlebot

Thứ Hai, ngày 16 tháng 1 năm 2017

Gần đây, chúng tôi nhận thấy một số cách định nghĩa "hạn mức thu thập dữ liệu". Tuy nhiên, chúng tôi không có một thuật ngữ thống nhất để mô tả đầy đủ ý nghĩa của khái niệm "hạn mức thu thập dữ liệu" bên ngoài phạm vi của Google. Trong bài đăng này, chúng tôi sẽ làm rõ định nghĩa thực sự của chúng tôi cũng như ý nghĩa của hạn mức thu thập dữ liệu đối với Googlebot.

Trước tiên, chúng tôi muốn nhấn mạnh rằng, như mô tả dưới đây, hầu hết nhà xuất bản không cần lo lắng về hạn mức thu thập dữ liệu. Nếu các trang mới có xu hướng được thu thập dữ liệu vào đúng ngày đăng, thì quản trị viên trang web không cần tập trung vào hạn mức thu thập dữ liệu. Tương tự như vậy, nếu một trang web có dưới vài nghìn URL, thì trong đa số các trường hợp, Google sẽ thu thập dữ liệu trang đó một cách hiệu quả.

Việc ưu tiên dữ liệu cần thu thập, thời điểm thu thập và lượng tài nguyên mà máy chủ lưu trữ trang web có thể phân bổ cho việc thu thập dữ liệu sẽ có ý nghĩa quan trọng hơn đối với những trang web lớn hoặc những trang web tự động tạo trang dựa trên thông số URL, ví dụ vậy.

Giới hạn tốc độ thu thập dữ liệu

Googlebot được thiết kế để mang lại lợi ích cho môi trường web. Ưu tiên chính của Googlebot là vừa thu thập dữ liệu vừa đảm bảo không ảnh hưởng xấu đến trải nghiệm của người dùng khi họ truy cập trang web. Chúng tôi gọi đây là "giới hạn tốc độ thu thập dữ liệu", tức là tốc độ tìm nạp tối đa cho một trang web nhất định.

Nói một cách đơn giản, con số này cho biết số lượng kết nối song song đồng thời mà Googlebot có thể sử dụng để thu thập dữ liệu trang web, cũng như thời gian phải chờ giữa các lần tìm nạp. Tốc độ thu thập dữ liệu có thể tăng hoặc giảm dựa trên một vài yếu tố:

Tình trạng thu thập dữ liệu: Nếu trang web phản hồi thật nhanh chóng trong một khoảng thời gian, mức giới hạn sẽ tăng lên, đồng nghĩa với việc Googlebot có thể tăng số lượng kết nối để thu thập dữ liệu. Nếu trang web chậm lại hoặc trả về các lỗi máy chủ, mức giới hạn sẽ giảm xuống và Googlebot sẽ giảm tần suất thu thập dữ liệu.
Giới hạn được đặt trong Search Console: Chủ sở hữu trang web có thể giảm mức thu thập dữ liệu của Googlebot trên trang web của họ. Xin lưu ý rằng việc đặt giới hạn cao hơn sẽ không tự động làm tăng mức thu thập dữ liệu.

Nhu cầu thu thập dữ liệu

Ngay cả khi chưa đạt đến giới hạn tốc độ thu thập dữ liệu, Googlebot sẽ ít hoạt động nếu không có nhu cầu liên quan đến việc lập chỉ mục. Có hai yếu tố đóng vai trò quan trọng trong việc xác định nhu cầu thu thập dữ liệu, đó là:

Mức độ phổ biến: Googlebot thường thu thập những URL phổ biến trên Internet với mức độ thường xuyên hơn để đảm bảo những URL đó luôn có phiên bản mới trong chỉ mục.
Mức độ lỗi thời: Hệ thống của chúng tôi cố gắng đảm bảo URL không trở nên lỗi thời trong chỉ mục.

Ngoài ra, các sự kiện trên toàn trang web như hoạt động di chuyển trang web có thể làm tăng nhu cầu thu thập dữ liệu để lập chỉ mục lại nội dung trong các URL mới.

Thông qua việc kết hợp tốc độ thu thập dữ liệu với nhu cầu thu thập dữ liệu, chúng tôi định nghĩa hạn mức thu thập dữ liệu là số lượng URL mà Googlebot có thể thu thập và muốn thu thập.

Các yếu tố ảnh hưởng đến hạn mức thu thập dữ liệu

Theo phân tích của chúng tôi, việc bạn có nhiều URL mang lại ít giá trị có thể ảnh hưởng tiêu cực đến hoạt động thu thập dữ liệu và lập chỉ mục trang web. Chúng tôi nhận thấy rằng những URL mang lại ít giá trị sẽ thuộc các danh mục sau đây (sắp xếp theo mức độ quan trọng):

Điều hướng đa chiều và giá trị nhận dạng theo phiên
Nội dung trùng lặp trên trang web
Trang hiển thị lỗi mềm
Trang bị tấn công
Không gian vô hạn và proxy
Nội dung vi phạm và chất lượng thấp

Việc lãng phí tài nguyên máy chủ vào những trang như vậy sẽ làm chậm hoạt động thu thập dữ liệu trên các trang thực sự có giá trị, từ đó có thể làm giảm đáng kể tốc độ khám phá nội dung chất lượng cao trên trang web.

Các câu hỏi thường gặp nhất

Hoạt động thu thập dữ liệu chính là cơ sở để các trang web xuất hiện trong kết quả tìm kiếm của Google. Nếu hoạt động thu thập dữ liệu trên một trang web diễn ra hiệu quả, việc lập chỉ mục trang web đó trong Google Tìm kiếm cũng dễ dàng hơn.

Tốc độ trang web có ảnh hưởng đến hạn mức thu thập dữ liệu không? Còn lỗi thì sao?

Việc cải thiện tốc độ trang web sẽ cải thiện trải nghiệm người dùng, đồng thời làm tăng tốc độ thu thập dữ liệu. Đối với Googlebot, trang web có tốc độ nhanh là dấu hiệu cho thấy máy chủ hoạt động tốt, nhờ vậy, Googlebot có thể thu thập được nhiều nội dung hơn trên cùng một số lượng kết nối. Mặt khác, một lượng lớn lỗi 5xx hoặc lỗi kết nối hết thời gian chờ sẽ báo hiệu điều ngược lại và làm chậm quá trình thu thập dữ liệu.

Bạn nên chú ý đến báo cáo Lỗi thu thập dữ liệu trong Search Console và hạn chế số lỗi máy chủ.

Hoạt động thu thập dữ liệu có phải là một yếu tố xếp hạng không?

Tốc độ thu thập dữ liệu tăng lên không nhất thiết sẽ dẫn đến vị trí cao hơn trong các kết quả của Tìm kiếm. Google sử dụng hàng trăm tín hiệu để xếp hạng kết quả. Mặc dù Google cần thu thập dữ liệu để đưa một trang vào kết quả, nhưng hoạt động này không phải là một tín hiệu xếp hạng.

URL thay thế và nội dung dạng nhúng có được tính vào hạn mức thu thập dữ liệu hay không?

Nhìn chung, mọi URL mà Googlebot thu thập dữ liệu đều sẽ được tính vào hạn mức thu thập dữ liệu của trang web. URL thay thế (như AMP hoặc hreflang) và nội dung dạng nhúng (như CSS và JavaScript), bao gồm cả các lệnh gọi AJAX (như XHR) đều có thể cần được thu thập dữ liệu và sẽ tiêu tốn hạn mức thu thập dữ liệu của trang web. Tương tự như vậy, các chuỗi chuyển hướng dài có thể ảnh hưởng tiêu cực đến việc thu thập dữ liệu.

Tôi có thể kiểm soát Googlebot bằng quy tắc `crawl-delay` không?

Googlebot không xử lý quy tắc crawl-delay không chuẩn trong tệp robots.txt.

Quy tắc `nofollow` có ảnh hưởng đến hạn mức thu thập dữ liệu không?

Còn tuỳ. Mọi URL được thu thập dữ liệu đều sẽ ảnh hưởng đến hạn mức thu thập dữ liệu. Vì vậy, ngay cả khi trang của bạn đánh dấu một URL là nofollow, Google vẫn sẽ thu thập dữ liệu URL đó nếu một trang khác trên trang web của bạn (hay bất kỳ trang nào khác trên web) không gắn nhãn nofollow cho đường liên kết đó.

Các URL mà tôi chặn bằng tệp robots.txt có ảnh hưởng đến hạn mức thu thập dữ liệu không?

Không, các URL bị chặn không ảnh hưởng đến hạn mức thu thập dữ liệu.

Để biết thông tin về cách tối ưu hoá hoạt động thu thập dữ liệu trên trang web của bạn, hãy xem bài đăng trên blog của chúng tôi về cách tối ưu hoá hoạt động thu thập dữ liệu. Chúng tôi đã đăng từ năm 2009 nhưng nội dung trong đó hiện vẫn áp dụng được. Nếu bạn có thắc mắc, hãy đặt câu hỏi trên diễn đàn!

Người đăng: Gary Illyes, Nhóm thu thập dữ liệu và lập chỉ mục

Ý nghĩa của hạn mức thu thập dữ liệu đối với Googlebot Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.