Giảm tốc độ thu thập dữ liệu của Google
Cơ sở hạ tầng của trình thu thập dữ liệu của Google dùng các thuật toán phức tạp để xác định tốc độ thu thập dữ liệu tối ưu đối với một trang web. Mục tiêu của chúng tôi là thu thập dữ liệu nhiều trang nhất có thể trên trang web của bạn trong mỗi lần truy cập mà không làm máy chủ của bạn quá tải. Trong một số trường hợp, việc Google thu thập dữ liệu trên trang web của bạn có thể gây ra một sự cố nghiêm trọng cho cơ sở hạ tầng của bạn hoặc gây ra chi phí không mong muốn trong thời gian trang ngừng hoạt động. Để giảm bớt tình trạng này, bạn có thể lựa chọn giảm số lượng yêu cầu do trình thu thập dữ liệu của Google đưa ra.
Tìm hiểu nguyên nhân khiến số lượt thu thập dữ liệu tăng đột biến
Việc số lượt thu thập dữ liệu tăng đột biến có thể là do cấu trúc trang web không hiệu quả hoặc do các vấn đề khác với trang web của bạn. Dựa trên các báo cáo mà chúng tôi nhận được trước đây, những nguyên nhân thường gặp nhất là:
-
Cấu hình URL không hiệu quả trên trang web, thường là do một chức năng cụ thể của trang web gây ra:
- Điều hướng đa chiều hoặc các chức năng sắp xếp và lọc khác của trang web
- Lịch có rất nhiều URL tương ứng với các ngày cụ thể
- Mục tiêu của Quảng cáo tìm kiếm động
Bạn nên kiểm tra với công ty lưu trữ và xem nhật ký truy cập gần đây của máy chủ để tìm hiểu về nguồn gốc của lưu lượng truy cập và xem liệu nguồn lưu lượng truy cập đó có phù hợp với các nguyên nhân thường gặp nêu trên dẫn đến việc số lượt thu thập dữ liệu tăng đột biến hay không. Sau đó, hãy xem hướng dẫn của chúng tôi về cách quản lý hoạt động thu thập dữ liệu của các URL điều hướng đa chiều và tối ưu hoá hiệu quả thu thập dữ liệu.
Giảm cấp tốc lưu lượng truy cập của trình thu thập dữ liệu (dành cho trường hợp khẩn cấp)
Nếu bạn cần nhanh chóng giảm tốc độ thu thập dữ liệu trong một khoảng thời gian ngắn (ví dụ: một vài giờ hoặc 1-2 ngày), hãy trả về mã trạng thái phản hồi HTTP 500
, 503
hoặc 429
thay vì 200
đối với các yêu cầu thu thập dữ liệu. Cơ sở hạ tầng thu thập dữ liệu của Google sẽ giảm tốc độ thu thập dữ liệu của trang web khi gặp phải một số lượng đáng kể URL có mã trạng thái phản hồi HTTP 500
, 503
hoặc 429
(ví dụ: khi bạn đã vô hiệu hoá trang web).
Tốc độ thu thập dữ liệu bị giảm sẽ ảnh hưởng đến toàn bộ tên máy chủ của trang web của bạn (ví dụ: subdomain.example.com
), cả quá trình thu thập dữ liệu những URL trả về lỗi cũng như những URL trả về nội dung. Khi số lượng những lỗi này giảm xuống, tốc độ thu thập dữ liệu sẽ tự động tăng trở lại.
Yêu cầu đặc biệt để giảm tốc độ thu thập dữ liệu
Nếu không thể phân phát lỗi cho trình thu thập dữ liệu của Google trên cơ sở hạ tầng của bạn, hãy gửi một yêu cầu đặc biệt để báo cáo vấn đề về tốc độ thu thập dữ liệu cao bất thường, đồng thời đề cập đến tốc độ tối ưu cho trang web của bạn trong yêu cầu. Bạn không thể yêu cầu tăng tốc độ thu thập dữ liệu. Quá trình đánh giá và thực hiện yêu cầu này có thể sẽ mất vài ngày.