Quản lý hoạt động thu thập dữ liệu của các URL điều hướng đa chiều

Điều hướng đa chiều là một tính năng thường thấy của các trang web, cho phép khách truy cập thay đổi cách các mục (ví dụ: sản phẩm, bài viết hoặc sự kiện) xuất hiện trên một trang. Đây là một tính năng phổ biến và hữu ích, tuy nhiên, phương thức triển khai thường thấy nhất là dựa trên tham số URL lại ẩn chứa rủi ro tạo ra không gian URL vô hạn, gây hại cho trang web theo một số cách:

  • Tình trạng thu thập dữ liệu quá mức: Vì các URL được tạo cho mục đích điều hướng đa chiều có vẻ mới mẻ và nếu không thu thập dữ liệu trước tiên thì trình thu thập dữ liệu không thể xác định liệu các URL đó có hữu ích hay không, nên thường thì trình thu thập dữ liệu sẽ truy cập vào một số lượng rất lớn URL điều hướng đa chiều trước khi quy trình của trình thu thập dữ liệu xác định rằng các URL đó thực sự không hữu ích.
  • Khám phá chậm hơn khi thu thập dữ liệu: Xuất phát từ quan điểm trước, nếu hoạt động thu thập dữ liệu được dành cho các URL không hữu ích thì trình thu thập dữ liệu sẽ dành ít thời gian hơn cho các URL mới và hữu ích.

Một URL điều hướng đa chiều thông thường có thể chứa nhiều tham số trong chuỗi truy vấn liên quan đến các thuộc tính của mục mà tham số đó lọc ra. Ví dụ:

https://example.com/items.shtm?products=fish&color=radioactive_green&size=tiny

Việc thay đổi bất cứ tham số URL nào trong số products, colorsize sẽ cho thấy một nhóm mục khác trên trang ban đầu. Thường thì điều này nghĩa là có rất nhiều cách kết hợp bộ lọc, tương ứng với rất nhiều URL. Để tiết kiệm tài nguyên, bạn nên xử lý các URL này theo một trong những cách sau:

  • Nếu bạn không cần hoạt động lập chỉ mục có thể diễn ra đối với các URL điều hướng đa chiều, hãy ngăn thu thập dữ liệu các URL này.
  • Nếu bạn cần hoạt động lập chỉ mục có thể diễn ra đối với các URL điều hướng đa chiều, hãy đảm bảo rằng các URL đó tuân theo các phương pháp hay nhất của chúng tôi được nêu trong phần sau. Xin lưu ý rằng việc thu thập dữ liệu URL điều hướng đa chiều thường tiêu tốn nhiều tài nguyên điện toán của trang web do số lượng URL là rất lớn và cần thực hiện rất nhiều hoạt động để kết xuất các trang đó.

Ngăn thu thập dữ liệu các URL điều hướng đa chiều

Nếu muốn tiết kiệm tài nguyên máy chủ và không cần URL điều hướng đa chiều xuất hiện trong Google Tìm kiếm, bạn có thể ngăn thu thập dữ liệu các URL này bằng một trong những cách sau.

  • Sử dụng tệp robots.txt để không cho phép thu thập dữ liệu các URL điều hướng đa chiều. Thông thường, bạn không nên cho phép thu thập dữ liệu các mặt hàng đã lọc vì việc này sẽ tiêu tốn tài nguyên máy chủ mà không mang lại lợi ích hoặc mang lại lợi ích không đáng kể. Thay vào đó, hãy chỉ cho phép thu thập dữ liệu các trang của từng mặt hàng cùng với một trang thông tin chuyên biệt cho thấy tất cả sản phẩm mà không áp dụng bộ lọc.
    user-agent: Googlebot
    disallow: /*?*products=
    disallow: /*?*color=
    disallow: /*?*size=
    allow: /*?products=all$
    
  • Dùng phân mảnh của URL để chỉ định bộ lọc. Google Tìm kiếm thường không hỗ trợ các phân mảnh của URL trong quá trình thu thập dữ liệu và lập chỉ mục. Nếu cơ chế lọc của bạn là dựa trên các phân mảnh của URL, thì cơ chế đó sẽ không ảnh hưởng đến hoạt động thu thập dữ liệu (theo cách tích cực hoặc tiêu cực). Ví dụ: thay vì tham số URL, hãy sử dụng phân mảnh của URL:
    https://example.com/items.shtm#products=fish&color=radioactive_green&size=tiny

Bạn có thể sử dụng thành phần rel="canonical" link và thuộc tính neo rel="nofollow" để cho biết những URL điều hướng đa chiều nào (không) cần thu thập dữ liệu. Tuy nhiên, các phương thức này thường kém hiệu quả hơn về lâu dài so với các phương thức đã đề cập trước đó.

  • Việc sử dụng rel="canonical" để chỉ định URL nào là phiên bản chính tắc của URL điều hướng đa chiều có thể làm giảm mức thu thập dữ liệu của các phiên bản không chính tắc của những URL đó theo thời gian. Ví dụ: nếu bạn có 3 loại trang được lọc, hãy cân nhắc việc trỏ rel="canonical" đến phiên bản không được lọc: https://example.com/items.shtm?products=fish&color=radioactive_green&size=tiny chỉ định <link rel="canonical" href="https://example.com/items.shtm?products=fish" >.
  • Việc sử dụng thuộc tính rel="nofollow" trên các điểm neo trỏ đến trang kết quả đã lọc có thể mang lại lợi ích, tuy nhiên, hãy lưu ý rằng mọi điểm neo trỏ đến một URL cụ thể phải có thuộc tính rel="nofollow" để hoạt động hiệu quả.

Đảm bảo URL điều hướng đa chiều là tối ưu cho web

Nếu bạn muốn Google thu thập dữ liệu và lập chỉ mục các URL điều hướng đa chiều, hãy đảm bảo rằng bạn đang làm theo các phương pháp hay nhất sau đây để giảm thiểu tác động tiêu cực vì việc thu thập dữ liệu một lượng lớn URL có thể xảy ra trên trang web của bạn:

  1. Sử dụng dấu phân cách tham số URL theo tiêu chuẩn ngành "&". Các ký tự như dấu phẩy (,), dấu chấm phẩy (;) và dấu ngoặc đơn ([]) khó được trình thu thập dữ liệu phát hiện là dấu phân cách tham số (vì thường thì các ký tự này không phải là dấu phân cách).
  2. Nếu bạn đang mã hoá bộ lọc trong đường dẫn URL (chẳng hạn như /products/fish/green/tiny), hãy đảm bảo thứ tự logic của các bộ lọc luôn giữ nguyên và không có bộ lọc nào trùng lặp.
  3. Trả về mã trạng thái HTTP 404 khi một cách kết hợp bộ lọc không trả về kết quả. Nếu không có sản phẩm cá muối xanh (green fish) trong khoảng không quảng cáo của trang web, thì người dùng cũng như trình thu thập dữ liệu sẽ nhận được lỗi "không tìm thấy" kèm theo mã trạng thái HTTP thích hợp (404). Trường hợp URL chứa bộ lọc trùng lặp hoặc các cách kết hợp bộ lọc vô nghĩa và URL phân trang không tồn tại cũng vậy. Tương tự, nếu một cách kết hợp bộ lọc không có kết quả, đừng chuyển hướng đến trang lỗi "không tìm thấy" thông thường. Thay vào đó, hãy phân phát lỗi "không tìm thấy" bằng mã trạng thái HTTP 404 trong URL gặp lỗi.