Chuyên đề của tháng 12 về thu thập dữ liệu: Điều hướng đa chiều

Thứ Ba, ngày 17 tháng 12 năm 2024

Chúng tôi vừa phát hành tài liệu mới về các phương pháp hay nhất để điều hướng đa chiều. Tài liệu này ban đầu được xuất bản dưới dạng bài đăng trên blog. Sau đây là nội dung tóm tắt một số phần quan trọng của trang tài liệu mới.

Điều hướng đa chiều là một cách tuyệt vời để giúp người dùng tìm thấy những gì họ cần trên trang web của bạn, nhưng điều này có thể gây ra vấn đề về SEO nếu không triển khai cẩn thận. Tại sao? Vì tính năng này có thể tạo ra số lượng URL gần như vô hạn, dẫn đến:

  • Tình trạng thu thập dữ liệu quá mức: Công cụ tìm kiếm lãng phí thời gian thu thập dữ liệu cho vô số URL không có giá trị đối với người dùng tìm kiếm.
  • Khám phá chậm hơn: Việc thu thập dữ liệu quá mức này làm chậm quá trình khám phá nội dung mới và quan trọng.

Trên thực tế, tính năng điều hướng đa chiều là nguyên nhân thường gặp nhất gây ra vấn đề thu thập dữ liệu quá mức mà chủ sở hữu trang web báo cáo cho chúng tôi. Trong hầu hết trường hợp, vấn đề này có thể được tránh bằng cách làm theo một số phương pháp hay nhất. Nhưng hãy bàn lại vấn đề này một chút.

Vấn đề về URL

Mỗi cách kết hợp bộ lọc trong một thành phần điều hướng đa chiều thường tạo ra một URL duy nhất. Ví dụ:

https://example.com/items.shtm?products=fish&color=radioactive_green&size=tiny

Việc thay đổi bất cứ tham số nào (product, color hoặc size) sẽ tạo ra một URL mới, dẫn đến việc có thể có vô số URL. Và đó chính là vấn đề: một số lượng URL mới gần như vô hạn đang chờ được khám phá. Hãy cùng khắc phục vấn đề này.

Hai phương pháp

  1. Chặn URL điều hướng đa chiều:
    • Nếu bạn không cần lập chỉ mục các URL này, hãy sử dụng robots.txt để không cho phép thu thập dữ liệu.
    • Hoặc sử dụng phân mảnh của URL (#) cho bộ lọc, vì các công cụ tìm kiếm thường bỏ qua các phân mảnh này.
  2. Tối ưu hoá URL điều hướng đa chiều (nếu bạn cần Google thu thập dữ liệu các URL đó và không quan tâm đến vấn đề hao tốn):
    • Sử dụng dấu phân cách & chuẩn đối với các tham số URL. 💩 không phải là ký tự phân cách tham số phù hợp.
    • Duy trì thứ tự nhất quán của các bộ lọc trong đường dẫn URL.
    • Trả về mã trạng thái 404 đối với các cách kết hợp bộ lọc không có kết quả.
    • Trừ phi bạn không có lựa chọn nào khác (ví dụ: bạn có một ứng dụng trang đơn), hãy tránh chuyển hướng kết quả trống đến một trang "không tìm thấy" chung.

Những điều quan trọng cần cân nhắc

  • Bạn cũng có thể dùng rel="canonical" để giúp hợp nhất các tín hiệu bằng cách trỏ các biến thể đến một trang chính. Thẻ này cần thời gian để được xem xét.
  • rel="nofollow" trên các đường liên kết bộ lọc có thể không cho phép thu thập dữ liệu, nhưng phải được áp dụng một cách nhất quán. Tức là mọi đường liên kết (cả nội bộ và bên ngoài) trỏ đến các trang này, đều phải có thuộc tính rel="nofollow".
  • Hoạt động thu thập dữ liệu các URL điều hướng đa chiều sẽ luôn tiêu tốn tài nguyên máy chủ và có thể ảnh hưởng đến việc khám phá nội dung mới.

Nếu bạn có ý kiến đề xuất hoặc cần được làm rõ về tài liệu mới của chúng tôi về các phương pháp điều hướng đa chiều hay nhất, hãy sử dụng công cụ phản hồi trên tài liệu đó. Nếu bạn thực sự quan tâm đến điều hướng đa chiều và muốn trao đổi về vấn đề này với người khác, thì cộng đồng Trung tâm Tìm kiếm chính là nơi dành cho bạn. Ngoài ra, bạn cũng có thể tìm chúng tôi trên LinkedIn.


Bạn muốn tìm hiểu thêm về hoạt động thu thập dữ liệu? Xem toàn bộ loạt bài Chuyên đề của tháng 12 về thu thập dữ liệu: