Hợp nhất các URL trùng lặp

Nếu bạn có một trang cho phép truy cập qua nhiều URL hoặc nhiều trang có nội dung tương tự nhau (ví dụ: một trang có cả phiên bản dành cho thiết bị di động và phiên bản dành cho máy tính), thì Google sẽ xem những trang như vậy là phiên bản trùng lặp của cùng một trang. Google sẽ chọn một URL làm phiên bản chính tắc và thu thập dữ liệu của URL đó, đồng thời coi những URL còn lại là URL trùng lặp và không thường xuyên thu thập dữ liệu của những URL đó.

Nếu bạn không nêu rõ cho Google biết đâu là URL chính tắc, thì Google sẽ tự chọn URL chính tắc cho bạn hoặc có thể coi những trang này có tầm quan trọng như nhau. Điều này có thể dẫn đến những hành vi không mong muốn như nêu dưới đây, trong phần Lý do nên chọn một URL chính tắc.

Cách Googlebot lập chỉ mục và chọn URL chính tắc

Khi lập chỉ mục một trang web, Googlebot luôn cố gắng xác định nội dung chính trên mỗi trang. Nếu tìm thấy nhiều trang có vẻ giống nhau trên cùng một trang web, Googlebot sẽ chọn trang mà nó cho là hoàn chỉnh và hữu ích nhất rồi đánh dấu trang đó là trang chính tắc. Trang chính tắc sẽ được thu thập dữ liệu thường xuyên nhất. Các trang trùng lặp sẽ ít được thu thập dữ liệu hơn để giảm tải cho quá trình Google thu thập dữ liệu trên trang web.

Google chọn trang chính tắc dựa trên một số yếu tố (hay tín hiệu), chẳng hạn như việc trang được phân phối qua HTTP hay HTTPS, chất lượng của trang, URL có trong sơ đồ trang web hay không và trang có nhãn rel=canonical hay không. Bạn có thể dùng những kỹ thuật này để cho Google biết trang chính tắc mà bạn muốn chọn, nhưng Google có thể chọn một trang khác làm trang chính tắc vì nhiều lý do.

Nếu một trang có nhiều phiên bản ngôn ngữ, thì các phiên bản được coi là trùng lặp chỉ khi nội dung chính vẫn sử dụng cùng một ngôn ngữ (nghĩa là nếu chỉ có phần đầu trang, chân trang và những văn bản không quan trọng khác được dịch ra còn phần nội dung chính vẫn giữ nguyên, thì những trang đó được coi là trùng lặp).

Google dùng trang chính tắc làm cơ sở chính để đánh giá nội dung và chất lượng. Kết quả trên Google Tìm kiếm thường trỏ đến trang chính tắc, trừ trường hợp rõ ràng có một trang trùng lặp phù hợp hơn cho người dùng. Ví dụ: Kết quả tìm kiếm có thể sẽ trỏ đến trang dành cho thiết bị di động nếu người dùng đang sử dụng thiết bị di động, ngay cả khi trang dành cho máy tính được đánh dấu là trang chính tắc.

Những lý do chính đáng cho các trang tương tự hoặc trùng lặp nhau

Có nhiều lý do xác đáng cho việc trang web của bạn có thể có nhiều URL trỏ đến cùng một trang hoặc có các trang trùng lặp/rất giống nhau tại nhiều URL. Sau đây là những lý do phổ biến nhất:

  • Để hỗ trợ nhiều loại thiết bị:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Để dùng URL động cho tham số tìm kiếm, mã nhận dạng của phiên hoạt động, v.v.:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Hệ thống blog của bạn tự động lưu nhiều URL khi bạn đặt một bài đăng trong nhiều mục.
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Máy chủ của bạn được định cấu hình để phân phối cùng một nội dung cho cả biến thể http/https có và không có www:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Miền của các trang web khác sao chép một phần hoặc toàn bộ nội dung bạn cung cấp trên blog để phân phối đến những trang web đó:
    https://news.example.com/green-dresses-for-every-day-155672.html (bài đăng được phân phối) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (bài đăng gốc)

Lý do nên chọn một URL chính tắc

Bạn nên chỉ định rõ ràng một trang chính tắc trong số các trang trùng lặp hoặc giống nhau vì một số lý do.

  • Để chỉ định URL mà bạn muốn mọi người nhìn thấy trong phần kết quả tìm kiếm. Bạn muốn mọi người truy cập vào trang sản phẩm bán váy màu xanh lục thông qua https://www.example.com/dresses/green/greendress.html thay vì https://example.com/dresses/cocktail?gclid=ABCD.
  • Để hợp nhất tín hiệu liên kết của các trang tương tự hoặc trùng lặp. Cách này giúp các công cụ tìm kiếm hợp nhất thông tin thu thập được qua các URL đơn lẻ (chẳng hạn như các đường liên kết đến những URL đó) thành một URL ưu tiên và duy nhất. Có nghĩa là đường liên kết từ các trang web khác đến http://example.com/dresses/cocktail?gclid=ABCD sẽ hợp nhất với đường liên kết đến https://www.example.com/dresses/green/greendress.html.
  • Để đơn giản hóa việc theo dõi chỉ số cho một sản phẩm/chủ đề. Khi bạn có nhiều URL, việc hợp nhất các chỉ số cho một nội dung cụ thể trở nên khó khăn hơn.
  • Để quản lý nội dung tổng hợp. Nếu tổng hợp và phân phối nội dung để xuất bản trên các miền khác, thì bạn nên đảm bảo URL mình đã chọn xuất hiện trong kết quả tìm kiếm.
  • Để tránh tốn thời gian thu thập dữ liệu trên các trang trùng lặp. Bạn muốn Googlebot thu thập dữ liệu hiệu quả nhất trên trang web của mình, vậy thì Googlebot nên dành thời gian thu thập dữ liệu các trang mới (hoặc vừa cập nhật) trên trang web thay vì thu thập dữ liệu cả phiên bản dành cho máy tính và dành cho thiết bị di động của cùng một trang.

Tìm hiểu xem Google chọn trang nào làm trang chính tắc

Hãy dùng Công cụ kiểm tra URL để tìm hiểu xem Google chọn trang nào làm trang chính tắc.

Chỉ định một trang chính tắc

Để chỉ định một URL chính tắc cho các URL trùng lặp hoặc các trang tương tự nhau, hãy chọn một phương pháp trong danh sách sau. Ngoài ra, hãy tuân thủ các nguyên tắc chung.

Phương pháp và nội dung mô tả
Thẻ rel=canonical <link>

Thêm một thẻ <link> vào mã lập trình của mọi trang trùng lặp để trỏ đến trang chính tắc.

Ưu điểm:
  • Có thể liên kết vô số trang trùng lặp.

Nhược điểm:

  • Có thể làm tăng kích thước trang.
  • Đối với các trang web lớn hoặc thường xuyên thay đổi URL, việc duy trì hệ thống liên kết có thể sẽ phức tạp.
  • Chỉ áp dụng cho các trang HTML chứ không áp dụng cho tệp (chẳng hạn như PDF). Trong những trường hợp như vậy, bạn có thể dùng tiêu đề HTTP rel=canonical.
Tiêu đề HTTP rel=canonical

Gửi một tiêu đề rel=canonical trong phản hồi trang của bạn.

Ưu điểm:

  • Không làm tăng kích thước trang.
  • Có thể liên kết vô số trang trùng lặp.

Nhược điểm:

  • Đối với các trang web lớn hoặc thường xuyên thay đổi URL, việc duy trì hệ thống liên kết có thể sẽ phức tạp.
Sơ đồ trang web

Chỉ định trang chính tắc của bạn trong sơ đồ trang web.

Ưu điểm:

  • Dễ dàng thực hiện và duy trì, đặc biệt là trên các trang web lớn.

Nhược điểm:

  • Googlebot vẫn phải xác định các phiên bản trùng lặp của mọi trang chính tắc mà bạn khai báo trong sơ đồ trang web.
  • Tín hiệu gửi tới Googlebot sẽ không hữu ích bằng kỹ thuật liên kết rel=canonical.
Lệnh chuyển hướng 301 Dùng lệnh chuyển hướng 301 để cho Googlebot biết rằng URL chuyển hướng là phiên bản tốt hơn so với một URL nhất định. Chỉ sử dụng tính năng này khi ngừng sử dụng một trang trùng lặp.
Phiên bản AMP Nếu bạn có một phiên bản là trang AMP, hãy làm theo nguyên tắc dành cho AMP để chỉ định trang chính tắc và phiên bản AMP.

Nguyên tắc chung

Đối với mọi phương pháp chỉ định phiên bản chính tắc, hãy tuân thủ theo những nguyên tắc chung sau.

  • Không dùng tệp robots.txt để chỉ định phiên bản chính tắc.
  • Không dùng công cụ xóa URL để chỉ định trang chính tắc: công cụ này xóa mọi phiên bản của một URL khỏi kết quả tìm kiếm.
  • Không chỉ định nhiều URL làm URL chính tắc cho cùng một trang bằng cách dùng một hay nhiều kỹ thuật chính tắc hóa (ví dụ: không chỉ định một URL trong một sơ đồ trang web nhưng lại dùng rel="canonical" để chỉ định một URL khác cho cùng trang đó).
  • Không dùng noindex để ngăn việc lựa chọn trang chính tắc. Lệnh này dùng để loại trừ trang khỏi chỉ mục chứ không phải để quản lý việc lựa chọn trang chính tắc.
  • Chỉ định trang chính tắc khi dùng thẻ hreflang Hãy chỉ định trang chính tắc bằng cùng một ngôn ngữ hoặc ngôn ngữ thay thế phù hợp nhất trong trường hợp không có trang chính tắc cho ngôn ngữ đó.

  • Liên kết đến URL chính tắc thay vì đến URL trùng lặp khi thực hiện liên kết trong phạm vi trang web của bạn. Việc duy trì liên kết với URL mà bạn chọn là URL chính tắc sẽ giúp Google biết được lựa chọn ưu tiên của bạn.

Ưu tiên chọn HTTPS thay vì HTTP để làm URL chính tắc

Khi chọn trang chính tắc, Google ưu tiên trang HTTPS hơn trang HTTP, trừ trường hợp có vấn đề hoặc tín hiệu xung đột, ví dụ:

  • Trang HTTPS có một chứng chỉ SSL không hợp lệ.
  • Trang HTTPS chứa yếu tố phụ thuộc không an toàn (ngoài hình ảnh).
  • Trang HTTPS chuyển hướng người dùng đến hoặc qua một trang HTTP.
  • Trang HTTPS có một link rel="canonical" trỏ đến trang HTTP.

Theo mặc định, hệ thống của chúng tôi ưu tiên trang HTTPS hơn trang HTTP. Tuy nhiên, bạn có thể đảm bảo chúng tôi sẽ chọn trang HTTPS bằng cách thực hiện một trong những thao tác sau:

  • Thêm lệnh chuyển hướng từ trang HTTP đến trang HTTPS.
  • Thêm link rel="canonical" từ trang HTTP sang trang HTTPS.
  • Triển khai HSTS.

Để ngăn Google đặt nhầm trang HTTP làm trang chính tắc, hãy tránh những phương pháp sau đây:

  • Tránh các chứng chỉ TLS/SSL không hợp lệ và tránh chuyển hướng HTTPS đến HTTP vì những việc này khiến Google ưu tiên HTTP hơn. Việc triển khai HSTS cũng không thể ngăn sự ưu tiên này.
  • Đưa trang HTTP vào sơ đồ trang web hoặc mục hreflang của bạn thay vì dùng phiên bản HTTPS.
  • Triển khai chứng chỉ SSL/TLS cho biến thể máy chủ không chính xác, ví dụ: example.com phân phối chứng chỉ cho www.example.com. Chứng chỉ phải khớp với URL hoàn chỉnh cho trang web của bạn hoặc phải là chứng chỉ ký tự đại diện có thể dùng được cho nhiều miền con trên cùng một miền.

Chỉ dành cho người dùng trình độ nâng cao: Yêu cầu Google bỏ qua các tham số động

Hãy dùng tính năng Xử lý tham số để cho Googlebot biết những tham số nên bỏ qua khi thu thập dữ liệu. Việc bỏ qua một số tham số nhất định có thể làm giảm lượng nội dung trùng lặp trong chỉ mục của Google và giúp Google thu thập dữ liệu trang web của bạn một cách dễ dàng hơn. Ví dụ: nếu bạn chỉ định Googlebot bỏ qua tham số sessionid, Googlebot sẽ coi hai URL dưới đây là các URL trùng lặp:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Để chỉ định một trang là phiên bản trùng lặp của một trang khác, bạn có thể dùng thẻ <link> trong phần head của HTML.

Giả sử bạn muốn chọn https://example.com/dresses/green-dresses làm URL chính tắc, dù có nhiều URL có thể truy cập vào cùng nội dung. Hãy chỉ định URL này làm URL chính tắc qua những bước sau:

  1. Đánh dấu tất cả các trang trùng lặp bằng một thẻ liên kết rel="canonical".

    Thêm phần tử <link> có thuộc tính rel="canonical" vào phần <head> của các trang trùng lặp để trỏ đến trang chính tắc. Ví dụ:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Nếu trang chính tắc có biến thể dành cho thiết bị di động, hãy thêm một link rel="alternate" vào biến thể đó để trỏ đến phiên bản trang dành cho thiết bị di động:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">
  3. Thêm hreflang bất kỳ hoặc lệnh chuyển hướng khác phù hợp cho trang.

Sử dụng đường dẫn tuyệt đối thay vì đường dẫn tương đối bằng thẻ link rel="canonical".

Nên: https://www.example.com/dresses/green/greendresss.html

Không nên: /dresses/green/greendress.html

Dùng tiêu đề HTTP rel="canonical"

Nếu có thể định cấu hình máy chủ thì bạn có thể dùng tiêu đề HTTP rel="canonical" (thay vì thẻ HTML) để chỉ định URL chính tắc cho một tài liệu mà Tìm kiếm hỗ trợ, bao gồm cả những tài liệu không phải HTML như tệp PDF.

Hiện Google chỉ hỗ trợ phương thức này cho các kết quả tìm kiếm trang web.

Nếu cung cấp một tệp PDF thông qua nhiều URL, bạn có thể trả về tiêu đề HTTP rel="canonical" để cho Googlebot biết đâu là URL chính tắc của tệp PDF đó:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Đề xuất cho tiêu đề HTTP rel="canonical" cũng giống với đề xuất cho thẻ rel="canonical" link. Theo RFC2616, chỉ sử dụng dấu ngoặc kép trong tiêu đề HTTP rel="canonical".

Dùng sơ đồ trang web

Chọn một URL chính tắc cho mỗi trang của bạn và gửi những URL đó trong một sơ đồ trang web. Mọi trang trong sơ đồ trang web đều được đề xuất là trang chính tắc. Googlebot sẽ quyết định trang nào (nếu có) là trang trùng lặp, dựa trên mức độ giống nhau của nội dung.

Chúng tôi không đảm bảo sẽ xem các URL trong sơ đồ trang web là URL chính tắc, nhưng đây là một cách đơn giản để xác định các trang chính tắc cho một trang web lớn. Sơ đồ trang web cũng là một cách hữu ích để cho Google biết đâu là các trang mà bạn coi trọng nhất trên trang web của mình.

Đừng đưa các trang không phải là trang chính tắc vào sơ đồ trang web. Nếu bạn đang dùng sơ đồ trang web, đừng chỉ định những URL không phải URL chính tắc trong sơ đồ đó.

Dùng lệnh chuyển hướng 301 cho các URL đã ngừng hoạt động

Hãy dùng phương pháp này khi bạn muốn loại bỏ các trang trùng lặp hiện có, nhưng cần đảm bảo rằng quá trình di chuyển diễn ra suôn sẻ trước khi bạn ngừng sử dụng các URL cũ.

Giả sử người dùng có thể truy cập trang của bạn qua nhiều URL:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Hãy chọn một trong những URL đó làm URL chính tắc và dùng lệnh chuyển hướng 301 để chuyển lưu lượng truy cập từ những URL khác đến URL mà bạn ưu tiên. Lệnh chuyển hướng 301 phía máy chủ là cách tốt nhất để đảm bảo người dùng và công cụ tìm kiếm được chuyển hướng đến đúng trang. Mã trạng thái 301 có nghĩa là một trang đã được di chuyển vĩnh viễn tới vị trí mới.

Nếu bạn đang dùng dịch vụ lưu trữ trang web, hãy tìm tài liệu hướng dẫn của dịch vụ đó về cách thiết lập lệnh chuyển hướng 301.

Khắc phục sự cố

Nếu một URL chính tắc nằm trong tài sản mà bạn không sở hữu, bạn sẽ không thể thấy lưu lượng truy cập cho trang trùng lặp của bạn. Sau đây là một số lý do phổ biến khiến một trang chính tắc có thể nằm trong một tài sản riêng biệt:

  • Các phiên bản theo ngôn ngữ được đánh dấu không chính xác: Nếu bạn có nhiều trang web phân phát cùng một nội dung đã bản địa hóa cho người dùng trên khắp thế giới, hãy đảm bảo bạn tuân thủ nguyên tắc của chúng tôi đối với các trang web đã bản địa hóa.
  • Không đúng thẻ chính tắc: Một số hệ thống quản lý nội dung (CMS) hoặc trình bổ trợ của CMS có thể dùng sai kỹ thuật chính tắc hóa để trỏ đến URL của trang web bên ngoài. Hãy kiểm tra nội dung của bạn để xem đây có phải là nguyên nhân không. Nếu trang web của bạn chỉ định một URL chính tắc mà bạn không mong muốn, thì đây có thể là do bạn dùng rel="canonical" chưa đúng cách hoặc do lệnh chuyển hướng 301. Hãy trực tiếp khắc phục vấn đề đó.
  • Máy chủ bị định cấu hình sai: Một số lỗi về cách định cấu hình máy chủ có thể dẫn đến việc lựa chọn nhầm URL trên miền khác. Ví dụ:
    • Nếu bị định cấu hình không chính xác, máy chủ có thể trả về nội dung trên a.com khi phản hồi một yêu cầu cho URL trên b.com
    • Hai máy chủ web không liên quan đến nhau có thể trả về các trang lỗi 404 mềm giống hệt nhau mà Google không xác định được là trang lỗi.
  • Bị tấn công bằng mã độc: Một số cuộc tấn công vào các trang web sẽ chèn các mã trả về lệnh chuyển hướng 301 hoặc chèn thẻ liên kết rel="canonical" cho nhiều miền vào HTML <head> hay tiêu đề HTTP, thường là trỏ đến một URL lưu trữ nội dung vi phạm/độc hại. Trong những trường hợp như vậy, thuật toán của chúng tôi có thể chọn URL vi phạm/độc hại thay vì chọn URL trên trang web bị tấn công.
  • Trang web sao chép trái phép: Trong một số trường hợp hiếm gặp, thuật toán của chúng tôi có thể chọn URL của một trang web bên ngoài đang lưu trữ trái phép nội dung của bạn. Nếu bạn tin rằng một trang web khác đang sao chép nội dung của bạn trái với luật bản quyền, bạn có thể liên hệ với nhà cung cấp dịch vụ lưu trữ của trang web đó để yêu cầu xóa nội dung. Ngoài ra, bạn có thể yêu cầu Google xóa trang vi phạm khỏi phần kết quả tìm kiếm bằng cách gửi một yêu cầu theo Đạo luật bản quyền kỹ thuật số thiên niên kỷ.