Ảnh hưởng của mã trạng thái HTTP, lỗi mạng và lỗi DNS đối với Google Tìm kiếm

Trang này mô tả các ảnh hưởng của mã trạng thái HTTP, lỗi mạng và lỗi DNS đối với Google Tìm kiếm. Chúng tôi sẽ đề cập 20 mã trạng thái phổ biến nhất mà Googlebot gặp trên môi trường web cũng như các lỗi mạng và lỗi DNS tiêu biểu nhất. Các mã trạng thái ít gặp hơn, chẳng hạn như 418 (I'm a teapot), sẽ không được đề cập. Mọi vấn đề được đề cập trong trang này đều có lỗi hoặc cảnh báo tương ứng trong báo cáo Lập chỉ mục trang của Search Console.

Mã trạng thái HTTP

Mã trạng thái HTTP là do máy chủ lưu trữ trang web tạo ra khi phản hồi yêu cầu của ứng dụng, chẳng hạn như trình duyệt hoặc trình thu thập dữ liệu. Mỗi mã trạng thái HTTP có một ý nghĩa riêng, nhưng thông thường, kết quả của yêu cầu sẽ giống nhau. Ví dụ: có nhiều mã trạng thái để báo hiệu lệnh chuyển hướng, nhưng kết quả mà những mã đó trả về thì giống nhau.

Search Console tạo thông báo lỗi cho mã trạng thái trong phạm vi 4xx–5xx và cho lệnh chuyển hướng không thành công (3xx). Nếu máy chủ phản hồi bằng mã trạng thái 2xx, thì Google có thể cân nhắc lập chỉ mục nội dung nhận được trong phản hồi đó.

Bảng sau đây trình bày những mã trạng thái HTTP mà Google hay bắt gặp nhất và cách Google xử lý từng mã trạng thái đó.

Mã trạng thái HTTP

2xx (success)

Google sẽ cân nhắc lập chỉ mục nội dung này. Nếu nội dung có dấu hiệu bị lỗi, chẳng hạn như có trang trống hoặc thông báo lỗi, thì Search Console sẽ cho thấy lỗi soft 404.

200 (success)

Google sẽ đưa nội dung vào quy trình lập chỉ mục. Có thể hệ thống lập chỉ mục sẽ lập chỉ mục nội dung này (nhưng không đảm bảo).

201 (created)
202 (accepted)

Googlebot sẽ chờ nhận nội dung trong một khoảng thời gian nhất định, sau đó đưa phần nội dung đã nhận vào quy trình lập chỉ mục. Thời gian chờ tuỳ thuộc vào loại tác nhân người dùng, ví dụ: thời gian chờ của Googlebot Smartphone có thể khác với thời gian chờ của Googlebot Image.

204 (no content)

Googlebot báo hiệu cho quy trình lập chỉ mục là không nhận được nội dung nào. Search Console có thể cho thấy lỗi soft 404 trong báo cáo Lập chỉ mục trang của trang web.

3xx (redirection)

Googlebot đi theo tối đa 10 bước chuyển hướng. Nếu trình thu thập dữ liệu không nhận được nội dung trong vòng 10 bước, thì Search Console sẽ hiện lỗi chuyển hướng trong báo cáo Lập chỉ mục trang của trang web. Số bước chuyển hướng mà Googlebot đi theo tuỳ thuộc vào loại tác nhân người dùng; ví dụ: Googlebot Smartphone có thể có giá trị số bước khác với Googlebot Image.

Đối với tệp robots.txt, Googlebot sẽ đi theo ít nhất 5 bước chuyển hướng như xác định trong RFC 1945, sau đó dừng lại và coi đó là một lỗi 404 của tệp robots.txt.

Mọi nội dung mà Googlebot nhận được từ URL chuyển hướng đều bị bỏ qua và nội dung của URL đích cuối cùng sẽ được xem xét để lập chỉ mục.

301 (moved permanently)

Googlebot sẽ đi theo lệnh chuyển hướng và quy trình lập chỉ mục sẽ coi lệnh chuyển hướng là một tín hiệu mạnh cho thấy trang đích của lệnh chuyển hướng nên được chọn làm trang chính tắc.

302 (found)

Googlebot sẽ đi theo lệnh chuyển hướng và quy trình lập chỉ mục sẽ coi lệnh chuyển hướng là một tín hiệu yếu cho thấy trang đích của lệnh chuyển hướng nên được chọn làm trang chính tắc.

303 (see other)
304 (not modified)

Googlebot sẽ báo hiệu cho quy trình lập chỉ mục rằng nội dung này giống với nội dung trong lần thu thập dữ liệu trước đó. Quy trình lập chỉ mục có thể tính toán lại các tín hiệu của URL, nhưng ngoài điểm này ra thì mã trạng thái không ảnh hưởng đến việc lập chỉ mục.

307 (temporary redirect) Tương đương với 302.
308 (moved permanently) Tương đương với 301.

4xx (client errors)

Quy trình lập chỉ mục của Google không xem xét việc lập chỉ mục URL trả về mã trạng thái 4xx. Những URL đã được lập chỉ mục và trả về mã trạng thái 4xx sẽ bị xoá khỏi chỉ mục.

Mọi nội dung Googlebot nhận được qua những URL trả về mã trạng thái 4xx đều bị bỏ qua.

400 (bad request)

Ngoại trừ lỗi 429, mọi lỗi 4xx đều được xử lý như nhau: Googlebot báo hiệu cho quy trình lập chỉ mục rằng nội dung không tồn tại.

Quy trình lập chỉ mục sẽ xoá URL khỏi chỉ mục nếu URL này đã có trong chỉ mục. Hệ thống sẽ không xử lý những trang 404 mới gặp. Tần suất thu thập dữ liệu sẽ giảm dần.

401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)

Googlebot coi mã trạng thái 429 là tín hiệu cho thấy máy chủ bị quá tải và coi đó là một lỗi máy chủ.

5xx (server errors)

Các lỗi máy chủ 5xx429 sẽ thông báo để trình thu thập dữ liệu của Google tạm thời giảm tốc độ thu thập dữ liệu. Những URL đã lập chỉ mục sẽ vẫn còn trong chỉ mục, nhưng cuối cùng sẽ bị xoá.

Nếu tệp robots.txt trả về một mã trạng thái lỗi máy chủ trong hơn 30 ngày, thì Google sẽ sử dụng phiên bản gần đây nhất của tệp này lưu trong bộ nhớ đệm. Nếu không có, Google sẽ xem như không có hạn chế nào đối với việc thu thập dữ liệu.

Mọi nội dung Googlebot nhận được qua những URL trả về mã trạng thái 5xx đều bị bỏ qua.

500 (internal server error)

Googlebot giảm tốc độ thu thập dữ liệu cho trang web. Tốc độ thu thập dữ liệu sẽ giảm tương ứng với số lượng URL riêng lẻ đang trả về lỗi máy chủ. Quy trình lập chỉ mục của Google sẽ xoá khỏi chỉ mục những URL liên tục trả về lỗi máy chủ.

502 (bad gateway)
503 (service unavailable)

Các lỗi soft 404

Lỗi soft 404 xảy ra khi một URL trả về một trang thông báo cho người dùng rằng trang đó không tồn tại, đồng thời trả về một mã trạng thái 200 (success). Trong một số trường hợp, đó có thể là một trang không có nội dung chính hoặc một trang trống.

Những trang như vậy có thể do máy chủ web, hệ thống quản lý nội dung hoặc trình duyệt của người dùng tạo ra vì nhiều lý do. Ví dụ:

  • Thiếu tệp phía máy chủ.
  • Hỏng kết nối đến cơ sở dữ liệu.
  • Trang kết quả tìm kiếm nội bộ trống.
  • Chưa tải hoặc thiếu tệp JavaScript.

Trường hợp trả về mã trạng thái 200 (success) mang lại trải nghiệm không tốt cho người dùng, nhưng sau đó sẽ hiển thị hoặc đề xuất một thông báo lỗi hoặc một số loại lỗi trên trang. Người dùng có thể nghĩ rằng trang đó là một trang đang hoạt động nhưng sau đó gặp một số loại lỗi. Những trang như vậy sẽ bị loại trừ khỏi Tìm kiếm.

Khi thuật toán của Google phát hiện rằng trang đó thực sự là một trang lỗi (dựa vào nội dung trên trang), thì bạn sẽ thấy một lỗi soft 404 mềm xuất hiện trong báo cáo Lập chỉ mục trang của trang web trên Search Console.

Khắc phục lỗi soft 404

Tuỳ thuộc vào trạng thái của trang và kết quả mong muốn, bạn có thể xử lý các lỗi soft 404 theo nhiều cách:

Hãy cố gắng xác định xem giải pháp nào là tốt nhất cho người dùng của bạn.

Trang và nội dung không còn tồn tại

Nếu bạn đã xoá trang đó và trên trang web không có trang nào khác để thay thế với nội dung tương tự, hãy trả về một mã (trạng thái) phản hồi 404 (not found) hoặc 410 (gone). Những mã trạng thái này cho các công cụ tìm kiếm biết rằng trang đó không tồn tại và nội dung trong đó không nên được lập chỉ mục.

Nếu có quyền truy cập vào các tệp cấu hình trên máy chủ, bạn có thể tuỳ chỉnh các trang thông báo lỗi để những trang đó trở nên hữu ích cho người dùng. Một trang 404 tuỳ chỉnh tốt sẽ giúp mọi người tìm thấy thông tin họ đang tìm kiếm, đồng thời, cung cấp nội dung hữu ích khác để khuyến khích họ khám phá thêm trên trang web của bạn. Sau đây là một số mẹo để thiết kế một trang 404 tuỳ chỉnh hữu ích:

  • Thông báo rõ ràng với khách truy cập rằng không thể tìm thấy trang họ đang tìm. Sử dụng ngôn ngữ thân thiện và cuốn hút.
  • Đảm bảo rằng trang 404 của bạn có cùng giao diện (bao gồm phần điều hướng) với các trang còn lại của trang web.
  • Cân nhắc việc thêm các đường liên kết tới các bài viết hoặc bài đăng phổ biến nhất, cũng như một đường liên kết tới trang chủ của trang web của bạn.
  • Cân nhắc việc cung cấp cho người dùng một phương thức để báo cáo đường liên kết bị hỏng.

Trang 404 tuỳ chỉnh được tạo chỉ để dành cho người dùng. Về phía công cụ tìm kiếm, những trang này là vô ích, do đó hãy đảm bảo máy chủ trả về một mã trạng thái HTTP 404 để ngăn Google lập chỉ mục các trang đó.

Trang hoặc nội dung hiện đã chuyển sang nơi khác

Nếu trang của bạn đã di chuyển hoặc có một trang thay thế phù hợp trên trang web của bạn, hãy trả về một lệnh 301 (permanent redirect) để chuyển hướng người dùng. Thao tác này sẽ không làm gián đoạn trải nghiệm duyệt web của người dùng và cũng là một cách phù hợp để cho các công cụ tìm kiếm biết vị trí mới của trang. Hãy dùng Công cụ kiểm tra URL để xác minh xem URL của bạn có đang thật sự trả về mã thích hợp hay không.

Trang và nội dung vẫn tồn tại

Nếu một trang phù hợp khác bị gắn cờ là có lỗi soft 404, thì có thể trang đó đã tải không đúng cách cho Googlebot hoặc bị thiếu tài nguyên quan trọng trong quá trình hiển thị hoặc cho thấy một thông báo lỗi nổi bật trong quá trình hiển thị. Hãy dùng Công cụ kiểm tra URL để kiểm tra nội dung được hiển thị và mã HTTP được trả về. Nếu trang được hiển thị không có nội dung hoặc gần như không có nội dung, hoặc nếu có thông báo lỗi trong nội dung, thì có thể là do trang của bạn tham chiếu đến nhiều tài nguyên không tải được (hình ảnh, tập lệnh và các thành phần khác không phải văn bản). Tình trạng này có thể bị xem là một lỗi soft 404. Tình trạng tài nguyên không tải được có thể là do tài nguyên bị chặn (bị tệp robots.txt chặn), có quá nhiều tài nguyên trên một trang, có nhiều lỗi máy chủ hoặc tài nguyên có kích thước rất lớn hoặc tải chậm.

Lỗi mạng và lỗi DNS

Lỗi mạng và lỗi DNS nhanh chóng ảnh hưởng tiêu cực đến sự xuất hiện của URL trong Google Tìm kiếm. Googlebot xử lý lỗi thời gian chờ, lỗi đặt lại kết nối và lỗi DNS tương tự như cách xử lý lỗi máy chủ 5xx. Trong trường hợp có lỗi mạng, tốc độ thu thập dữ liệu ngay lập tức bắt đầu chậm lại, vì lỗi mạng là dấu hiệu cho thấy có thể máy chủ không xử lý được mức tải phân phát. Do Googlebot không kết nối được với máy chủ lưu trữ trang web, Google cũng chưa nhận được bất kỳ nội dung nào qua máy chủ. Nếu thiếu nội dung, Google không thể lập chỉ mục các URL đã thu thập dữ liệu. Những URL đã được lập chỉ mục nhưng không truy cập được sẽ bị xoá khỏi chỉ mục của Google trong vòng vài ngày. Search Console có thể tạo lỗi cho từng lỗi tương ứng.

Gỡ lỗi mạng

Những lỗi này xảy ra trước hoặc trong khi Google thu thập dữ liệu URL. Lỗi có thể xảy ra trước khi máy chủ phản hồi nên không có mã trạng thái nào báo hiệu được vấn đề. Do đó, việc chẩn đoán những lỗi này có thể khó khăn hơn. Để gỡ lỗi thời gian chờ và lỗi đặt lại kết nối:

  • Kiểm tra nhật ký và chế độ cài đặt tường lửa. Có thể do một bộ quy tắc chặn có phạm vi quá rộng. Hãy đảm bảo rằng không có quy tắc tường lửa nào chặn địa chỉ IP của Googlebot.
  • Kiểm tra lưu lượng truy cập mạng. Hãy dùng những công cụ như tcpdumpWireshark để thu thập và phân tích các gói TCP, đồng thời tìm những điểm bất thường do một thành phần mạng hoặc mô-đun máy chủ cụ thể gây ra.
  • Nếu bạn không tìm thấy điều gì đáng ngờ, hãy liên hệ với công ty lưu trữ.

Lỗi có thể nằm trong bất kỳ thành phần máy chủ nào đang xử lý lưu lượng truy cập mạng. Ví dụ: giao diện mạng bị quá tải có thể làm mất gói, từ đó gây ra lỗi thời gian chờ (không thể thiết lập kết nối) và lỗi đặt lại kết nối (gói RST được gửi đi vì có cổng bị đóng nhầm).

Gỡ lỗi DNS

Cấu hình sai là nguyên nhân phổ biến nhất gây ra các lỗi DNS, nhưng các lỗi này cũng có thể xảy ra do một quy tắc tường lửa chặn các truy vấn DNS của Googlebot. Để gỡ lỗi DNS, hãy làm như sau:

  • Kiểm tra các quy tắc tường lửa. Hãy đảm bảo rằng không có quy tắc tường lửa nào chặn bất cứ IP nào của Google, và cả yêu cầu UDP lẫn TCP đều được cho phép.
  • Kiểm tra các bản ghi DNS của bạn. Kiểm tra kỹ để đảm bảo rằng các bản ghi ACNAME của bạn đang lần lượt trỏ đến đúng địa chỉ IP và tên máy chủ. Ví dụ:
    dig +nocmd example.com a +noall +answer
    dig +nocmd www.example.com cname +noall +answer
  • Kiểm tra để đảm bảo rằng tất cả máy chủ định danh đang trỏ đến đúng địa chỉ IP trang web của bạn. Ví dụ:
    dig +nocmd example.com ns +noall +answer
    example.com.    86400  IN  NS  a.iana-servers.net.
    example.com.    86400  IN  NS  b.iana-servers.net.
    dig +nocmd @a.iana-servers.net example.com +noall +answer
    example.com.    86400  IN  A  93.184.216.34
    dig +nocmd @b.iana-servers.net example.com +noall +answer
    ...
  • Nếu từng thực hiện thay đổi với cấu hình DNS trong vòng 72 giờ qua, có thể bạn phải chờ những thay đổi này có hiệu lực trên toàn bộ mạng DNS. Để tăng tốc độ áp dụng thay đổi, bạn có thể xoá bộ nhớ đệm DNS công khai của Google.
  • Nếu bạn đang tự chạy máy chủ DNS của mình, hãy đảm bảo máy chủ hoạt động tốt và không bị quá tải.