Lỗi 404 có gây hại cho trang web của tôi không?

Thứ Hai, ngày 2 tháng 5 năm 2011

Bạn đang tập trung vào việc của mình và đang sử dụng Công cụ quản trị trang web để xem trang web của mình tuyệt đến nhường nào... nhưng từ từ đã! Trang Lỗi thu thập dữ liệu có đầy lỗi 404 (Not found)! Thảm hoạ sắp tới ư??

Tính năng Lỗi thu thập dữ liệu trong Công cụ quản trị trang web

Đừng lo, bạn tôi ơi. Hãy xem thông tin về các lỗi 404 và tác động của chúng (nếu có) đối với trang web của bạn:

Hỏi: Các lỗi 404 được báo cáo trong Công cụ quản trị trang web có ảnh hưởng đến thứ hạng của trang web của tôi không?
Đáp: Lỗi 404 là một phần hoàn toàn bình thường trên mạng; Internet luôn thay đổi, nội dung mới ra đời, nội dung cũ mất đi và khi ngừng hoạt động (thì tốt nhất) nội dung đó nên trả về mã phản hồi HTTP 404. Các công cụ tìm kiếm biết điều này; chúng tôi có lỗi 404 trên các trang web của mình, như bạn có thể thấy ở trên và chúng tôi cũng tìm thấy chúng đầy trên web. Thực tế là chúng tôi thực sựưu tiên rằng khi xoá một trang trên trang web của mình, bạn phải đảm bảo rằng trang này trả về mã phản hồi 404 hoặc 410 hợp lệ (thay vì soft 404). Xin lưu ý rằng để trình thu thập dữ liệu của chúng tôi có thể nhìn thấy mã phản hồi HTTP của một URL, URL đó phải cho phép thu thập dữ liệu. Nếu URL bị tệp robots.txt của bạn chặn, chúng tôi sẽ không thể thu thập dữ liệu và xem mã phản hồi của trang. Thực tế là việc một số URL trên trang web của bạn không còn tồn tại hoặc trả về lỗi 404 không ảnh hưởng đến hiệu suất của các URL khác trên trang web của bạn (các URL trả về mã trạng thái 200 (Success)) trong kết quả tìm kiếm của chúng tôi.

Hỏi: Vậy là lỗi 404 không hề ảnh hưởng xấu đến trang web của tôi?
Đáp: Nếu một số URL trên trang web của bạn là trang 404, thì mỗi việc này sẽ không gây tổn hại hay ảnh hưởng đến kết quả tìm kiếm của bạn trên Google. Tuy nhiên, có thể có nhiều lý do khác khiến bạn nên xử lý một số loại lỗi 404. Ví dụ: nếu một số trang 404 thực sự là trang bạn quan tâm, bạn nên tìm hiểu lý do chúng tôi thấy lỗi 404 khi thu thập dữ liệu những trang đó! Nếu bạn thấy lỗi chính tả của một URL hợp lệ (www.example.com/awsome thay vì www.example.com/awesome), thì có thể có ai đó thực sự muốn liên kết đến bạn nhưng đơn giản là gõ sai chính tả. Thay vì trả về 404, bạn có thể 301 chuyển hướng URL bị sai chính tả đến đúng URL và nắm bắt lưu lượng truy cập có thể có được nhờ đường liên kết đó. Bạn cũng có thể đảm bảo rằng khi người dùng truy cập một trang 404 trên trang web của bạn, bạn sẽ giúp họ tìm thấy nội dung họ đang tìm thay vì chỉ nói "404 Không tìm thấy."

Hỏi: Hãy cho tôi biết thêm về "lỗi soft 404".
Đáp: soft 404 là khi máy chủ web trả về một mã phản hồi khác 404 (hoặc 410) cho một URL không tồn tại. Một ví dụ phổ biến là khi chủ sở hữu một trang web muốn trả về một trang 404 đẹp mắt kèm theo thông tin hữu ích cho người dùng và cho rằng để phân phát nội dung cho người dùng, họ phải trả về một mã phản hồi 200. Không đâu! Bạn có thể trả về một mã phản hồi 404 trong khi vẫn phân phát được bất kỳ nội dung nào mình muốn. Một ví dụ khác là khi một trang web chuyển hướng mọi URL không xác định đến trang chủ của họ thay vì trả về lỗi 404. Cả hai trường hợp này đều có thể ảnh hưởng tiêu cực đến việc chúng tôi hiểu và lập chỉ mục trang web của bạn. Vì vậy, bạn nên đảm bảo máy chủ của bạn trả về mã phản hồi thích hợp cho nội dung không tồn tại. Xin lưu ý rằng chỉ vì một trang cho biết "404, điều đó không có nghĩa là nội dung thực sự trả về một mã phản hồi HTTP 404 — hãy sử dụng tính năng Tìm nạp như Googlebot trong Công cụ quản trị trang web để kiểm tra cho chắc. Nếu bạn không rõ cách định cấu hình máy chủ để trả về mã phản hồi phù hợp, hãy xem tài liệu trợ giúp của nhà cung cấp dịch vụ lưu trữ web cho bạn.

Hỏi: Làm cách nào để biết một URL nên là 404, 301 hay 410?
Đáp: Khi bạn xoá một trang khỏi trang web của mình, hãy suy nghĩ xem liệu nội dung đó đang được di chuyển sang nơi khác hay bạn không còn muốn có loại nội dung đó trên trang web của mình nữa. Nếu đang chuyển nội dung đó sang một URL mới, bạn nên dùng 301 để chuyển hướng URL cũ sang URL mới. Khi đó, khi người dùng truy cập vào URL cũ để tìm nội dung đó, họ sẽ tự động được chuyển hướng đến nội dung có liên quan đến nội dung họ cần tìm. Nếu bạn xoá hoàn toàn nội dung đó và không có nội dung nào khác trên trang web của bạn đáp ứng được nhu cầu tương tự của người dùng, thì URL cũ nên trả về 404 hoặc 410. Hiện tại, Google xử lý 410 (Gone) giống như 404 (Not found), vì vậy, việc bạn trả về mã nào trong hai mã này là không quan trọng.

Hỏi: Hầu hết các lỗi 404 đều là do các URL lạ chưa từng tồn tại trên trang web của tôi. Có chuyện gì vậy? Chúng từ đâu đến?
Đáp: Nếu tìm thấy một đường liên kết ở nơi nào đó trên web trỏ đến một URL trên miền của bạn, thì có thể Google sẽ cố gắng thu thập dữ liệu của đường liên kết đó, dù nội dung đó có thực sự tồn tại hay không; và khi đó, máy chủ của bạn nên trả về404 nếu không tìm thấy gì. Những đường liên kết như vậy có thể là do người nào đó viết sai chính tả khi liên kết đến bạn, một số loại cấu hình sai (nếu đường liên kết được tạo tự động, chẳng hạn như do CMS) hoặc do Google tăng nỗ lực nhận dạng và thu thập dữ liệu các đường liên kết được nhúng trong JavaScript hoặc nội dung được nhúng khác; hoặc có thể những trang này được kiểm tra nhanh từ phía chúng tôi để xem cách máy chủ của bạn xử lý các URL không xác định, v.v. Nếu thấy lỗi 404 được báo cáo trong Công cụ quản trị trang web cho những URL không tồn tại trên trang web của mình, bạn có thể bỏ qua những lỗi đó mà không cần lo lắng. Chúng tôi không biết URL nào quan trọng đối với bạn so với URL được cho là404, vì vậy, chúng tôi cho bạn thấy tất cả trang404 lỗi mà chúng tôi tìm thấy trên trang web của bạn, đồng thời giúp bạn quyết định xem bạn cần chú ý đến vấn đề nào (nếu có).

Hỏi: Có ai đó cóp nhặt nội dung trên trang web của tôi và gây ra một loạt lỗi 404 trong quá trình này. Tất cả đều là URL "thực" với mã khác được thêm vào, chẳng hạn như https://www.example.com/images/kittens.jpg" width="100" height="300" alt="kittens"/>. Điều này có gây hại cho trang web của tôi không?
Đáp: Nhìn chung, bạn không cần lo lắng về việc "đường liên kết bị hỏng" như thế này sẽ gây hại cho trang web của bạn Chúng tôi hiểu rằng chủ sở hữu trang web có rất ít hoặc không có quyền kiểm soát đối với những người cóp nhặt trang web hoặc những người liên kết đến trang web theo những cách lạ thường. Nếu thành thạo biểu thức chính quy, bạn có thể xem xét việc chuyển hướng những URL này, nhưng thường thì bạn không cần lo lắng. Hãy nhớ rằng bạn cũng có thể gửi một yêu cầu gỡ bỏ khi bạn cho rằng có người đang đánh cắp nội dung nguyên gốc trên trang web của bạn.

Hỏi: Tuần trước, tôi đã khắc phục tất cả các lỗi 404 mà Công cụ quản trị trang web báo cáo, nhưng các lỗi đó vẫn có trong tài khoản của tôi. Điều này có nghĩa là tôi chưa sửa chúng đúng cách phải không? Mất bao lâu chúng mới biến mất?
Đáp: Hãy xem cột "Phát hiện" trên trang Lỗi thu thập dữ liệu. Đây là ngày gần đây nhất mà chúng tôi phát hiện từng lỗi. Nếu (các) ngày trong cột đó là từ trước thời điểm bạn khắc phục lỗi, thì tức là chúng tôi chưa gặp phải những lỗi này kể từ ngày đó. Nếu ngày gần đây hơn thì có nghĩa là chúng tôi sẽ tiếp tục thấy các lỗi 404 này khi thu thập dữ liệu.

Sau khi triển khai bản sửa lỗi, bạn có thể kiểm tra xem trình thu thập dữ liệu của chúng tôi có đang nhìn thấy mã phản hồi mới hay không bằng cách dùng tính năng Tìm nạp như Googlebot. Hãy kiểm tra một vài URL và nếu các URL đó trông có vẻ ổn, các lỗi này sẽ sớm bắt đầu biến mất khỏi danh sách Lỗi thu thập dữ liệu của bạn.

Hỏi: Tôi có thể sử dụng công cụ xoá URL của Google để lỗi 404 biến mất khỏi tài khoản nhanh hơn không?
Đáp: Không; Công cụ xoá URL sẽ xoá URL khỏi kết quả tìm kiếm của Google chứ không phải khỏi tài khoản Công cụ quản trị trang web của bạn. Công cụ này chỉ được thiết kế cho các yêu cầu xoá khẩn cấp, trong khi không cần thiết khi một URL đã trả về 404, vì một URL như vậy sẽ tự động bị loại bỏ khỏi kết quả tìm kiếm của chúng tôi. Hãy xem phần cuối của bài đăng này trên blog để biết thêm chi tiết về những việc mà công cụ xoá URL làm được và không làm được.

Bạn vẫn muốn tìm hiểu thêm về lỗi 404? Hãy xem tuần lễ 404 trên blog của chúng tôi hoặc truy cập Diễn đàn trợ giúp dành cho quản trị viên trang web.