Lỗi thu thập dữ liệu: Thế hệ tiếp theo

Thứ Hai, ngày 12 tháng 3 năm 2012

Lỗi thu thập dữ liệu là một trong những tính năng phổ biến nhất trong Công cụ quản trị trang web. Hôm nay, chúng tôi xin ra mắt một số điểm cải tiến rất quan trọng để giúp tính năng này trở nên hữu ích hơn nữa.

Giờ đây, chúng tôi có thể phát hiện và báo cáo nhiều loại lỗi mới. Để giúp bạn hiểu rõ về dữ liệu mới, chúng tôi đã chia lỗi thành hai phần: lỗi trang weblỗi URL.

Lỗi trang web

Lỗi trang web là những lỗi không chỉ ảnh hưởng đến một URL cụ thể mà ảnh hưởng đến toàn bộ trang web của bạn. Những lỗi này bao gồm lỗi phân giải DNS, vấn đề về khả năng kết nối với máy chủ web và vấn đề khi tìm nạp tệp robots.txt. Chúng tôi từng báo cáo các lỗi này theo URL, nhưng việc đó không hợp lý lắm vì chúng không chỉ ảnh hưởng đến một vài URL. Trên thực tế, thậm chí các lỗi này ngăn không cho Googlebot yêu cầu một URL! Thay vào đó, giờ đây chúng tôi theo dõi tỷ lệ lỗi của từng loại lỗi trên toàn trang web. Chúng tôi cũng sẽ cố gắng gửi cảnh báo cho bạn khi các lỗi này xuất hiện thường xuyên đến mức cần được xử lý.

Xem tỷ lệ và số lượng lỗi trang web theo thời gian trong Công cụ quản trị trang web

Hơn nữa, nếu bạn không gặp (và gần đây chưa gặp) vấn đề nào liên quan đến những lỗi này, như trường hợp của nhiều trang web khác, thì chúng tôi sẽ không làm phiền bạn về phần này. Thay vào đó, chúng tôi sẽ chỉ cho bạn thấy một số dấu kiểm thân thiện để bạn biết mọi thứ đều ổn.

Chế độ xem lỗi trang web trong Công cụ quản trị trang web không hiện lỗi

Lỗi URL

Lỗi URL là các lỗi chỉ gặp trên một trang cụ thể. Tức là khi cố gắng thu thập dữ liệu của một URL, Googlebot có thể phân giải DNS của bạn, kết nối với máy chủ của bạn, tìm nạp và đọc tệp robots.txt của bạn rồi yêu cầu URL này, nhưng sẽ xảy ra sự cố sau đó. Chúng tôi chia các lỗi URL thành nhiều danh mục theo từng nguyên nhân gây ra lỗi. Nếu trang web của bạn phân phát dữ liệu Google Tin tức hoặc dữ liệu di động (CHTML/XHTML), thì chúng tôi sẽ đưa ra các danh mục riêng biệt cho những lỗi đó.

Chế độ xem lỗi URL trong Công cụ quản trị trang web được phân chia theo loại kèm theo tổng số lỗi ở hiện tại và trước đây

Càng ít càng tốt

Chúng tôi từng cho bạn thấy tối đa 100.000 lỗi thuộc mỗi loại. Việc cố gắng xử lý toàn bộ thông tin này giống như việc uống nước từ vòi cứu hoả và bạn chẳng thể biết được lỗi nào trong số đó là quan trọng (trang chủ của bạn không hoạt động) hay ít quan trọng hơn (trang web cá nhân của một người đã nhập sai chính tả trong một đường liên kết đến trang web của bạn). Không có cách nào thiết thực để xem toàn bộ 100.000 lỗi – không có cách nào để sắp xếp, tìm kiếm hoặc đánh dấu tiến độ của bạn. Trong phiên bản mới của tính năng này, chúng tôi đã tập trung vào việc cố gắng chỉ cho bạn thấy những lỗi quan trọng nhất trước. Đối với mỗi danh mục, chúng tôi sẽ cung cấp cho bạn danh sách 1.000 lỗi mà chúng tôi cho là quan trọng nhất và có thể xử lý được. Bạn có thể sắp xếp và lọc 1.000 lỗi hàng đầu này, cho chúng tôi biết khi bạn đã khắc phục lỗi và xem thông tin chi tiết về các lỗi đó.

Chức năng sắp xếp trong chế độ xem lỗi thu thập dữ liệu của Công cụ quản trị trang web

Một số trang web có hơn 1000 lỗi thuộc một loại cụ thể, vậy nên bạn vẫn có thể xem tổng số lỗi bạn gặp phải theo từng loại, cũng như xem biểu đồ thể hiện dữ liệu trong 90 ngày trở lại đây. Đối với những ai lo lắng rằng 1.000 thông tin chi tiết về lỗi cộng với tổng số lỗi là chưa đủ, chúng tôi đang xem xét bổ sung quyền truy cập có lập trình (một API) để cho phép bạn tải mọi lỗi hiện có xuống. Do đó, vui lòng phản hồi cho chúng tôi nếu bạn cần thêm thông tin về lỗi.

Chúng tôi cũng đã xoá danh sách các trang bị chặn bằng tệp robots.txt. Lý do là vì đôi khi các trang này có thể hữu ích cho việc chẩn đoán sự cố bằng tệp robots.txt, nhưng chúng thường là những trang bạn chặn có chủ ý. Chúng tôi thực sự muốn tập trung vào lỗi, vì vậy, hãy tìm thông tin về các URL bị chặn bằng tệp robots.txt. Thông tin này sẽ sớm xuất hiện trong tính năng "Truy cập trình thu thập dữ liệu" trong phần "Cấu hình trang web".

Tìm hiểu chi tiết

Khi nhấp vào một URL lỗi riêng lẻ trong danh sách chính, bạn sẽ thấy một ngăn thông tin chi tiết chứa thông tin bổ sung, trong đó có lần gần đây nhất chúng tôi cố gắng thu thập dữ liệu của URL đó, lần đầu tiên chúng tôi phát hiện sự cố và phần giải thích ngắn gọn về lỗi đó.

Chế độ xem chi tiết về lỗi cấp URL

Trong ngăn thông tin chi tiết, bạn có thể nhấp vào đường liên kết chứa URL gây ra lỗi để tự xem điều gì sẽ xảy ra khi bạn cố gắng truy cập URL đó. Bạn cũng có thể đánh dấu lỗi là "đã khắc phục" (chúng ta sẽ tìm hiểu thêm về việc này sau!), xem nội dung trợ giúp về loại lỗi, liệt kê các Sơ đồ trang web có chứa URL, xem các trang khác liên kết đến URL này và thậm chí yêu cầu Googlebot tìm nạp URL ngay lập tức để biết thêm thông tin hoặc để kiểm tra lại xem bản sửa lỗi của bạn có hoạt động hay không.

Bảng điều khiển trong chế độ xem lỗi thu thập dữ liệu của Công cụ quản trị trang web, cho biết trang nào liên kết đến trang có lỗi

Hành động!

Một điều làm chúng tôi thực sự hào hứng trong phiên bản mới này của tính năng Lỗi thu thập dữ liệu là bạn thực sự có thể tập trung vào việc khắc phục những vấn đề quan trọng nhất trước. Chúng tôi đã xếp hạng lỗi sao cho những lỗi ở đầu danh sách ưu tiên sẽ là những lỗi mà bạn có thể hành động, cho dù là khắc phục các đường liên kết bị hỏng trên trang web, khắc phục lỗi trong phần mềm máy chủ, cập nhật sơ đồ trang web để loại bỏ những URL không hoạt động hay thêm lệnh chuyển hướng 301 để đưa người dùng đến trang "thật". Chúng tôi sắp xếp dựa trên nhiều yếu tố, bao gồm cả việc bạn có đưa URL vào Sơ đồ trang web hay không, số lượng vị trí mà URL đó liên kết (và có vị trí nào trong đó cũng xuất hiện trên trang web của bạn hay không), cũng như gần đây URL đó có nhận được lưu lượng truy cập qua công cụ tìm kiếm hay không.

Khi đã khắc phục được vấn đề (bạn có thể kiểm tra kết quả khắc phục vấn đề bằng cách tìm nạp URL đó với tư cách Googlebot), bạn có thể cho chúng tôi biết bằng cách đánh dấu lỗi là "đã khắc phục" nếu bạn là người dùng có toàn quyền truy cập. Thao tác này sẽ xoá lỗi đó khỏi danh sách của bạn. Sau này, những lỗi mà bạn đánh dấu là đã khắc phục sẽ không được đưa vào danh sách lỗi hàng đầu, trừ trường hợp chúng tôi gặp phải lỗi tương tự khi cố gắng thu thập lại dữ liệu của một URL.

Bảng điều khiển cho phép người dùng đánh dấu lỗi đã được khắc phục trong Công cụ quản trị trang web

Chúng tôi đã nỗ lực rất nhiều cho tính năng Lỗi thu thập dữ liệu mới, hy vọng rằng tính năng mới này sẽ cực kỳ hữu ích cho bạn. Hãy cho chúng tôi biết ý kiến của bạn và nếu bạn có đề xuất, vui lòng truy cập diễn đàn của chúng tôi!