Thứ Ba, ngày 2 tháng 7 năm 2019
Hôm qua, chúng tôi thông báo về việc tạo nguồn mở cho trình phân tích cú pháp tệp robots.txt do Google sản xuất.
Đây là thời khắc tuyệt vời mở ra cơ hội cho các dự án nguồn mở tiềm năng về Tìm kiếm trong tương lai! Ý kiến phản hồi sẽ giúp ích cho chúng tôi và chúng tôi cũng đang rất mong được thu thập câu hỏi của nhà phát triển và quản trị viên trang web. Trong bài đăng này, chúng tôi sẽ giải đáp một câu hỏi nổi bật:
Tại sao trình xử lý mã cho các quy tắc khác (như trì hoãn thu thập dữ liệu) không có trong mã?
Bản thảo trên Internet mà chúng tôi phát hành hôm qua cung cấp cấu trúc có thể mở rộng cho các quy tắc không thuộc tiêu chuẩn. Điều này có nghĩa là nếu một trình thu thập dữ liệu muốn hỗ trợ dòng mã riêng như unicorns: allowed
, thì họ có thể hỗ trợ. Để minh hoạ cách thực hiện trong trình phân tích cú pháp, chúng tôi đã đưa một dòng rất phổ biến là sơ đồ trang web vào trình phân tích cú pháp robots.txt nguồn mở của chúng tôi.
Trong quá trình tạo nguồn mở cho thư viện trình phân tích cú pháp, chúng tôi đã phân tích mức sử dụng các quy tắc trong tệp robots.txt. Cụ thể, chúng tôi tập trung vào các quy tắc không được hỗ trợ trong bản thảo trên Internet, chẳng hạn như crawl-delay
, nofollow
và noindex
. Vì Google chưa từng ghi lại các quy tắc này nên đương nhiên mức sử dụng các quy tắc này liên quan đến Googlebot cũng rất thấp. Tìm hiểu sâu hơn, chúng tôi nhận thấy tỷ lệ sử dụng những quy tắc này mâu thuẫn với các quy tắc khác trong gần như mọi tệp robots.txt trên Internet, chỉ trừ 0,001% các tệp này.
Những lỗi này ảnh hưởng đến cách xuất hiện của trang web trong kết quả tìm kiếm trên Google theo hướng mà có lẽ các quản trị viên trang web không mong muốn.
Để duy trì một hệ sinh thái lành mạnh và chuẩn bị cho các bản phát hành nguồn mở có thể ra mắt trong tương lai, chúng tôi sẽ gỡ bỏ mọi đoạn mã xử lý các quy tắc không được hỗ trợ và chưa xuất bản (chẳng hạn như noindex
) vào ngày 1 tháng 9 năm 2019. Đối với những người đã sử dụng quy tắc lập chỉ mục noindex
trong tệp robots.txt
để kiểm soát quá trình thu thập dữ liệu, chúng tôi có một số lựa chọn như sau:
-
noindex
trong thẻmeta
robots tags: Hỗ trợ cả trong tiêu đề phản hồi HTTP và bằng HTML, quy tắcnoindex
là cách hiệu quả nhất để xoá URL khỏi chỉ mục trong khi vẫn cho phép thu thập dữ liệu. -
Mã trạng thái HTTP
404
và410
: Cả hai mã trạng thái này đều có nghĩa là trang đó không tồn tại. Các URL như vậy sẽ bị xoá khỏi chỉ mục của Google sau khi được thu thập dữ liệu và xử lý. - Bảo vệ bằng mật khẩu: Nếu bạn ẩn một trang bằng yêu cầu đăng nhập, thì thông thường trang đó sẽ bị xoá khỏi chỉ mục của Google, trừ phi bạn dùng mã đánh dấu để chỉ định nội dung đăng ký hoặc nội dung có tường phí.
-
Disallow
trongrobots.txt
: Các công cụ tìm kiếm chỉ có thể lập chỉ mục những trang đã biết, vì vậy, nếu bạn chặn không cho Google thu thập dữ liệu trên một trang, thì chúng tôi thường sẽ không lập chỉ mục cho nội dung của trang đó. Tuy công cụ tìm kiếm cũng có thể lập chỉ mục URL dựa trên đường liên kết trên các trang khác, nhưng chúng tôi muốn giảm mức độ xuất hiện của những trang như vậy trong tương lai. - Công cụ xoá URL của Search Console: Công cụ này là một phương pháp nhanh chóng và dễ dàng để xoá tạm thời một URL khỏi kết quả tìm kiếm của Google.
Để được hướng dẫn thêm về cách xoá thông tin khỏi kết quả tìm kiếm của Google, hãy truy cập Trung tâm trợ giúp của chúng tôi. Nếu có thắc mắc, bạn có thể liên hệ với chúng tôi trên Twitter và tại Cộng đồng quản trị viên trang web, cả trực tiếp và trên mạng.