Thứ Sáu, ngày 7 tháng 3 năm 2025
Tệp robots.txt, một công cụ lâu đời dành cho chủ sở hữu trang web, được sử dụng tích cực trong hơn 30 năm và được các nhà điều hành trình thu thập thông tin hỗ trợ rộng rãi (chẳng hạn như các công cụ dành cho chủ sở hữu trang web, dịch vụ và công cụ tìm kiếm). Trong bản tin này về loạt bài Ôn lại kiến thức về robot, chúng ta sẽ tìm hiểu kỹ hơn về tệp robots.txt, một phương thức linh hoạt để hướng dẫn các robot những việc bạn muốn (hoặc không muốn) các robot này thực hiện trên trang web của mình.
Làm quen với tệp robots.txt
Cách hoạt động của các tệp này rất đơn giản: bạn tạo một tệp văn bản có tên "robots.txt" rồi tải tệp đó lên trang web của mình—còn nếu đang sử dụng hệ thống quản lý nội dung (CMS), bạn có thể thực hiện việc này dễ dàng hơn nữa. Bạn có thể để trắng tệp robots.txt (hoặc không dùng tệp này) nếu toàn bộ trang web của bạn có thể được thu thập thông tin, hoặc bạn có thể thêm quy tắc để quản lý hoạt động thu thập thông tin. Ví dụ: để yêu cầu tất cả bot (còn gọi là trình thu thập thông tin, robot, trình thu thập dữ liệu) không được truy cập vào trang "thêm vào giỏ hàng", bạn có thể viết nội dung sau vào tệp robots.txt:
user-agent: * disallow: /cart
Những việc cụ thể hơn mà bạn có thể thực hiện bằng tệp robots.txt
Tệp robots.txt là công cụ đa năng giúp bạn trình bày những việc mà mình muốn các robot khác nhau thực hiện hoặc không thực hiện trên trang web của mình: có thể tệp này chỉ có vài dòng hoặc có thể đây là một tệp phức tạp chứa nhiều quy tắc chi tiết hơn, nhắm đến các mẫu URL cụ thể. Bạn có thể dùng tệp robots.txt để giải quyết các vấn đề về kỹ thuật (chẳng hạn như các trang được phân trang một cách không cần thiết) hoặc vì lý do liên quan đến hoạt động biên tập hoặc cá nhân (chẳng hạn như không muốn một số nội dung nhất định được thu thập thông tin). Ví dụ: bạn có thể:
Thông báo cho nhiều bot (nhưng không phải tất cả) về cùng một quy tắc
Nhóm này yêu cầu cả |
user-agent: examplebot user-agent: otherbot disallow: /search |
Yêu cầu một bot tránh các đường dẫn chứa một đoạn văn bản cụ thể
Ví dụ: bạn có thể yêu cầu |
user-agent: documentsbot disallow: *.pdf |
Cho phép bot thu thập thông tin trên blog của bạn, nhưng không được thu thập thông tin trên các bài viết nháp |
user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/ |
Chặn không cho một trình thu thập thông tin truy cập một phần trang web của bạn, trong khi cho phép các trình thu thập thông tin khác truy cập vào trang web của bạn
Tệp robots.txt này không cho phép |
user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$ |
Lưu lại bình luận cho chính mình trong tương lai
Bạn có thể bắt đầu một dòng bằng |
# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/ |
Để biết thêm thông tin, bạn có thể tham khảo danh sách quy tắc hữu ích trong tệp robots.txt.
Thay đổi tệp robots.txt (trong thực tế)
Giao thức loại trừ cho robot (REP) hoạt động nhờ kết hợp các quy tắc ("allow" hoặc "disallow") và chỉ định những robot sẽ áp dụng các quy tắc này. Bạn không cần phải học lập trình hay bỏ thời gian mày mò các công cụ, mà chỉ cần đặt các quy tắc này vào một tệp văn bản rồi tải tệp đó lên trang web của mình.
Đối với hầu hết trang web, việc này còn đơn giản hơn thế! Nếu bạn đang sử dụng một hệ thống quản lý nội dung (CMS), thì thường là hệ thống quản lý nội dung đó sẽ có một số tính năng giúp bạn thay đổi tệp robots.txt. Ví dụ: một số hệ thống quản lý nội dung cho phép bạn tuỳ chỉnh tệp robots.txt bằng cách sử dụng hộp đánh dấu hoặc bằng một biểu mẫu đơn giản. Ngoài ra, nhiều CMS có các trình bổ trợ giúp thiết lập và viết quy tắc cho tệp robots.txt. Để kiểm tra những việc có thể thực hiện trong CMS, bạn có thể tìm kiếm tên CMS của mình +"chỉnh sửa tệp robots.txt".
Sau khi thiết lập xong, bạn cũng có thể kiểm thử để đảm bảo rằng tệp được thiết lập đúng như ý mình. Có nhiều công cụ kiểm thử do cộng đồng web xây dựng để giúp giải quyết vấn đề này, chẳng hạn như công cụ kiểm thử tệp robots.txt của TametheBot và trình phân tích cú pháp tệp robots.txt này (đang sử dụng thư viện trình phân tích cú pháp tệp robots.txt nguồn mở).
Nếu có thắc mắc về tệp robots.txt, bạn có thể liên hệ với chúng tôi trên LinkedIn hoặc trò chuyện với các chuyên gia có cùng quan điểm trong diễn đàn cộng đồng của chúng tôi.