Thứ Hai, ngày 24 tháng 2 năm 2025
Thỉnh thoảng chúng tôi nhận được câu hỏi về tệp robots.txt, thẻ meta robots và chức năng kiểm soát mà các tệp và thẻ này cung cấp. Sau loạt bài viết vào tháng 12 về hoạt động thu thập dữ liệu, chúng tôi cho rằng đây là thời điểm thích hợp nhất để cùng nhau ôn lại một số kiến thức. Vì vậy, nếu bạn tò mò về các chế độ kiểm soát này, hãy theo dõi loạt bài đăng mới trên blog này!
Hãy nói từ đầu, với tệp robots.txt.
Vậy tệp robots.txt là gì?
"robots.txt" là một tệp mà mọi trang web đều có thể cung cấp. Ở dạng đơn giản nhất, tệp này là một tệp văn bản được lưu trữ trên máy chủ. Hầu hết trang web đều có tệp robots.txt.
Để xem một tệp robots.txt, hãy lấy tên miền và thêm /robots.txt
vào cuối, sau đó duyệt web đến địa chỉ đó. Ví dụ: tệp robots.txt của trang web này nằm ở developers.google.com/robots.txt
.
Hầu hết trang web đều sử dụng hệ thống quản lý nội dung (CMS) để tự động tạo các tệp này, nhưng ngay cả khi tạo trang web một cách "thủ công", bạn vẫn có thể dễ dàng tạo tệp. Chúng ta sẽ xem xét một số biến thể trong các bài đăng sau này.
Những tệp này dùng để làm gì?
Tệp robots.txt cho trình thu thập dữ liệu trang web biết những phần nào của trang web có thể truy cập tự động (chúng tôi gọi hoạt động đó là thu thập dữ liệu) và những phần nào không thể. Tệp này cho phép các trang web giải quyết mọi vấn đề trên toàn bộ trang web, một số phần của trang web hoặc thậm chí là các tệp cụ thể trong trang web. Ngoài việc máy có thể đọc được, con người cũng đọc được các tệp này. Điều này có nghĩa là sẽ luôn có câu trả lời rõ ràng là có hoặc không về việc liệu một trình thu thập dữ liệu cụ thể có được phép truy cập theo cách tự động một trang hay không.
Đây là phương pháp tiêu chuẩn cho bất cứ ai xây dựng trình thu thập thông tin để tuân theo các hướng dẫn này, cũng như nhà phát triển sẽ dễ dàng hỗ trợ các hướng dẫn này – có hơn 1.000 thư viện nguồn mở dành cho nhà phát triển. Tệp này đưa ra hướng dẫn cho trình thu thập dữ liệu để thu thập dữ liệu một trang web một cách tối ưu. Các trang web hiện đại có thể có cấu trúc phức tạp, nên việc tự động điều hướng trên các trang web đó có thể gặp nhiều khó khăn và các quy tắc trong tệp robots.txt sẽ giúp trình thu thập dữ liệu tập trung vào nội dung phù hợp. Điều này cũng giúp trình thu thập dữ liệu tránh các trang được tạo động có thể khiến máy chủ hoạt động quá mức và khiến hoạt động thu thập thông tin không hiệu quả. Vì tệp robots.txt vừa hữu ích về mặt kỹ thuật vừa tốt cho mối quan hệ với chủ sở hữu trang web, nên hầu hết nhà điều hành trình thu thập dữ liệu thương mại đều tuân theo tệp này.
Được cộng đồng xây dựng và mở rộng
Tệp robots.txt đã xuất hiện gần như từ khi Internet ra đời và là một trong những công cụ thiết yếu giúp Internet hoạt động như hiện nay. HTML – nền móng tạo nên các trang web – được phát minh vào năm 1991, trình duyệt đầu tiên ra đời vào năm 1992 và tệp robots.txt ra đời vào năm 1994. Điều đó có nghĩa là HTML, trình duyệt và tệp robots.txt còn lâu đời hơn cả Google (thành lập năm 1998). Định dạng này hầu như không thay đổi kể từ đó và cho đến hiện tại thì tệp robots.txt từ những ngày đầu vẫn hợp lệ. Sau 3 năm được cộng đồng trên toàn cầu sử dụng rộng rãi, đề xuất này đã trở thành một tiêu chuẩn được IETF (Lực lượng chuyên trách kỹ thuật Internet) đề xuất vào năm 2022.
Nếu có một trang web, thì có thể bạn cũng có tệp robots.txt. Có một cộng đồng sôi nổi và năng động về tệp robots.txt, hàng nghìn công cụ phần mềm muôn màu muôn vẻ giúp tạo, kiểm thử, quản lý hoặc hiểu được các tệp robots.txt. Tuy nhiên, điểm hay của tệp robots.txt là bạn không cần dùng các công cụ phức tạp, bạn có thể đọc tệp này trong trình duyệt và điều chỉnh tệp này trong một trình chỉnh sửa văn bản đơn giản đối với trang web mà mình quản lý.
Nhìn về tương lai...
Định dạng tệp robots.txt rất linh hoạt. Còn nhiều cơ hội để phát triển, và nhờ đó cộng đồng web công khai có thể trở nên ngày càng đông đảo hơn, đồng thời trình thu thập dữ liệu có thể thông báo về các tiện ích khi thích hợp mà không làm gián đoạn quá trình sử dụng hiện tại. Điều này xảy ra vào năm 2007, khi các công cụ tìm kiếm công bố về hướng dẫn "sơ đồ trang web". Điều này cũng thường xuyên xảy ra khi các "tác nhân người dùng" mới được các công ty điều hành trình thu thập dữ liệu và công cụ tìm kiếm hỗ trợ, chẳng hạn như những tác nhân người dùng được dùng cho mục đích AI.
Tệp robots.txt vẫn sẽ được sử dụng. Cần vài năm nữa để các định dạng tệp mới trở nên hoàn thiện với cộng đồng Internet rộng lớn, và quá trình phát triển để các công cụ phù hợp trở nên hữu ích cho hệ sinh thái còn mất nhiều thời gian hơn. Dễ dùng, mức độ chi tiết cao, khả năng biểu đạt mạnh mẽ, được hiểu biết và chấp nhận rộng rãi, cùng khả năng vận hành ổn định là những ưu điểm mà tệp robots.txt đã duy trì trong suốt nhiều thập kỷ cho đến hiện tại.
Bạn muốn biết thêm thông tin cụ thể? Hãy chú ý theo dõi các phần tiếp theo của loạt bài Ôn lại kiến thức về tệp robots.txt trên blog của Trung tâm Tìm kiếm!