Các dự án robots.txt nguồn mở mới

Thứ Hai, ngày 21 tháng 9 năm 2020

Năm ngoái, chúng tôi đã ra mắt với cộng đồng nguồn mở trình phân tích cú pháp và so khớp robots.txt mà chúng tôi sử dụng trong hệ thống sản xuất của Google. Kể từ đó, chúng tôi nhận thấy người dùng đã sử dụng trình phân tích cú pháp này để xây dựng các công cụ mới, đóng góp vào thư viện nguồn mở (cũng có nghĩa là giúp cải thiện các hệ thống sản xuất của chúng tôi ‒ cảm ơn các bạn!) và phát hành các phiên bản ngôn ngữ mới như golangrust, qua đó giúp nhà phát triển xây dựng công cụ mới dễ dàng hơn.

Nhân thời điểm mùa thực tập tại Google sắp kết thúc, chúng tôi muốn nêu bật hai bản phát hành mới liên quan đến tệp robots.txt. Đây là sản phẩm của hai nhân viên thực tập tại nhóm Nguồn mở về tìm kiếm – Andreea DutulescuIan Dolzhanskii.

Kiểm tra quy cách tệp robots.txt

Trước tiên, chúng tôi sẽ phát hành một khung kiểm tra – do Andreea tạo ra – cho những nhà phát triển trình phân tích cú pháp tệp robots.txt. Dự án này cung cấp một công cụ kiểm tra có thể xác thực liệu một trình phân tích cú pháp robots.txt có tuân theo Giao thức loại trừ cho robot hay không, hoặc nếu có thì đến mức độ nào. Hiện tại vẫn chưa có một phương pháp chính thức và kỹ lưỡng để đánh giá tính chính xác của một trình phân tích cú pháp. Vì vậy, Andreea đã tạo một công cụ có thể dùng để tạo các trình phân tích cú pháp tệp robots.txt tuân theo giao thức nói trên.

Trình phân tích cú pháp và so khớp robots.txt bằng Java

Thứ hai, chúng tôi sẽ phát hành một cổng Java chính thức của trình phân tích cú pháp robots.txt C++ – đây là thành quả của Ian. Java là ngôn ngữ lập trình phổ biến thứ 3 trên GitHub và cũng được sử dụng rộng rãi tại Google. Do đó, không có gì lạ khi nó là cổng ngôn ngữ được yêu cầu nhiều nhất. Trình phân tích cú pháp này là phiên bản được biên dịch trực tiếp từ trình phân tích cú pháp C++ về mặt chức năng và cách hoạt động, đồng thời đã được kiểm tra kỹ lưỡng với một tập hợp lớn các quy tắc về robots.txt để đảm bảo mức độ tương đồng. Các nhóm tại Google đã lên kế hoạch sử dụng trình phân tích cú pháp robots.txt trong các hệ thống sản xuất của chúng tôi. Hy vọng bạn cũng sẽ thấy công cụ này hữu ích!

Như thường lệ, chúng tôi hoan nghênh đóng góp của bạn cho những dự án này. Nếu bạn đã xây dựng công cụ mới bằng trình phân tích cú pháp robots.txt trên nền C++ hoặc bằng các bản phát hành mới này, hãy cho chúng tôi biết để chúng tôi có thể giúp bạn quảng bá! Nếu bạn phát hiện thấy lỗi, hãy giúp chúng tôi khắc phục bằng cách mở một vấn đề trên GitHub hoặc đóng góp trực tiếp bằng cách gửi một yêu cầu gộp các thay đổi mà bạn thực hiện vào mã nguồn ban đầu (pull request). Nếu bạn có câu hỏi hoặc nhận xét về những dự án này, hãy liên hệ với chúng tôi qua Twitter!

Chúng tôi rất vui khi được tiếp đón Andreea và Ian, và thật buồn khi kỳ thực tập của họ sắp kết thúc. Những đóng góp của họ giúp Internet trở nên tốt đẹp hơn. Hy vọng chúng tôi có thể chào đón họ quay lại Google trong tương lai.