Parser robots.txt Google kini menjadi open source

Senin, 1 Juli 2019

Selama 25 tahun, Protokol Pengecualian Robot (REP) hanya merupakan standar de-facto. Hal ini terkadang menimbulkan implikasi yang rumit. Di satu sisi, bagi webmaster, hal ini menimbulkan ketidakpastian pada kasus mendesak, seperti ketika editor teks menyertakan karakter BOM di file robots.txt. Di sisi lain, bagi developer alat dan crawler, hal ini juga menimbulkan ketidakpastian; misalnya, bagaimana cara menangani file robots.txt yang ukurannya ratusan megabyte?

Googlebot melakukan unboxing situs

Hari ini, kami mengumumkan bahwa kami akan memimpin upaya untuk menjadikan REP sebagai standar internet. Meskipun ini adalah langkah yang penting, ini berarti pekerjaan developer yang mengurai file robots.txt akan bertambah.

Kami siap membantu: kami menjadikan open source library C++ yang digunakan sistem produksi kami untuk mengurai dan mencocokkan aturan dalam file robots.txt. Library ini telah ada selama 20 tahun dan berisi kode yang ditulis pada periode 90-an. Sejak saat itu, library telah berkembang; kami telah banyak mempelajari cara webmaster menulis file robots.txt dan kasus mendesak yang harus kami tangani, serta menambahkan juga hal yang kami pelajari selama bertahun-tahun ke draf internet jika diperlukan.

Kami juga menyertakan alat pengujian dalam paket open source untuk membantu Anda menguji beberapa aturan. Setelah dibuat, penggunaannya sangat sederhana:

robots_main <robots.txt content> <user_agent> <url>

Jika Anda ingin memeriksa library, buka repositori GitHub kami untuk parser robots.txt. Kami ingin segera melihat apa yang dapat Anda buat menggunakan fitur ini. Jika Anda membuat sesuatu menggunakan library ini, sampaikan komentar di Twitter. Jika ada komentar atau pertanyaan tentang library, hubungi kami di GitHub.