L'analizzatore sintattico robots.txt di Google è ora open source

Lunedì 1 luglio 2019

Per 25 anni, il protocollo di esclusione robot (REP, Robots Exclusion Protocol) è stato lo standard per eccellenza. Questo a volte ha implicato alcune complicazioni. Da un lato, per i webmaster, ciò comportava incertezza in casi particolari, come quando l'editor di testo includeva caratteri BOM nei file robots.txt; dall'altro lato, anche per i crawler e gli sviluppatori di strumenti si presentavano alcuni dubbi; ad esempio, come andrebbero gestiti i file robots.txt grandi centinaia di megabyte?

Googlebot mentre estrae i componenti di un sito web da una scatola

Oggi abbiamo annunciato il nostro impegno in prima linea per rendere il REP uno standard Internet; si tratta di un passaggio importante, ma comporta comunque lavoro extra per gli sviluppatori che analizzano i file robots.txt.

Ma siamo qui per aiutarvi: abbiamo reso open source la libreria C++ utilizzata dai nostri sistemi di produzione per analizzare e individuare corrispondenze tra le regole nei file robots.txt. Questa libreria è attiva da 20 anni e contiene parti di codice scritte negli anni 90; da allora si è evoluta e abbiamo acquisito molte informazioni su come i webmaster scrivono file robots.txt e su casi particolari che abbiamo dovuto gestire; inoltre, abbiamo aggiunto ciò che abbiamo imparato negli anni anche all'Internet Draft, quando aveva senso.

Inoltre, abbiamo incluso uno strumento di test nel pacchetto open source per aiutarvi a testare alcune regole. Una volta creato, l'utilizzo è molto semplice:

robots_main <robots.txt content> <user_agent> <url>

Se volete dare un'occhiata alla libreria, consultate il nostro repository GitHub relativo all'analizzatore sintattico robots.txt. Ci piacerebbe vedere cosa riuscire a creare con questo strumento. Se avete realizzato qualcosa utilizzando la libreria, lasciateci un commento su Twitter e, in caso di commenti o domande in merito, contattateci su GitHub.