A proposito delle regole non supportate nel file robots.txt

Martedì 2 luglio 2019

Ieri abbiamo annunciato che stiamo rendendo open source l'analizzatore sintattico robots.txt di produzione di Google. È stato un momento emozionante che apre la strada a potenziali progetti futuri open source nella Ricerca Google. I feedback ci sono utili e stiamo raccogliendo avidamente domande sia da sviluppatori che da webmaster. Si è distinta una domanda in particolare, di cui parleremo in questo post:
Perché nel codice non è incluso un gestore di codice per altre regole come crawl-delay?

L'Internet Draft che abbiamo pubblicato ieri fornisce un'architettura ampliabile per le regole che non fanno parte dello standard. Ciò significa che se un crawler volesse supportare la propria riga come unicorns: allowed, potrebbe farlo. Per dimostrare come apparirebbe in un analizzatore sintattico, abbiamo incluso una riga molto comune, Sitemap, nel nostro analizzatore sintattico robots.txt open source.

Durante il processo per rendere open source la libreria del nostro analizzatore sintattico, abbiamo analizzato l'utilizzo delle regole del file robots.txt. In particolare, ci siamo concentrati sulle regole non supportate dall'Internet Draft, come crawl-delay, nofollow e noindex. Poiché queste regole non sono mai state documentate da Google, naturalmente il loro utilizzo in relazione a Googlebot è molto basso; A un'analisi più approfondita, abbiamo notato che il loro utilizzo è stato contraddetto da altre regole in tutti i file robots.txt di Internet, tranne che nello 0,001% dei casi. Questi errori danneggiano la presenza dei siti web nei risultati di ricerca di Google in modi che riteniamo imprevisti per i webmaster.

Al fine di mantenere un ecosistema sano e prepararsi a potenziali release open source future, ritireremo tutto il codice che gestisce le regole non supportate e non pubblicate (ad esempio noindex) il 1° settembre 2019. Per chi si è affidato alla regola di indicizzazione noindex nel file robots.txt, che controlla la scansione, sono disponibili diverse opzioni alternative:

  • noindex nei meta tag robots: supportata sia nelle intestazioni della risposta HTTP che nell'HTML, la regola noindex è la più efficace per rimuovere gli URL dall'indice quando la scansione è consentita.
  • Codici di stato HTTP 404 e 410: entrambi i codici di stato indicano che la pagina non esiste, il che comporterà la rimozione di questi URL dall'indice di Google una volta scansionati ed elaborati.
  • Protezione tramite password: a meno che non venga utilizzato il markup per indicare contenuti in abbonamento o protetti da paywall, nascondere una pagina dietro un accesso comporta in genere la rimozione dall'indice di Google.
  • Disallow in robots.txt: i motori di ricerca possono indicizzare solo le pagine note, quindi il blocco della scansione della pagina di solito significa che i suoi contenuti non verranno indicizzati. Anche se il motore di ricerca potrebbe anche indicizzare un URL in base ai link presenti in altre pagine, senza visualizzarne i contenuti, puntiamo a rendere queste pagine meno visibili in futuro.
  • Strumento per la rimozione di URL di Search Console: questo strumento è un metodo semplice e veloce per rimuovere temporaneamente un URL dai risultati di ricerca di Google.

Per ulteriori indicazioni su come rimuovere informazioni dai risultati di ricerca di Google, visitate il nostro Centro assistenza. Se avete domande, potete trovarci su Twitter e nella nostra community dei webmaster, sia offline che online.