PDF nei risultati di ricerca di Google

Giovedì 1° settembre 2011

La nostra missione è organizzare le informazioni a livello mondiale e renderle universalmente accessibili e utili. Nell'ambito di questo progetto ambizioso, a volte ci ritroviamo a gestire file non HTML come PDF, fogli di lavoro e presentazioni. I nostri algoritmi non vengono rallentati da tipi di file diversi: facciamo del nostro meglio per estrarre i contenuti pertinenti e indicizzarli in modo appropriato per i nostri risultati di ricerca. Come facciamo però a indicizzare questi tipi di file e, poiché spesso sono molto diversi dall'HTML standard, quali linee guida si applicano? E se un webmaster non vuole che vengano indicizzati?

Google ha iniziato a indicizzare i file PDF nel 2001 e attualmente ha centinaia di milioni di file PDF indicizzati. Abbiamo raccolto le domande più frequenti sull'indicizzazione dei file PDF e di seguito sono riportate le risposte:

D: Google può indicizzare qualsiasi tipo di file PDF?
R: In genere siamo in grado di indicizzare contenuti testuali (scritti in qualsiasi lingua) da file PDF che utilizzano diversi tipi di codifiche dei caratteri, a condizione che non siano protetti da password o criptati. Se il testo è incorporato come immagini, possiamo elaborare le immagini con algoritmi di OCR per estrarre il testo. La regola generale è che, se riuscite a copiare e incollare il testo da un documento PDF in un documento di testo standard, dovremmo essere in grado di indicizzare tale testo.

D: Che cosa succede con le immagini presenti nei file PDF?
R: Al momento le immagini non vengono indicizzate. Per consentirci di indicizzare le vostre immagini, dovete creare delle pagine HTML apposite. Per aumentare la probabilità che vengano restituite le immagini nei nostri risultati di ricerca, consultate le best practice di Google Immagini.

D: Come vengono trattati i link nei documenti PDF?
R: In genere, i link nei file PDF vengono trattati in modo simile ai link nel codice HTML: possono passare PageRank e altri indicatori di indicizzazione e potremmo seguirli dopo la scansione del file PDF. Al momento non è possibile utilizzare i link nofollow in un documento PDF.

D: Come faccio a impedire la visualizzazione dei miei file PDF nei risultati di ricerca? Oppure, se vengono già mostrati, come faccio a rimuoverli?
R: Il modo più semplice per impedire la visualizzazione dei documenti PDF nei risultati di ricerca è aggiungere un elemento X-Robots-Tag: noindex nell'intestazione HTTP utilizzata per pubblicare il file. Se sono già indicizzati, scompariranno nel tempo se utilizzate X-Robot-Tag con la regola noindex. Per velocizzare le rimozioni, potete utilizzare lo strumento per le rimozioni di URL in Strumenti per i Webmaster di Google.

D: I file PDF possono avere un ranking elevato nei risultati di ricerca?
R: Certamente, in genere il ranking è simile a quello di altre pagine web. Ad esempio, al momento della pubblicazione di questo post, le query mortgage market review, irs form 2011 o paracetamol expert report restituiscono tutte documenti PDF con un ranking elevato nei nostri risultati di ricerca, grazie ai loro contenuti e al modo in cui sono incorporati e collegati da altre pagine web.

D: Se ho una copia delle mie pagine sia in HTML che in PDF, tali contenuti vengono considerati duplicati?
R: Se potete, vi consigliamo di pubblicare un'unica copia dei vostri contenuti; se ciò non è possibile, assicuratevi di indicare la versione preferita usando, ad esempio, l'URL preferito nella Sitemap oppure specificando la versione canonica nel codice HTML o nelle intestazioni HTTP della risorsa PDF. Per ulteriori suggerimenti, consultate l'articolo del Centro assistenza sulla canonicalizzazione.

D: Come posso cercare di determinare il titolo mostrato nei risultati di ricerca per il mio documento PDF?
R: Utilizziamo due elementi principali per determinare il titolo visualizzato: i metadati del titolo all'interno del file e l'anchor text dei link che rimandano al file PDF. Per fornire ai nostri algoritmi un indicatore significativo del titolo appropriato da utilizzare, vi consigliamo di aggiornare entrambi.

Per saperne di più, guardate il video di Matt Cutt sull'ottimizzazione dei file PDF per la ricerca e visitate il nostro Centro assistenza per informazioni sui tipi di contenuti che siamo in grado di indicizzare. In caso di feedback o suggerimenti, non esitate a contattarci tramite il forum di assistenza per i webmaster.