Set di dati

I set di dati sono più facili da trovare quando fornisci informazioni di supporto come il nome, la descrizione, l'autore e i formati di distribuzione sotto forma di dati strutturati. L'approccio di Google al rilevamento di set di dati fa uso di schema.org e altri standard di metadati che possono essere aggiunti alle pagine che descrivono i set di dati. Lo scopo di questo markup è migliorare il rilevamento dei set di dati da settori come le scienze biologiche, le scienze sociali, il machine learning, i dati civici e amministrativi e altro ancora.

Di seguito sono riportati alcuni esempi di ciò che può essere considerato un set di dati:

  • Una tabella o un file CSV contenente alcuni dati
  • Una raccolta organizzata di tabelle
  • Un file in un formato proprietario che contiene dati
  • Una raccolta di file che insieme costituiscono un set di dati significativo
  • Un oggetto strutturato con dati in un altro formato che potresti voler caricare in uno speciale strumento per l'elaborazione
  • Dati di acquisizione delle immagini
  • File relativi al machine learning, quali parametri addestrati o definizioni di strutture di rete neurale
  • Tutto ciò che ritieni sia un set di dati

Il nostro approccio al rilevamento di set di dati

Siamo in grado di comprendere i dati strutturati nelle pagine web relativi ai set di dati utilizzando il markup Dataset di schema.org o le strutture equivalenti rappresentate nel formato Data Catalog Vocabulary (DCAT) W3C. Esaminiamo anche il supporto sperimentale per i dati strutturati basati su W3C CSVW e ci aspettiamo di evolvere e adattare il nostro approccio quando emergeranno le best practice per la descrizione dei set di dati. Per ulteriori informazioni sul nostro approccio al rilevamento di set di dati, consulta la sezione Semplificazione del rilevamento di set di dati pubblici.

Esempi

Ecco un esempio di set di dati che utilizza la sintassi JSON-LD (preferito) nello Strumento di test per i dati strutturati. Lo stesso vocabolario può essere utilizzato anche nei vocabolari RDFa 1.1, Microdati o W3C DCAT. L'esempio seguente si basa su una descrizione del set di dati del mondo reale.

JSON-LD

Ecco un esempio di set di dati in formato JSON-LD:

RDFa

Ecco un esempio di set di dati in formato RDFa:

Linee guida

I siti dovrebbero seguire le linee guida sui dati strutturati. Oltre alle linee guida sui dati strutturati, ti consigliamo di attenerti alle best practice relative a Sitemap e fonte e provenienza elencate di seguito.

Best practice relative a Sitemap

Usa un file Sitemap per consentire a Google di trovare i tuoi URL. L'utilizzo dei file Sitemap e del markup sameAs consente di documentare la modalità di pubblicazione delle descrizioni dei set di dati sul tuo sito.

Se disponi di un repository di set di dati, è probabile che tu abbia almeno due tipi di pagine: le pagine canoniche ("di destinazione") per ciascun set di dati e le pagine che elencano più set di dati (ad esempio, risultati di ricerca o alcuni sottoinsiemi di dati). Ti consigliamo di aggiungere dati strutturati relativi a un set di dati per le pagine canoniche. Usa la proprietà sameAs per rimandare alla pagina canonica se aggiungi dati strutturati a più copie del set di dati, ad esempio schede nelle pagine dei risultati di ricerca.

Best practice relative a fonte e provenienza

È abbastanza comune che i set di dati aperti vengano ripubblicati, aggregati e basati su altri set di dati. Si tratta di uno schema iniziale del nostro approccio alla rappresentazione di situazioni in cui un set di dati è la copia di un altro set di dati o è basato su di esso.

  • Utilizza la proprietà sameAs per indicare gli URL più canonici per l'originale nei casi in cui il set di dati (o la descrizione) sia una semplice ripubblicazione di materiali pubblicati altrove.
  • Utilizza la proprietà isBasedOn nei casi in cui il set di dati ripubblicato (inclusi i relativi metadati) sia stato modificato in modo significativo.
  • Quando un set di dati deriva da o aggrega diversi originali, utilizza la proprietà isBasedOn.
  • Utilizza la proprietà identifier per collegare eventuali identificatori di oggetti digitali (DOI) o identificatori compatti pertinenti. Se il set di dati ha più identificatori, ripeti la proprietà identifier. Se usi il formato JSON-LD, viene usata la sintassi degli elenchi JSON.

Ci auguriamo di migliorare i nostri consigli in base ai feedback ricevuti, in particolare quelli relativi alla descrizione di provenienza, alla versione e alle date associate alla pubblicazione in una serie temporale. Unisciti anche tu alle discussioni della community.

Consigli relativi alle proprietà del testo

Ti consigliamo di limitare tutte le proprietà di testo a 5000 caratteri o meno. Ricerca Google per set di dati utilizza solo i primi 5000 caratteri di qualsiasi proprietà di testo. Nomi e titoli sono in genere poche parole o una breve frase.

Errori e avvisi noti

Potresti riscontrare errori o avvisi nello Strumento di test per i dati strutturati di Google e in altri sistemi di convalida. Nello specifico, i sistemi di convalida possono suggerire alle organizzazioni di avere informazioni di contatto che includano un contactType; i valori utili includono customer service, emergency, journalist, newsroom e public engagement. È inoltre possibile ignorare gli errori per csvw:Table essendo questo un valore imprevisto per la proprietà mainEntity.

Definizioni dei tipi di dati strutturati

Affinché i tuoi contenuti siano idonei per essere visualizzati come risultato multimediale, devi includere le proprietà obbligatorie. Puoi anche includere le proprietà consigliate per aggiungere ulteriori informazioni sui tuoi contenuti, fornendo così un'esperienza utente migliore.

È possibile utilizzare lo Strumento di test per i dati strutturati per convalidare il markup.

L'attenzione si concentra sulla descrizione di informazioni relative a un set di dati (i relativi metadati) e sulla rappresentazione dei relativi contenuti. Ad esempio, i metadati del set di dati indicano di cosa tratta il set di dati, quali variabili misura, chi lo ha creato e così via e non, ad esempio, i valori specifici delle variabili.

Dataset

La definizione completa di Dataset è disponibile all'indirizzo schema.org/Dataset.

È possibile descrivere ulteriori informazioni sulla pubblicazione del set di dati, ad esempio la licenza, quando è stato pubblicato, il relativo DOI o un valore sameAs che rimanda a una versione canonica del set di dati in un repository diverso. Aggiungi identifier, license e sameAs per i set di dati che forniscono informazioni sulla provenienza e sulla licenza.

Proprietà obbligatorie
description Text

Un breve riassunto che descrive un set di dati.

Linee guida

  • Il riepilogo deve avere una lunghezza compresa tra 50 e 5000 caratteri.
  • Il riepilogo può includere la sintassi di Markdown. Le immagini incorporate devono utilizzare URL di percorso assoluti (anziché percorsi relativi).
  • Quando utilizzi il formato JSON-LD, denota nuove righe con \n (due caratteri: barra rovesciata e lettera "n" minuscola).
name Text

Un nome descrittivo di un set di dati. Ad esempio, "La profondità della neve nell'emisfero settentrionale".

Proprietà consigliate
alternateName Text

Nomi alternativi che sono stati utilizzati per fare riferimento a questo set di dati, come alias o abbreviazioni. Esempio (nel formato JSON-LD):

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person oppure Organization

Il creatore o l'autore di questo set di dati. Per identificare in modo univoco le persone, usa il valore ORCID ID per la proprietà sameAs del tipo Person. Per identificare in modo univoco istituti e organizzazioni, usa ROR ID. Esempio (in formato JSON-LD):

"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text oppure CreativeWork

Identifica gli articoli accademici consigliati dal fornitore di dati da citare in aggiunta al set di dati stesso. Fornisce la citazione per il set di dati stesso con altre proprietà come name, identifier, creator e publisher. Ad esempio, questa proprietà può identificare in modo univoco una pubblicazione accademica correlata, ad esempio un descrittore di dati, un documento di dati o un articolo per il quale questo set di dati è un materiale supplementare. Esempi (nel formato JSON-LD):

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Linee guida aggiuntive

  • Non utilizzare questa proprietà per fornire informazioni sulle citazioni per il set di dati stesso. Il suo scopo è identificare gli articoli accademici correlati, non il set di dati stesso. Per fornire le informazioni necessarie per citare il set di dati stesso, utilizza invece i campi name, identifier, creator e publisher.
  • Quando compili la propeità citazione con uno snippet di citazione, fornisci l'identificatore dell'articolo, ad esempio un DOI, quando possibile.

    Formato consigliato: "Doe J (2014) su esempio di X. Biomics 1(1). https://doi.org/10.1111/111"

    Non consigliato: "Doe J (2014) su esempio di X. Biomics 1(1)."

identifier URL, Text oppure PropertyValue

Un identificatore, ad esempio DOI o Compact Identifier. Se il set di dati ha più identificatori, ripeti la proprietà identifier. Se usi il formato JSON-LD, viene usata la sintassi degli elenchi JSON.

keywords Text

Le parole chiave che riassumono il set di dati.

license URL, CreativeWork

Una licenza con cui il set di dati viene distribuito. Ad esempio:

"license" : "https://creativecommons.org/publicdomain/zero/1.0/"
"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }
sameAs URL

Un link a una pagina che fornisce ulteriori informazioni sullo stesso set di dati, in genere in un altro repository.

spatialCoverage Text, Place

Puoi fornire un singolo punto che descrive l'aspetto spaziale del set di dati. Includi questa proprietà solo se il set di dati ha una dimensione spaziale. Ad esempio, un singolo punto in cui sono state raccolte tutte le misurazioni o le coordinate di un riquadro di delimitazione per un'area.

Punti

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Forme

Utilizza GeoShape per descrivere aree di diverse forme. Ad esempio, per specificare un riquadro di delimitazione.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

I punti all'interno delle proprietà box, circle, line o polygon devono essere espressi come una coppia di due valori separati da uno spazio, che corrispondono alla latitudine e longitudine (in questo ordine).

Località con nome

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

I dati nel set di dati riguardano un intervallo di tempo specifico. Includi questa proprietà solo se il set di dati ha una dimensione temporale. Schema.org utilizza lo standard ISO 8601 per descrivere intervalli di tempo e punti temporali. Puoi descrivere le date in modo diverso a seconda dell'intervallo del set di dati. Indica intervalli aperti con due puntini (..).

Data unica

"temporalCoverage" : "2008"

Periodo di tempo

"temporalCoverage" : "1950-01-01/2013-12-18"

Periodo di tempo aperto

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

La variabile misurata da questo set di dati. Ad esempio, temperatura o pressione.

version Text, Number

Il numero di versione per il set di dati.

url URL

Posizione di una pagina che descrive il set di dati.

DataCatalog

La definizione completa di DataCatalog è disponibile all'indirizzo schema.org/DataCatalog.

I set di dati sono spesso pubblicati in repository che contengono molti altri set di dati. Uno stesso set di dati può essere incluso in più di un repository. Puoi fare riferimento a un catalogo dati a cui appartiene questo set di dati facendo riferimento direttamente a esso.

Proprietà consigliate
includedInDataCatalog DataCatalog

Il catalogo a cui appartiene il set di dati.

DataDownload

La definizione completa di DataDownload è disponibile all'indirizzo schema.org/DataDownload. Oltre alle proprietà per set di dati, aggiungi le seguenti proprietà per set di dati che offrono opzioni di download.

La proprietà distribution descrive come ottenere il set di dati stesso perché l'URL punta spesso alla pagina di destinazione che descrive il set di dati. La proprietà distribution descrive da dove scaricare i dati e in quale formato. Questa proprietà può avere diversi valori: ad esempio, la versione CSV è disponibile a un URL e la versione Excel è disponibile a un altro URL.

Proprietà obbligatorie
distribution.contentUrl URL

Il link per il download.

Proprietà
distribution DataDownload

La descrizione della posizione per il download del set di dati e il formato del file per il download.

distribution.encodingFormat Text, URL

Il formato del file della distribuzione.

Set di dati tabulari

Un set di dati tabulare è organizzato principalmente in termini di una griglia di righe e colonne. Per le pagine che incorporano set di dati tabulari, puoi anche creare un markup più esplicito, basandoti sull'approccio di base descritto sopra. Al momento siamo a conoscenza di una variazione di CSVW ("CSV sul Web", vedi W3C), offerta in parallelo ai contenuti tabulari per l'utente nella pagina HTML.

Ecco un esempio che mostra una piccola tabella codificata in formato JSON-LD CSVW. Sono presenti alcuni errori noti nello Strumento di test per i dati strutturati.

Assistenza e strumenti