Conjunto de datos

Resulta mucho más fácil encontrar un conjunto de datos cuando proporcionas información complementaria, como su nombre, descripción, creador y formatos de distribución como datos estructurados. El enfoque de Google en cuanto a la detección de conjuntos de datos usa schema.org y otros estándares de metadatos que se pueden agregar a páginas que describen los conjuntos de datos. El fin de este lenguaje de marcado es mejorar la detección de conjuntos de datos en campos como ciencias de la vida, ciencias sociales, aprendizaje automático, datos cívicos y gubernamentales y más.

A continuación, puedes ver algunos ejemplos de qué califica como conjunto de datos:

  • Una tabla o un archivo CSV con datos
  • Una colección organizada de tablas
  • Un archivo en formato propio que contiene datos
  • Una colección de archivos que juntos constituyen un conjunto de datos significativo
  • Un objeto estructurado con datos en algún otro formato que podrías querer cargar en una herramienta especial para procesamiento
  • Imágenes con captura de datos
  • Archivos relacionados con aprendizaje automático, como parámetros entrenados o definiciones de estructura de la red neuronal
  • Cualquier elemento que creas que es un conjunto de datos

Nuestro enfoque de detección de conjuntos de datos

Podemos comprender los datos estructurados sobre conjuntos de datos en las páginas web mediante el lenguaje de marcado de conjunto de datos de schema.org o estructuras equivalentes representadas en formato de vocabulario del catálogo de datos (DCAT) de W3C. También estamos explorando la compatibilidad experimental para datos estructurados basados en W3C CSVW y esperamos evolucionar y adaptar nuestro enfoque a medida que surjan recomendaciones para la descripción de conjuntos de datos. Para obtener más información acerca de nuestro enfoque de detección de conjuntos de datos, consulta Cómo facilitar la detección de conjuntos de datos públicos.

Ejemplos

A continuación, verás un ejemplo de conjuntos de datos que usan la sintaxis JSON-LD (preferida) en la Herramienta de pruebas de datos estructurados. El mismo vocabulario también se puede usar en un vocabulario de microdatos, RDFa 1.1 o W3C DCAT. El siguiente ejemplo se basa en una descripción de conjunto de datos tomada de un caso real.

JSON-LD

El siguiente es un ejemplo de un conjunto de datos en JSON-LD:

RDFa

El siguiente es un ejemplo de un conjunto de datos en RDFa:

Lineamientos

Los sitios deberían seguir los lineamientos de datos estructurados. Además de los lineamientos de datos estructurados, sugerimos seguir las prácticas recomendadas relativas a mapas del sitio y fuentes que se indican a continuación.

Recomendaciones relativas a mapas del sitio

Usa un archivo de mapa del sitio para ayudar a Google a encontrar tus URL. El uso de esos archivos y de lenguaje de marcado sameAs ayuda a documentar la manera en que se publican las descripciones de los conjuntos de datos en tu sitio.

Si tienes un repositorio de conjuntos de datos, es probable que tengas al menos dos tipos de páginas: las páginas canónicas ("de destino") para cada conjunto de datos y las páginas que enumeran varios conjuntos de datos (por ejemplo, resultados de la búsqueda o algunos subconjuntos de conjuntos de datos). Te recomendamos agregar datos estructurados acerca de un conjunto de datos a las páginas canónicas. Usa la propiedad sameAs para vincular la página canónica si agregas datos estructurados a varias copias del conjunto de datos, como las fichas de páginas de resultados de la Búsqueda.

Recomendaciones relativas a las fuentes

Es común que los conjuntos de datos abiertos se vuelvan a publicar, se agreguen y se basen en otros conjuntos de datos. Este es un esquema inicial de nuestro enfoque para representar situaciones en las que un conjunto de datos se copia de otro o se basa en otro.

  • Usa la propiedad sameAs para indicar las URL más canónicas respecto del original en los casos en que el conjunto de datos o la descripción sea una simple republicación de materiales publicados en otro lugar.
  • Usa la propiedad isBasedOn en los casos en que el conjunto de datos que se volvió a publicar (incluidos sus metadatos) se haya modificado de manera significativa.
  • Usa la propiedad isBasedOn cuando un conjunto de datos derive de varios originales o agregue varios de ellos.
  • Usa la propiedad identifier para adjuntar identificadores de objeto digital (DOI) o identificadores compactos relevantes. Si el conjunto de datos tiene más de un identificador, repite la propiedad identifier. Si usas JSON-LD, esto se representa mediante una sintaxis de lista de JSON.

Esperamos mejorar nuestras recomendaciones con comentarios recibidos, en particular en cuanto a la descripción de las fuentes, el control de versiones y las fechas asociadas con la publicación de series temporales. Únete a los debates de la comunidad.

Recomendaciones de propiedades textuales

Recomendamos limitar todas las propiedades textuales a 5,000 caracteres o menos. Google Búsqueda de Datasets solo usa los primeros 5,000 caracteres de una propiedad textual. Por lo general, los nombres y los títulos son algunas palabras o una oración breve.

Errores conocidos y advertencias

Es posible que se muestren mensajes de error o advertencias en la Herramienta de pruebas de datos estructurados y en otros sistemas de validación de Google. Concretamente, los sistemas de validación pueden sugerir que las organizaciones tengan información de contacto que incluya contactType; algunos valores útiles son customer service, emergency, journalist, newsroom y public engagement. También puedes ignorar los errores de csvw:Table, ya que es un valor no esperado de la propiedad mainEntity.

Definiciones de tipos de datos estructurados

Debes incluir las propiedades obligatorias a fin de que tu contenido sea apto para aparecer como resultado enriquecido. También puedes incluir las propiedades recomendadas para agregar más información sobre tu contenido, lo que podría brindar una mejor experiencia del usuario.

Puedes usar la Herramienta de pruebas de datos estructurados para validar tu lenguaje de marcado.

La idea es describir la información de un conjunto de datos (sus metadatos) y representar su contenido. Por ejemplo, los metadatos de un conjunto de datos indican de qué se trata el conjunto de datos, qué variables mide, quién lo creó, etc., pero no incluyen valores específicos para las variables.

Conjunto de datos

La definición completa de Dataset está disponible en schema.org/Dataset.

Puedes describir información adicional sobre la publicación del conjunto de datos, como la licencia, cuándo se publicó, su identificador de objeto digital o una propiedad sameAs que apunte a la versión canónica del conjunto de datos incluido en un repositorio diferente. Agrega identifier, license y sameAs para conjuntos de datos que proporcionen información sobre la fuente y la licencia.

Propiedades obligatorias
description Text

Es un breve resumen que describe un conjunto de datos.

Lineamientos

  • El resumen debe tener entre 50 y 5,000 caracteres.
  • El resumen puede incluir sintaxis Markdown. Las imágenes incorporadas deben usar URL de rutas absolutas (en lugar de rutas relativas).
  • Cuando uses el formato JSON-LD, denota líneas nuevas con \n (dos caracteres: una barra invertida y la letra "n" minúscula).
name Text

Es un nombre descriptivo del conjunto de datos. Por ejemplo, "Profundidad de la nieve en el hemisferio norte".

Propiedades recomendadas
alternateName Text

Son nombres alternativos que se usaron para referirse a este conjunto de datos, como alias o abreviaciones. Ejemplo (en formato JSON-LD):

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person o Organization

Es el creador o autor de este conjunto de datos. Para identificar de forma exclusiva a las personas, usa ORCID ID como el valor de la propiedad sameAs del tipo Person. Para identificar de manera única las instituciones y organizaciones, usa ROR ID. Ejemplo (en formato JSON-LD):

"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text o CreativeWork

Identifica artículos académicos que el proveedor de datos recomienda citar además del conjunto de datos. Proporciona la cita del conjunto de datos con otras propiedades como name, identifier, creator y publisher. Por ejemplo, esta propiedad puede identificar de manera única una publicación académica relacionada, como un descriptor de datos, un artículo de datos o un artículo para el que este conjunto de datos es material complementario. Ejemplos (en formato JSON-LD):

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Lineamientos adicionales

  • No uses esta propiedad a fin de proporcionar información para citar el conjunto de datos en sí. Se utiliza para identificar artículos académicos relacionados y no el propio conjunto de datos. Si quieres proporcionar información necesaria para citar el conjunto de datos, usa las propiedades name, identifier, creator y publisher en su lugar.
  • Siempre que sea posible, cuando propagues la propiedad de citas con un fragmento de una cita proporciona el identificador del artículo (como un DOI).

    Recomendado: "Pérez J. (2014) La influencia de X. Biogeografía 1(1). https://doi.org/10.1111/111"

    No recomendado: "Pérez J. (2014) La influencia de X. Biogeografía 1 (1)".

identifier URL, Text o PropertyValue

Es un identificador, como un identificador de objeto digital o un identificador compacto. Si el conjunto de datos tiene más de un identificador, repite la propiedad identifier. Si usas JSON-LD, se representará mediante una sintaxis de lista de JSON.

keywords Text

Son las palabras clave que resumen el conjunto de datos.

license URL, CreativeWork

Es la licencia en virtud de la cual se distribuye el conjunto de datos. Por ejemplo:

"license" : "https://creativecommons.org/publicdomain/zero/1.0/"
"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }
sameAs URL

Es un vínculo a una página que proporciona más información acerca del mismo conjunto de datos, por lo general ubicada en un repositorio diferente.

spatialCoverage Text, Place

Puedes proporcionar un punto único que describa el aspecto espacial del conjunto de datos. Incluye esta propiedad solo si el conjunto de datos tiene una dimensión espacial. Por ejemplo, un punto único donde se hayan obtenido todas las mediciones o las coordenadas de un cuadro límite de un área.

Puntos

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Formas

Usa GeoShape para describir áreas de diferentes formas. Por ejemplo, para especificar un cuadro de límite.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Los puntos dentro de las propiedades box, circle, line o polygon se deben expresar como dos valores separados por un espacio correspondientes a la latitud y la longitud (en ese orden).

Ubicaciones nombradas

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Los datos del conjunto de datos abarcan un intervalo de tiempo específico. Incluye esta propiedad solo si el conjunto de datos tiene una dimensión temporal. Schema.org usa el estándar ISO 8601 para describir los intervalos de tiempo y los puntos en el tiempo. Puedes describir las fechas de manera diferente, según el intervalo del conjunto de datos. Indica intervalos abiertos con dos puntos decimales (..).

Fecha única

"temporalCoverage" : "2008"

Período de tiempo

"temporalCoverage" : "1950-01-01/2013-12-18"

Período de tiempo abierto

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Es la variable que mide este conjunto de datos. Por ejemplo, la temperatura o la presión.

version Text, Number

Es el número de versión del conjunto de datos.

url URL

Es la ubicación de la página que describe el conjunto de datos.

DataCatalog

La definición completa de DataCatalog está disponible en schema.org/DataCatalog.

A menudo, los conjuntos de datos se publican en repositorios que contienen muchos otros conjuntos de datos. El mismo conjunto de datos puede estar incluido en más de un repositorio. Puedes hacer referencia directamente a un catálogo de datos al que pertenece el conjunto de datos.

Propiedades recomendadas
includedInDataCatalog DataCatalog

Es el catálogo al cual pertenece el conjunto de datos.

DataDownload

La definición completa de DataDownload está disponible en schema.org/DataDownload. Además de las propiedades del conjunto de datos, agrega las siguientes propiedades para los que ofrezcan opciones de descarga.

La propiedad distribution describe cómo obtener el conjunto de datos en sí, porque la URL suele apuntar a la página de destino que describe el conjunto de datos. La propiedad distribution describe dónde obtener los datos y en qué formato. Esta propiedad puede tener varios valores: por ejemplo, una versión CSV tiene una URL y una versión de Excel está disponible en otra URL.

Propiedades obligatorias
distribution.contentUrl URL

Es el vínculo para la descarga.

Propiedades
distribution DataDownload

Es la descripción de la ubicación del conjunto de datos para la descarga y el formato de archivo para la descarga.

distribution.encodingFormat Text, URL

Es el formato de archivo de la distribución.

Conjuntos de datos tabulares

Un conjunto de datos tabular se organiza principalmente en una cuadrícula de filas y columnas. En el caso de páginas que incluyan conjuntos de datos tabulares, también puedes crear lenguaje de marcado más explícito, basado en el enfoque básico que se describió más arriba. En este momento, comprendemos una variación de CSVW ("CSV en la Web", consulta W3C), que se proporciona en paralelo al contenido tabular orientado al usuario en la página HTML.

A continuación se incluye un ejemplo que muestra una pequeña tabla codificada en formato CSVW JSON-LD. Hay algunos errores conocidos en la Herramienta de pruebas de datos estructurados.

Ayuda y herramientas