Conjunto de datos

Resulta mucho más fácil encontrar un conjunto de datos cuando proporcionas información complementaria, como su nombre, descripción, creador y formatos de distribución como datos estructurados. El enfoque de Google en cuanto a la detección de conjuntos de datos usa schema.org y otros estándares de metadatos que se pueden agregar a páginas que describen los conjuntos de datos. El fin de este lenguaje de marcado es mejorar la detección de conjuntos de datos en campos como ciencias de la vida, ciencias sociales, aprendizaje automático, datos cívicos y gubernamentales y más.

A continuación, puedes ver algunos ejemplos de qué califica como conjunto de datos:

  • Una tabla o un archivo CSV con datos
  • Una colección organizada de tablas
  • Un archivo en formato propio que contiene datos
  • Una colección de archivos que juntos constituyen un conjunto de datos significativo
  • Un objeto estructurado con datos en algún otro formato que podrías querer cargar en una herramienta especial para procesamiento
  • Imágenes con captura de datos
  • Archivos relacionados con aprendizaje automático, como parámetros entrenados o definiciones de estructura de la red neuronal
  • Cualquier elemento que creas que es un conjunto de datos

Nuestro enfoque de detección de conjuntos de datos

Podemos comprender los datos estructurados de conjuntos de datos en las páginas web mediante el lenguaje de marcado de schema.org o estructuras equivalentes representadas en formato de vocabulario del catálogo de datos (DCAT) de W3C. También estamos explorando compatibilidad experimental para datos estructurados basados en W3C CSVW y esperamos evolucionar y adaptar nuestro enfoque como recomendaciones para que emerjan las descripciones de los conjuntos de datos. Para obtener más información acerca de la detección de conjuntos de datos, consulta Cómo facilitar la detección de conjuntos de datos públicos.

Ejemplos

A continuación, verás un ejemplo de conjuntos de datos que usan la sintaxis JSON-LD (preferida) en la Herramienta de prueba de datos estructurados. El mismo vocabulario también se puede usar en un vocabulario de microdatos, RDFa 1.1 o W3C DCAT. El siguiente ejemplo se basa en una descripción del conjunto de datos del mundo real.

JSON-LD

Aquí tienes un ejemplo de un conjunto de datos en JSON-LD con la Herramienta de prueba de datos estructurados:

RDFa

Aquí tienes un ejemplo de un conjunto de datos en RDFa con la Herramienta de prueba de datos estructurados:

Lineamientos

Los sitios deberían seguir los lineamientos de datos estructurados. Además de los lineamientos de datos estructurados, recomendamos seguir las recomendaciones para mapas del sitio y orígenes que aparecen a continuación.

Recomendaciones para el mapa del sitio

Usa un archivo de mapa del sitio para ayudar a Google a encontrar tus URL. El uso de archivos de mapa del sitio y lenguaje de marcado sameAs ayuda a documentar la manera en que se publican las descripciones de los conjuntos de datos en tu sitio.

Si tienes un repositorio de conjuntos de datos, es probable que tengas al menos dos tipos de páginas: las páginas canónicas ("de destino") para cada conjunto de datos y las páginas que enumeran varios conjuntos de datos (por ejemplo, resultados de la búsqueda o algunos subconjuntos de conjuntos de datos). Te recomendamos agregar datos estructurados acerca de un conjunto de datos a las páginas canónicas. Usa la propiedad sameAs para vincular la página canónica si agregas datos estructurados a varias copias del conjunto de datos, como las fichas en páginas de resultados de búsqueda.

Recomendaciones acerca de la fuente

Es común que los conjuntos de datos se vuelvan a publicar, se agreguen y se basen en otros conjuntos de datos. Este es un esquema inicial de nuestro enfoque para representar situaciones en las que un conjunto de datos se copia de otro o se basa en otro.

  • Usa la propiedad sameAs para indicar las URL más canónicas para el original, en los casos en los que el conjunto de datos o la descripción es una simple republicación de materiales publicados en otro lugar.
  • Usa la propiedad isBasedOn en los casos en los que el conjunto de datos que se volvió a publicar (incluidos sus metadatos) se modificó de manera significativa.
  • Usa la propiedad isBasedOn cuando un conjunto de datos derive de varios originales o agrega varios de ellos.
  • Usa la propiedad identifier para adjuntar identificadores de objeto digital relevantes.

Esperamos mejorar nuestras recomendaciones con comentarios recibidos, en particular en cuanto a la descripción de las fuentes, el control de versiones y las fechas asociadas con la publicación de series temporales. Únete a los debates de la comunidad.

Errores conocidos y advertencias

Es posible que experimentes errores o advertencias en la Herramienta de pruebas de datos estructurados y en otros sistemas de validación de Google. Específicamente, es seguro ignorar las advertencias acerca de fileFormat (que hace poco cambió su nombre a encodingFormat). Los sistemas de validación también pueden sugerir que las organizaciones tengan información de contacto que incluya contactType; entre los valores útiles también se incluyen customer service, emergency, journalist, newsroom y public engagement. También puedes ignorar los errores de csvw:Table, ya que es un valor no esperado de la propiedad mainEntity.

Definiciones de tipos de datos estructurados

Debes incluir las propiedades obligatorias a fin de que tu contenido sea apto para aparecer como resultado enriquecido. También puedes incluir las propiedades recomendadas para agregar más información a tu lenguaje de marcado, lo que podría brindar una mejor experiencia del usuario.

Puedes usar la Herramienta de prueba de datos estructurados para validar tu lenguaje de marcado.

El enfoque se basa en describir la información de un conjunto de datos (sus metadatos) y representar su contenido. Por ejemplo, los metadatos de un conjunto de datos indican de qué se trata el conjunto de datos, qué variables mide, quién lo creó, etc. No contiene, por ejemplo, valores específicos para las variables.

Conjunto de datos

La definición completa de Dataset está disponible en schema.org/Dataset.

Puedes describir la información adicional acerca de la publicación del conjunto de datos, como la licencia, cuándo se publicó, su identificador de objeto digital o una propiedad sameAs que dirija a la versión canónica del conjunto de datos en un repositorio diferente. Agrega identifier, license y sameAs para conjuntos de datos que proporcionen información sobre la fuente y la licencia.

Propiedades obligatorias
description Text

Es un breve resumen que describe un conjunto de datos.

name Text

Es un nombre descriptivo del conjunto de datos. Por ejemplo, "Profundidad de la nieve en el hemisferio norte"

Propiedades recomendadas
citation Text o CreativeWork

Es una cita de una publicación que describe el conjunto de datos. Por ejemplo, "J.Smith 'Cómo creé un conjunto de datos increíble', Publicación de ciencia de datos, 1966".

identifier URL, Text o PropertyValue

Es un identificador para un conjunto de datos, como un identificador de objeto digital.

keywords Text

Son las palabras clave que resumen el conjunto de datos.

license URL, Text

Es la licencia bajo la cual se distribuye el conjunto de datos.

sameAs URL

Es un vínculo a una página que proporciona más información acerca del mismo conjunto de datos, por lo general, en un repositorio diferente.

spatialCoverage Text, Place

Puedes proporcionar un solo punto que describa el aspecto espacial del conjunto de datos. Incluye esta propiedad solo si el conjunto de datos tiene una dimensión espacial. Por ejemplo, un solo punto donde se recopilaron todas las dimensiones o las coordenadas de un cuadro límite de un área.

Puntos

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Coordenadas

Usa GeoShape para describir áreas de diferentes formas. Por ejemplo, para especificar un cuadro límite.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Ubicaciones mencionadas

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Son los datos que el conjunto de datos abarca en un intervalo de tiempo específico. Incluye esta propiedad solo si el conjunto de datos tiene una dimensión temporal. Schema.org usa la norma ISO 8601 para describir los intervalos de tiempo y los puntos de tiempo. Puedes describir las fechas de manera diferente, según el intervalo del conjunto de datos. Indica intervalos abiertos con dos puntos decimales (..).

Fecha única

"temporalCoverage" : "2008"

Período de tiempo

"temporalCoverage" : "1950-01-01/2013-12-18"

Período de tiempo abierto

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Es la variable que mide este conjunto de datos. Por ejemplo, la temperatura o la presión.

version Text, Number

Es el número de versión del conjunto de datos.

url URL

Es la ubicación de la página que describe el conjunto de datos.

DataCatalog

La definición completa de DataCatalog está disponible en schema.org/DataCatalog.

A menudo, los conjuntos de datos se publican en repositorios que contienen muchos otros conjuntos de datos. El mismo conjunto de datos puede estar incluido en más de un repositorio. Puedes hacer referencia directamente a un catálogo de datos al que pertenece el conjunto de datos para consultarlo.

Propiedades recomendadas
includedInDataCatalog DataCatalog

Es el catálogo al cual pertenece el conjunto de datos.

DataDownload

La definición completa de DataDownload está disponible en schema.org/DataDownload. Además de las propiedades del conjunto de datos, agrega las siguientes propiedades para los que ofrezcan opciones de descarga.

La propiedad distribution describe cómo obtener el conjunto de datos en sí, porque la URL suele apuntar a la página de destino que describe el conjunto de datos. La propiedad distribution describe dónde obtener los datos y en qué formato. Esta propiedad puede tener varios valores: por ejemplo, una versión CSV tiene una URL y una versión Excel está disponible en otra URL.

Propiedades obligatorias
distribution.contentUrl URL

Es el vínculo para la descarga.

Propiedades
distribution DataDownload

Es la descripción de la ubicación de la descarga para el conjunto de datos y el formato de archivo de la descarga.

distribution.fileFormat Text

Es el formato de archivo de la distribución.

Conjuntos de datos tabulares

Un conjunto de datos tabular se organiza principalmente en una cuadrícula de filas y columnas. Para páginas que incluyen conjuntos de datos tabulares, también puedes crear lenguaje de marcado más explícito, basado en el enfoque básico que se describió más arriba. En este punto, comprendemos una variación de CSVW ("CSV en la Web", consulta W3C), que se proporciona en paralelo al contenido tabular orientado para el usuario en la página HTML.

A continuación, verás un ejemplo que muestra una pequeña tabla codificada en formato CSVW JSON-LD. Hay algunos errores conocidos en la Herramienta de prueba de datos estructurados.

Ayuda y herramientas

Enviar comentarios sobre…