Resulta mucho más fácil encontrar un conjunto de datos cuando proporcionas información complementaria, como su nombre, descripción, creador y formatos de distribución como datos estructurados. El enfoque de Google en cuanto a la detección de conjuntos de datos usa schema.org y otros estándares de metadatos que se pueden agregar a páginas que describen los conjuntos de datos. El fin de este lenguaje de marcado es mejorar la detección de conjuntos de datos en campos como ciencias de la vida, ciencias sociales, aprendizaje automático, datos cívicos y gubernamentales y más.
A continuación, puedes ver algunos ejemplos de qué califica como conjunto de datos:
- Una tabla o un archivo CSV con datos
- Una colección organizada de tablas
- Un archivo en formato propio que contiene datos
- Una colección de archivos que juntos constituyen un conjunto de datos significativo
- Un objeto estructurado con datos en algún otro formato que podrías querer cargar en una herramienta especial para procesamiento
- Imágenes con captura de datos
- Archivos relacionados con aprendizaje automático, como parámetros entrenados o definiciones de estructura de la red neuronal
- Cualquier elemento que creas que es un conjunto de datos
Nuestro enfoque de detección de conjuntos de datos
Podemos comprender los datos estructurados de conjuntos de datos en las páginas web mediante el lenguaje de marcado de schema.org o estructuras equivalentes representadas en formato de vocabulario del catálogo de datos (DCAT) de W3C. También estamos explorando compatibilidad experimental para datos estructurados basados en W3C CSVW y esperamos evolucionar y adaptar nuestro enfoque como recomendaciones para que emerjan las descripciones de los conjuntos de datos. Para obtener más información acerca de la detección de conjuntos de datos, consulta Cómo facilitar la detección de conjuntos de datos públicos.
Ejemplos
A continuación, verás un ejemplo de conjuntos de datos que usan la sintaxis JSON-LD (preferida) en la Herramienta de prueba de datos estructurados. El mismo vocabulario también se puede usar en un vocabulario de microdatos, RDFa 1.1 o W3C DCAT. El siguiente ejemplo se basa en una descripción del conjunto de datos del mundo real.
Aquí tienes un ejemplo de un conjunto de datos en JSON-LD con la Herramienta de prueba de datos estructurados:
Aquí tienes un ejemplo de un conjunto de datos en RDFa con la Herramienta de prueba de datos estructurados:
Lineamientos
Los sitios deberían seguir los lineamientos de datos estructurados. Además de los lineamientos de datos estructurados, recomendamos seguir las recomendaciones para mapas del sitio y orígenes que aparecen a continuación.
Recomendaciones para el mapa del sitio
Usa un archivo de mapa del sitio para ayudar a Google a encontrar tus URL. El uso de archivos de mapa del sitio y lenguaje de marcado sameAs
ayuda a documentar la manera en que se publican las descripciones de los conjuntos de datos en tu sitio.
Si tienes un repositorio de conjuntos de datos, es probable que tengas al menos dos tipos de páginas: las páginas canónicas ("de destino") para cada conjunto de datos y las páginas que enumeran varios conjuntos de datos (por ejemplo, resultados de la búsqueda o algunos subconjuntos de conjuntos de datos). Te recomendamos agregar datos estructurados acerca de un conjunto de datos a las páginas canónicas. Usa la propiedad sameAs
para vincular la página canónica si agregas datos estructurados a varias copias del conjunto de datos, como las fichas en páginas de resultados de búsqueda.
Recomendaciones acerca de la fuente
Es común que los conjuntos de datos se vuelvan a publicar, se agreguen y se basen en otros conjuntos de datos. Este es un esquema inicial de nuestro enfoque para representar situaciones en las que un conjunto de datos se copia de otro o se basa en otro.
- Usa la propiedad sameAs para indicar las URL más canónicas para el original, en los casos en los que el conjunto de datos o la descripción es una simple republicación de materiales publicados en otro lugar.
- Usa la propiedad
isBasedOn
en los casos en los que el conjunto de datos que se volvió a publicar (incluidos sus metadatos) se modificó de manera significativa. - Usa la propiedad
isBasedOn
cuando un conjunto de datos derive de varios originales o agrega varios de ellos. - Usa la propiedad
identifier
para adjuntar identificadores de objeto digital relevantes.
Esperamos mejorar nuestras recomendaciones con comentarios recibidos, en particular en cuanto a la descripción de las fuentes, el control de versiones y las fechas asociadas con la publicación de series temporales. Únete a los debates de la comunidad.
Errores conocidos y advertencias
Es posible que experimentes errores o advertencias en la Herramienta de pruebas de datos estructurados y en otros sistemas de validación de Google. Específicamente, es seguro ignorar las advertencias acerca de fileFormat
(que hace poco cambió su nombre a encodingFormat
).
Los sistemas de validación también pueden sugerir que las organizaciones tengan información de contacto que incluya contactType
; entre los valores útiles también se incluyen customer service
, emergency
, journalist
, newsroom
y public engagement
.
También puedes ignorar los errores de csvw:Table
, ya que es un valor no esperado de la propiedad mainEntity
.
Definiciones de tipos de datos estructurados
Debes incluir las propiedades obligatorias a fin de que tu contenido sea apto para aparecer como resultado enriquecido. También puedes incluir las propiedades recomendadas para agregar más información a tu lenguaje de marcado, lo que podría brindar una mejor experiencia del usuario.
Puedes usar la Herramienta de prueba de datos estructurados para validar tu lenguaje de marcado.
El enfoque se basa en describir la información de un conjunto de datos (sus metadatos) y representar su contenido. Por ejemplo, los metadatos de un conjunto de datos indican de qué se trata el conjunto de datos, qué variables mide, quién lo creó, etc. No contiene, por ejemplo, valores específicos para las variables.
Conjunto de datos
La definición completa de Dataset
está disponible en schema.org/Dataset.
Puedes describir la información adicional acerca de la publicación del conjunto de datos, como la licencia, cuándo se publicó, su identificador de objeto digital o una propiedad sameAs
que dirija a la versión canónica del conjunto de datos en un repositorio diferente. Agrega identifier
, license
y sameAs
para conjuntos de datos que proporcionen información sobre la fuente y la licencia.
Propiedades obligatorias | |
---|---|
description
|
Text
Es un breve resumen que describe un conjunto de datos. |
name
|
Text
Es un nombre descriptivo del conjunto de datos. Por ejemplo, "Profundidad de la nieve en el hemisferio norte" |
Propiedades recomendadas | |
---|---|
citation
|
Text o CreativeWork
Es una cita de una publicación que describe el conjunto de datos. Por ejemplo, "J.Smith 'Cómo creé un conjunto de datos increíble', Publicación de ciencia de datos, 1966". |
identifier
|
URL, Text o PropertyValue
Es un identificador para un conjunto de datos, como un identificador de objeto digital. |
keywords
|
Text
Son las palabras clave que resumen el conjunto de datos. |
license
|
URL, Text
Es la licencia bajo la cual se distribuye el conjunto de datos. |
sameAs
|
URL
Es un vínculo a una página que proporciona más información acerca del mismo conjunto de datos, por lo general, en un repositorio diferente. |
spatialCoverage |
Text, Place
Puedes proporcionar un solo punto que describa el aspecto espacial del conjunto de datos. Incluye esta propiedad solo si el conjunto de datos tiene una dimensión espacial. Por ejemplo, un solo punto donde se recopilaron todas las dimensiones o las coordenadas de un cuadro límite de un área. Puntos "spatialCoverage:" { "@type": "Place", "geo": { "@type": "GeoCoordinates", "latitude": 39.3280, "longitude": 120.1633 } } Coordenadas Usa GeoShape para describir áreas de diferentes formas. Por ejemplo, para especificar un cuadro límite. "spatialCoverage:" { "@type": "Place", "geo": { "@type": "GeoShape", "box": "39.3280 120.1633 40.445 123.7878" } } Ubicaciones mencionadas "spatialCoverage:" "Tahoe City, CA" |
temporalCoverage |
Text
Son los datos que el conjunto de datos abarca en un intervalo de tiempo específico. Incluye esta propiedad solo si el conjunto de datos tiene una dimensión temporal. Schema.org usa la norma ISO 8601 para describir los intervalos de tiempo y los puntos de tiempo. Puedes describir las fechas de manera diferente, según el intervalo del conjunto de datos. Indica intervalos abiertos con dos puntos decimales ( Fecha única "temporalCoverage" : "2008" Período de tiempo "temporalCoverage" : "1950-01-01/2013-12-18" Período de tiempo abierto "temporalCoverage" : "2013-12-19/.." |
variableMeasured
|
Text, PropertyValue
Es la variable que mide este conjunto de datos. Por ejemplo, la temperatura o la presión. |
version
|
Text, Number
Es el número de versión del conjunto de datos. |
url
|
URL
Es la ubicación de la página que describe el conjunto de datos. |
DataCatalog
La definición completa de DataCatalog
está disponible en schema.org/DataCatalog.
A menudo, los conjuntos de datos se publican en repositorios que contienen muchos otros conjuntos de datos. El mismo conjunto de datos puede estar incluido en más de un repositorio. Puedes hacer referencia directamente a un catálogo de datos al que pertenece el conjunto de datos para consultarlo.
Propiedades recomendadas | |
---|---|
includedInDataCatalog
|
DataCatalog
Es el catálogo al cual pertenece el conjunto de datos.
|
DataDownload
La definición completa de DataDownload
está disponible en schema.org/DataDownload. Además de las propiedades del conjunto de datos, agrega las siguientes propiedades para los que ofrezcan opciones de descarga.
La propiedad distribution
describe cómo obtener el conjunto de datos en sí, porque la URL suele apuntar a la página de destino que describe el conjunto de datos. La propiedad distribution
describe dónde obtener los datos y en qué formato. Esta propiedad puede tener varios valores: por ejemplo, una versión CSV tiene una URL y una versión Excel está disponible en otra URL.
Propiedades obligatorias | |
---|---|
distribution.contentUrl
|
URL
Es el vínculo para la descarga. |
Propiedades | |
---|---|
distribution
|
DataDownload
Es la descripción de la ubicación de la descarga para el conjunto de datos y el formato de archivo de la descarga.
|
distribution.fileFormat
|
Text
Es el formato de archivo de la distribución.
|
Conjuntos de datos tabulares
Un conjunto de datos tabular se organiza principalmente en una cuadrícula de filas y columnas. Para páginas que incluyen conjuntos de datos tabulares, también puedes crear lenguaje de marcado más explícito, basado en el enfoque básico que se describió más arriba. En este punto, comprendemos una variación de CSVW ("CSV en la Web", consulta W3C), que se proporciona en paralelo al contenido tabular orientado para el usuario en la página HTML.
A continuación, verás un ejemplo que muestra una pequeña tabla codificada en formato CSVW JSON-LD. Hay algunos errores conocidos en la Herramienta de prueba de datos estructurados.
Ayuda y herramientas
- El Asistente para el marcado de datos estructurados es compatible con el lenguaje de marcado de conjuntos de datos.
- El Foro de ayuda central para webmasters de Google sobre datos estructurados proporciona un foro de la comunidad donde puedes preguntar (y responder) acerca de los datos estructurados (incluidos los conjuntos de datos) y revisar nuestras Preguntas frecuentes sobre conjuntos de datos.