Набор данных

Если набор разметить с помощью структурированных данных с информацией о нем, например с названием, описанием, именем автора и форматом, пользователям будет легче его найти. Google стремится к тому, чтобы упростить поиск наборов данных из самых разных областей, включая машинное обучение, медицину и биологию, социальные науки и многое другое. Для этого мы рекомендуем использовать различные стандарты метаданных, например описанные на сайте schema.org.

Примеры наборов данных:

  • таблица или CSV-файл с определенной информацией;
  • систематизированная группа таблиц;
  • файл в проприетарном формате, содержащий определенные данные;
  • группа файлов, которые в совокупности представляют полезный набор данных;
  • структурированный объект с данными в другом формате, который можно загрузить в специальный инструмент для обработки;
  • данные, полученные с помощью съемки изображений;
  • файлы, связанные с машинным обучением, такие как параметры для обучения или определения структур нейронной сети;
  • любые данные, которые можно считать набором.

Наш подход к разметке наборов данных

Google распознает разметку schema.org для наборов данных или аналогичные варианты разметки в формате DCAT, разработанные консорциумом W3C. Также мы тестируем поддержку структурированных данных в формате CSVW. Принципы описания наборов данных совершенствуются, и мы планируем изменять наши алгоритмы в соответствии с ними. Чтобы узнать больше, прочитайте эту запись в блоге Google AI.

Примеры

В этом разделе приведены примеры кодов с использованием синтаксиса JSON-LD (предпочтительно) для наборов данных в инструменте проверки структурированных данных. Аналогичную терминологию можно применять для форматов RDFa 1.1, Microdata и DCAT от W3C. Примеры кода ниже основаны на реальном описании набора данных.

JSON-LD

Нажмите кнопку ниже, чтобы увидеть пример кода JSON-LD для набора данных:

RDFa

Нажмите кнопку ниже, чтобы увидеть пример кода RDFa для набора данных:

Правила

На сайте должны соблюдаться требования к структурированным данным. Кроме того, мы рекомендуем следовать рекомендациям в отношении файлов Sitemap, а также источников и происхождения данных.

Рекомендации в отношении файлов Sitemap

Чтобы помочь Google найти ваши URL, используйте файлы Sitemap. Благодаря этим файлам и разметке sameAs можно указать, как найти описания наборов данных на сайте.

Если вы размещаете наборы данных в хранилище, скорее всего, у вас есть два типа страниц: канонические (целевые) для каждого набора и страницы со списками наборов (например, группы наборов или результаты поиска). Рекомендуем добавлять структурированные данные о наборах на канонические страницы. Если вы добавили разметку на страницу с несколькими копиями набора (например, с результатами поиска), используйте свойство sameAs, чтобы указать канонический URL.

Рекомендации в отношении источников и происхождения

Открытые наборы данных часто создаются на основе других наборов, агрегируются и публикуются повторно. Мы подготовили базовые инструкции, из которых вы узнаете, как действовать в подобных случаях. Если набор данных создан на основе другого набора (например, скопирован), следуйте рекомендациям ниже.

  • Если набор данных или описание публикуются повторно, используйте свойство sameAs, чтобы указать исходные канонические URL оригинала.
  • Если уже публиковавшийся набор данных (включая его метаданные) был существенно изменен, используйте свойство isBasedOn.
  • Если набор данных создан на основе нескольких других наборов, используйте свойство isBasedOn.
  • Чтобы указать подходящие цифровые идентификаторы объекта (ЦИО) или компактные идентификаторы, используйте свойство identifier. Если в наборе данных не один идентификатор, добавьте несколько свойств identifier. Если вы используете JSON-LD, применяйте синтаксис списка JSON.

Мы планируем улучшить эти рекомендации, особенно описание происхождения, версий и дат, связанных с публикацией временных рядов. В этом нам могут помочь ваши отзывы. Присоединяйтесь к обсуждениям!

Рекомендации в отношении текстовых свойств

Google Поиск наборов данных в любом случае обрабатывает только первые 5000 символов текста в поле. Старайтесь не превышать это ограничение. Названия и заголовки обычно состоят всего из нескольких слов или одного короткого предложения.

Известные ошибки и предупреждения

Инструмент проверки структурированных данных и похожие сервисы могут находить ошибки и показывать предупреждения, на которые не стоит обращать внимания. Системам проверки может потребоваться также контактная информация, в том числе свойство contactType. Примеры значений: customer service, emergency, journalist, newsroom, public engagement. Сообщения о том, что значение csvw:Table не ожидалось для свойства mainEntity, можно игнорировать.

Типы структурированных данных

Чтобы ваш контент мог демонстрироваться в расширенных результатах, необходимо задать все обязательные свойства. Вы также можете добавить рекомендуемые свойства, чтобы пользователям было удобнее просматривать информацию.

Для проверки разметки рекомендуем использовать специальный инструмент Google.

Ваша основная цель – указать информацию о наборе данных (его метаданные) и описать его содержимое. Например, в метаданных указана тема набора, измеряемые переменные, создатель набора и т. д. При этом конкретные значения переменных не указываются.

Набор данных

Полное описание типа Dataset приведено на странице schema.org/Dataset.

Вы можете добавить дополнительную информацию о публикации набора данных, например лицензию, время публикации, ЦИО или значение sameAs, указывающее на каноническую версию набора в другом хранилище. Чтобы указать информацию о происхождении и лицензии, используйте элементы identifier, license и sameAs.

Обязательные свойства
description Text

Краткое описание набора данных.

Правила

  • Общий объем: от 50 до 5000 символов.
  • Можно использовать синтаксис Markdown для разметки. Для встроенных изображений указывайте в URL абсолютный, а не относительный путь.
  • В случае с форматом JSON-LD начинайте новые строки с последовательности \n (два символа: косая черта с наклоном влево и строчная буква n).
name Text

Информативное название набора данных. Пример: "Высота снежного покрова в Северном полушарии".

Рекомендуемые свойства
alternateName Text

Альтернативные имена, которые использовались для ссылки на этот набор данных: псевдонимы или сокращения. Пример в формате JSON-LD:

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
citation Text или CreativeWork

Ссылки на научные статьи, которые поставщик данных рекомендует процитировать в дополнение к основному набору. Добавьте цитирование в набор данных вместе с такими полями как name, identifier, creator и publisher. Так можно идентифицировать дескриптор данных, документ с данными или научную публикацию, для которой использовался этот набор. Примеры в формате JSON-LD:

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Дополнительные рекомендации

  • Не используйте это поле для добавления цитирования к самому набору данных. Оно предназначено именно для связанных научных статей. Добавить сведения для цитирования самого набора можно с помощью полей name, identifier, creator и publisher.
  • При добавлении цитаты в поле всегда указывайте идентификатор статьи (например, ЦИО).

    Правильно: Иванов И. И. Как создать полезный набор данных. – Журнал о данных, 2018 г. https://doi.org/10.1111/111

    Неправильно: Иванов И. И. Как создать полезный набор данных. – Журнал о данных, 2018 г.

identifier URL, Text или PropertyValue

Идентификатор набора данных, например ЦИО или компактный. Если в наборе данных не один идентификатор, добавьте несколько свойств identifier. Если вы используете JSON-LD, применяйте синтаксис списка JSON.

keywords Text

Ключевые слова, характеризующие набор данных.

license URL, Text

Лицензия, по которой распространяется набор данных.

sameAs URL

Ссылка на страницу с более подробной информацией о том же наборе данных, обычно находящемся в другом хранилище.

spatialCoverage Text, Place

Вы можете указать одну точку, описывающую пространственный аспект набора данных. Используйте это свойство, только если у набора есть пространственное измерение. Например, это может быть точка, где были собраны все измерения, или координаты ограничивающего параллелепипеда площади.

Точки

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Фигуры

Используйте элемент GeoShape, чтобы описывать площади различной формы, например ограничивающий параллелепипед.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Координаты в свойствах box, circle, line и polygon необходимо указывать в виде пары значений, разделенных пробелом. Сначала идет широта, потом долгота.

Названия мест

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Период времени, к которому относятся данные в наборе. Используйте это свойство, только если у набора есть временное измерение. Для описания периодов и моментов времени на schema.org используется стандарт ISO 8601. Вы можете указывать даты другим способом, если он подходит лучше. Обозначайте неограниченные периоды двумя десятичными знаками (..).

Дата

"temporalCoverage" : "2008"

Период времени

"temporalCoverage" : "1950-01-01/2013-12-18"

Неограниченный период

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

Переменная в наборе данных, измерение которой выполняется. Например, это может быть температура или давление.

version Text, Number

Номер версии набора.

url URL

Адрес страницы с описанием набора данных.

DataCatalog

Полное описание типа DataCatalog приведено на странице schema.org/DataCatalog.

Наборы данных часто публикуются в хранилищах, содержащих множество других наборов. Один и тот же набор может находиться в нескольких хранилищах. Указывайте нужный каталог данных с помощью прямой ссылки на него.

Рекомендуемые свойства
includedInDataCatalog DataCatalog

Каталог, в котором размещен набор данных.

DataDownload

Полное описание типа DataDownload приведено на странице schema.org/DataDownload. Если набор данных можно скачать, укажите не только свойства Dataset, но и свойства DataDownload, перечисленные ниже.

Свойство distribution описывает, где скачать набор данных и в каком формате, поскольку URL набора часто указывает на целевую страницу с описанием набора, а не на страницу для скачивания. Свойство distribution указывает, где скачать данные и в каком формате. У этого свойства может быть несколько значений. Например, версия в CSV доступна по одному URL, а версия в Excel – по другому.

Обязательные свойства
distribution.contentUrl URL

Ссылка для скачивания.

Ресурсы
distribution DataDownload

Описание места, откуда скачивается набор данных, и формата этого набора.

distribution.fileFormat Text

Формат дистрибутива.

Табличные наборы данных

Табличным называют набор данных, организованный преимущественно в виде сетки из строк и столбцов. Для страниц, содержащих табличные наборы данных, можно создавать более явную разметку на основе базовых инструкций, приведенных выше. В настоящее время Google может обрабатывать данные в формате CSVW (CSV on the Web), представленные на HTML-странице параллельно с табличным контентом, ориентированном на пользователя.

Ниже приведен пример кода в формате CSVW JSON-LD для небольшой таблицы. Инструмент проверки структурированных данных будет предупреждать вас о некоторых ошибках, которые можно игнорировать.

Справка и инструменты

Оставить отзыв о...

Текущей странице