Набор данных

Если набор разметить с помощью структурированных данных с информацией о нем, например с названием, описанием, именем автора и форматом, пользователям будет легче его найти. Google стремится упростить поиск наборов данных из самых разных областей, включая машинное обучение, медицину и биологию, социальные науки и многое другое. Для этого мы рекомендуем использовать различные стандарты метаданных, например описанные на сайте schema.org. Для поиска наборов данных используйте этот инструмент.

Пример поиска наборов данных

Примеры наборов данных:

  • таблица или CSV-файл с определенной информацией;
  • систематизированная группа таблиц;
  • файл в проприетарном формате, содержащий определенные данные;
  • группа файлов, которые в совокупности представляют полезный набор данных;
  • структурированный объект с данными в другом формате, который можно загрузить в специальный инструмент для обработки;
  • данные, полученные с помощью съемки изображений;
  • файлы, связанные с машинным обучением, такие как параметры для обучения или определения структур нейронной сети;
  • любые данные, которые можно считать набором.

Как добавлять структурированные данные

Структурированные данные – стандартизированный формат, который позволяет описывать информацию о странице и классифицировать ее контент. Дополнительные сведения о принципах работы структурированных данных приведены в отдельной статье.

Ниже кратко описано, как создать, протестировать и начать использовать структурированные данные. Пошаговые инструкции вы найдете в этой практической работе.

  1. Добавьте обязательные свойства. Где расположить структурированные данные на странице, вы узнаете из этого видео.
  2. Следуйте специальным рекомендациям.
  3. Протестируйте свой код с помощью инструмента проверки расширенных результатов.
  4. Опубликуйте страницу и с помощью инструмента проверки URL посмотрите, как она выглядит в результатах поиска Google. Убедитесь, что доступ Google к странице не заблокирован файлом robots.txt или метатегом noindex и для него не требуется авторизация. Если все в порядке, запросите повторное сканирование ваших URL.
  5. Отправляйте нам файл Sitemap, чтобы информировать нас об изменениях на сайте. Отправку такого файла можно автоматизировать с помощью Search Console Sitemap API.

Как удалить набор данных из результатов поиска по набору данных

Если вы не хотите, чтобы набор данных показывался в результатах поиска Google, укажите с помощью метатега robots, как его следует индексировать. Обратите внимание, что прежде чем внесенные вами изменения отразятся в Google Поиске, может пройти несколько дней или даже недель (в зависимости от расписания сканирования).

Наш подход к разметке наборов данных

Google распознает разметку schema.org Dataset или аналогичные варианты разметки в формате DCAT, разработанные организацией W3C. Также мы тестируем поддержку структурированных данных в формате CSVW, разработанном организацией W3C. Принципы описания наборов данных совершенствуются, и мы планируем изменять наши алгоритмы в соответствии с ними. Более подробная информация доступна в этой статье.

Примеры

В этом разделе приведены примеры кодов с использованием синтаксиса JSON-LD и schema.org (рекомендуемый вариант) для наборов данных в инструменте проверки расширенных результатов. Аналогичную терминологию schema.org можно применять для форматов RDFa 1.1 и Microdata. Для описания метаданных также можно использовать словарь DCAT от W3C. Примеры кода ниже основаны на реальном описании набора данных.

JSON-LD

Нажмите кнопку ниже, чтобы увидеть пример кода JSON-LD для набора данных:


  <html>
  <head>
    <title>NCDC Storm Events Database</title>
    <script type="application/ld+json">
    {
      "@context":"https://schema.org/",
      "@type":"Dataset",
      "name":"NCDC Storm Events Database",
      "description":"Storm Data is provided by the National Weather Service (NWS) and contain statistics on...",
      "url":"https://catalog.data.gov/dataset/ncdc-storm-events-database",
      "sameAs":"https://gis.ncdc.noaa.gov/geoportal/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510",
      "identifier": ["https://doi.org/10.1000/182",
                     "https://identifiers.org/ark:/12345/fk1234"],
      "keywords":[
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > CYCLONES",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > DROUGHT",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FOG",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FREEZE"
      ],
      "license" : "https://creativecommons.org/publicdomain/zero/1.0/",
      "hasPart" : [
        {
          "@type": "Dataset",
          "name": "Sub dataset 01",
          "description": "Informative description of the first subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        },
        {
          "@type": "Dataset",
          "name": "Sub dataset 02",
          "description": "Informative description of the second subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        }
      ],
      "creator":{
         "@type":"Organization",
         "url": "https://www.ncei.noaa.gov/",
         "name":"OC/NOAA/NESDIS/NCEI > National Centers for Environmental Information, NESDIS, NOAA, U.S. Department of Commerce",
         "contactPoint":{
            "@type":"ContactPoint",
            "contactType": "customer service",
            "telephone":"+1-828-271-4800",
            "email":"ncei.orders@noaa.gov"
         }
      },
      "includedInDataCatalog":{
         "@type":"DataCatalog",
         "name":"data.gov"
      },
      "distribution":[
         {
            "@type":"DataDownload",
            "encodingFormat":"CSV",
            "contentUrl":"http://www.ncdc.noaa.gov/stormevents/ftp.jsp"
         },
         {
            "@type":"DataDownload",
            "encodingFormat":"XML",
            "contentUrl":"http://gis.ncdc.noaa.gov/all-records/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510"
         }
      ],
      "temporalCoverage":"1950-01-01/2013-12-18",
      "spatialCoverage":{
         "@type":"Place",
         "geo":{
            "@type":"GeoShape",
            "box":"18.0 -65.0 72.0 172.0"
         }
      }
    }
    </script>
  </head>
  <body>
  </body>
</html>
RDFa

Пример кода RDFa для набора данных, в котором используется словарь DCAT:


<article about="/node/1234" typeof="dcat:Dataset">
    <dl>
      <dt>Name:</dt>
      <dd property="dc:title">ACME Inc Cash flow data</dd>
      <dt>Identifiers:</dt>
      <dd property="dc:identifier">https://doi.org/10.1000/182</dd>
      <dd property="dc:identifier">https://identifiers.org/ark:/12345/fk1234</dd>
      <dt>Description:</dt>
      <dd property="dc:description">Financial Statements - Consolidated Statement of Cash Flows</dd>
      <dt>Category:</dt>
      <dd rel="dc:subject">Financial</dd>
      <dt class="field-label">Downloads:</dt>
      <dd>
        <ul>
          <li>
            <a rel="dcat:distribution" href="Consolidated_Statement_of_Cash_Flows_en.csv"><span property="dcat:mediaType" content="text/csv" >Consolidated_Statement_of_Cash_Flows_en.csv</span></a>
          </li>
         <li>
            <a rel="dcat:distribution"  href="files/Consolidated_Statement_of_Cash_Flows_en.xls"><span property="dcat:mediaType" content="application/vnd.ms-excel">Consolidated_Statement_of_Cash_Flows_en.xls</span></a>
          </li>
          <li>
            <a rel="dcat:distribution"  href="files/consolidated_statement_of_cash_flows_en.xml"><span property="dcat:mediaType" content="application/xml">consolidated_statement_of_cash_flows_en.xml</span></a>
          </li>
        </ul>
      </dd>
    </dl>
  </article>

Правила

На сайте должны соблюдаться требования к структурированным данным. Кроме того, мы рекомендуем следовать рекомендациям в отношении файлов Sitemap, а также источников и происхождения данных.

Рекомендации в отношении файлов Sitemap

Чтобы помочь Google найти ваши URL, используйте файлы Sitemap. Благодаря этим файлам и разметке sameAs можно указать, как найти описания наборов данных на сайте.

Если вы размещаете наборы данных в хранилище, скорее всего, у вас есть два типа страниц: канонические (целевые) для каждого набора и страницы со списками наборов (например, группы наборов или результаты поиска). Рекомендуем добавлять структурированные данные о наборах на канонические страницы. Если вы добавили разметку на страницу с несколькими копиями набора (например, с результатами поиска), используйте свойство sameAs, чтобы указать канонический URL.

Рекомендации в отношении источников и происхождения

Открытые наборы данных часто создаются на основе других наборов, агрегируются и публикуются повторно. Мы подготовили базовые инструкции, из которых вы узнаете, как действовать в подобных случаях. Если набор данных создан на основе другого набора (например, скопирован), следуйте рекомендациям ниже.

  • Если набор данных или описание публикуются повторно, укажите исходные канонические URL оригинала с помощью свойства sameAs. Элемент sameAs должен однозначно идентифицировать набор данных, т. е. два разных набора не должны иметь одинаковые URL в значениях sameAs.
  • Если ранее опубликованный набор данных (включая его метаданные) был существенно изменен, используйте свойство isBasedOn.
  • Если набор данных создан на основе нескольких других наборов, используйте свойство isBasedOn property.
  • Чтобы указать подходящие цифровые идентификаторы объекта (ЦИО) или компактные идентификаторы, используйте свойство identifier. Если в наборе данных представлено больше одного идентификатора, добавьте несколько свойств identifier. Если вы используете JSON-LD, применяйте синтаксис списка JSON.

Мы планируем улучшить эти рекомендации, особенно описание происхождения, версий и дат, связанных с публикацией временных рядов. В этом нам могут помочь ваши отзывы. Присоединяйтесь к обсуждениям!

Рекомендации в отношении текстовых свойств

Google Поиск наборов данных в любом случае обрабатывает только первые 5000 символов текста в свойстве. Старайтесь не превышать это ограничение. Названия и заголовки обычно состоят всего из нескольких слов или одного короткого предложения.

Известные ошибки и предупреждения

Инструмент проверки структурированных данных и похожие сервисы могут находить ошибки и показывать предупреждения, на которые не стоит обращать внимания. Системам проверки может потребоваться также контактная информация, в том числе свойство contactType. Примеры значений: customer service, emergency, journalist, newsroom, public engagement. Сообщения, что значение csvw:Table не ожидалось для свойства mainEntity, можно игнорировать.

Типы структурированных данных

Чтобы ваш контент мог демонстрироваться в расширенных результатах, необходимо задать все обязательные свойства. Вы также можете добавить рекомендуемые свойства, чтобы пользователям было удобнее просматривать информацию.

Для проверки разметки рекомендуем использовать специальный инструмент Google.

Ваша основная цель – указать информацию о наборе данных (его метаданные) и описать его содержимое. Например, в метаданных указана тема набора, измеряемые переменные, создатель набора и т. д. При этом конкретные значения переменных не указываются.

Dataset

Полное описание типа Dataset приведено на странице schema.org/Dataset.

Вы можете добавить дополнительную информацию о публикации набора данных, например лицензию, время публикации, ЦИО или значение sameAs, указывающее на каноническую версию набора в другом хранилище. Чтобы указать информацию о происхождении и лицензии, используйте элементы identifier, license и sameAs.

Обязательные свойства
description Text

Краткое описание набора данных.

Правила

  • Общий объем: от 50 до 5000 символов.
  • Можно использовать синтаксис Markdown для разметки. Для встроенных изображений указывайте в URL абсолютный, а не относительный путь.
  • В случае с форматом JSON-LD начинайте новые строки с последовательности \n (два символа: косая черта с наклоном влево и строчная буква n).
name Text

Информативное название набора данных. Пример: "Высота снежного покрова в Северном полушарии".

Правила

  • По возможности используйте отдельные названия для разных наборов данных.
  • Рекомендуется: названия "Snow depth in the Northern Hemisphere" и "Snow depth in the Southern Hemisphere" для двух разных наборов данных.

    Не рекомендуется: "Snow depth" и "Snow depth" для двух разных наборов данных.

Рекомендуемые свойства
alternateName Text

Альтернативные имена, которые использовались для ссылки на этот набор данных: псевдонимы или сокращения. Пример в формате JSON-LD:


"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person или Organization

Создатель или автор этого набора данных. Для идентификации отдельных лиц используйте в свойстве sameAs типа Person значение ORCID ID, а для идентификации учреждений и организаций – значение ROR ID. Пример в формате JSON-LD:


"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text или CreativeWork

Ссылки на научные статьи, которые поставщик данных рекомендует процитировать в дополнение к основному набору. Добавьте цитирование в набор данных вместе с такими свойствами, как name, identifier, creator и publisher. Так можно идентифицировать дескриптор данных, документ с данными или научную публикацию, для которой использовался этот набор. Примеры в формате JSON-LD:


"citation": "https://doi.org/10.1111/111"

"citation": "https://identifiers.org/pubmed:11111111"

"citation": "https://identifiers.org/arxiv:0111.1111v1"

"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

Дополнительные правила

  • Не используйте это свойство для добавления цитирования к самому набору данных. Оно предназначено именно для связанных научных статей. Добавить сведения для цитирования самого набора можно с помощью свойств name, identifier, creator и publisher.
  • При добавлении цитаты в свойство всегда указывайте идентификатор статьи (например, ЦИО).

    Правильно: "Doe J (2014) Influence of X. Biomics 1(1). https://doi.org/10.1111/111"

    Неправильно: "Doe J (2014) Influence of X. Biomics 1(1)."

hasPart или isPartOf URL или Dataset

Если набор данных состоит из нескольких наборов небольшого размера, укажите на это с помощью свойства hasPart. Если же набор данных входит в более крупный набор, воспользуйтесь вариантом isPartOf. Оба свойства могут иметь вид как URL, так и варианта Dataset. Если в качестве значения применяется Dataset, в него необходимо включить все свойства, обязательные для отдельного варианта Dataset. Примеры:


"hasPart" : [
  {
    "@type": "Dataset",
    "name": "Sub dataset 01",
    "description": "Informative description of the first subdataset...",
    "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
  },
  {
    "@type": "Dataset",
    "name": "Sub dataset 02",
    "description": "Informative description of the second subdataset...",
    "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
  }
]

"isPartOf" : "https://example.com/aggregate_dataset"
identifier URL, Text, или PropertyValue

Идентификатор набора данных, например ЦИО или компактный. Если в наборе данных не один идентификатор, добавьте несколько свойств identifier. Если вы используете JSON-LD, применяйте синтаксис списка JSON.

keywords Text

Ключевые слова, характеризующие набор данных.

license URL или CreativeWork

Лицензия, по которой распространяется набор данных. Пример:


"license" : "https://creativecommons.org/publicdomain/zero/1.0/"

"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }

Дополнительные правила

  • Укажите URL, который позволяет однозначно идентифицировать версию используемой лицензии.

    Рекомендуется

    
    "license" : "https://creativecommons.org/licenses/by/4.0"

    Не рекомендуется

    
    "license" : "https://creativecommons.org/licenses/by"
measurementTechnique Text или URL

Технология или методология, используемая в наборе данных, которая соответствует переменным, описанным в свойстве variableMeasured.

sameAs URL

URL веб-страницы с подробной информацией, которая позволяет однозначно идентифицировать набор данных.

spatialCoverage Text или Place

Вы можете указать одну точку, описывающую пространственный аспект набора данных. Используйте это свойство, только если у набора есть пространственное измерение. Например, это может быть точка, где были собраны все измерения, или координаты ограничивающего параллелепипеда площади.

Точки


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

Фигуры

Используйте элемент GeoShape, чтобы описывать площади различной формы, например ограничивающий параллелепипед.


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

Координаты в свойствах box, circle, line и polygon необходимо указывать в виде пары значений, разделенных пробелом (сначала – широта, потом – долгота).

Названия мест


"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

Период времени, к которому относятся данные в наборе. Используйте это свойство, только если у набора есть временное измерение. Для описания периодов и моментов времени на schema.org используется стандарт ISO 8601. Вы можете указывать даты другим способом, если он подходит лучше. Обозначайте неограниченные периоды двумя десятичными знаками (..).

Дата


"temporalCoverage" : "2008"

Период времени


"temporalCoverage" : "1950-01-01/2013-12-18"

Неограниченный период


"temporalCoverage" : "2013-12-19/.."
variableMeasured Text или PropertyValue

Переменная в наборе данных, измерение которой выполняется. Например, это может быть температура или давление.

version Text или Number

Номер версии набора.

url URL

Адрес страницы с описанием набора данных.

DataCatalog

Полное описание типа DataCatalog приведено на странице schema.org/DataCatalog.

Наборы данных часто публикуются в хранилищах, содержащих множество других наборов. Один и тот же набор может находиться в нескольких хранилищах. Указывайте нужный каталог данных с помощью прямой ссылки на него.

Рекомендуемые свойства
includedInDataCatalog DataCatalog

Каталог, в котором размещен набор данных.

DataDownload

Полное описание типа DataDownload приведено на странице schema.org/DataDownload. Если набор данных можно скачать, укажите не только свойства Dataset, но и свойства DataDownload, перечисленные ниже.

Свойство distribution описывает, где скачать набор данных и в каком формате, поскольку URL набора часто указывает на целевую страницу с описанием набора, а не на страницу для скачивания. Свойство distribution указывает, где скачать данные и в каком формате. У этого свойства может быть несколько значений. Например, версия в формате CSV доступна по одному URL, а версия в формате Excel – по другому.

Обязательные свойства
distribution.contentUrl URL

Ссылка для скачивания.

Рекомендуемые свойства
distribution DataDownload

Описание места, откуда скачивается набор данных, и формата этого набора.

distribution.encodingFormat Text или URL

Формат дистрибутива.

Табличные наборы данных

Табличным называют набор данных, организованный преимущественно в виде сетки из строк и столбцов. Для страниц, содержащих табличные наборы данных, можно создавать более явную разметку на основе базовых инструкций, приведенных выше. В настоящее время Google может обрабатывать данные в формате CSVW (CSV on the Web), представленные на HTML-странице параллельно с табличным контентом, ориентированном на пользователя.

Ниже приведен пример кода в формате CSVW JSON-LD для небольшой таблицы. Инструмент проверки расширенных результатов будет предупреждать вас о некоторых ошибках, которые можно игнорировать.

Сбор статистики по расширенным результатам в Search Console

С помощью Search Console вы можете собирать данные об эффективности страниц вашего ресурса в Google Поиске. Вам не обязательно регистрироваться в этом сервисе, чтобы ваши страницы попали в результаты поиска. Однако это позволит узнать, как роботы Google воспринимают сайт, и оптимизировать его. Рекомендуем проверять информацию в Search Console в следующих случаях:

  1. После первого размещения структурированных данных
  2. После выпуска новых шаблонов или обновления кода
  3. При регулярном анализе трафика

После первого размещения структурированных данных

Когда ваши страницы будут проиндексированы, проверьте их на наличие ошибок с помощью отчета о статусе расширенных результатов. В идеальном случае количество правильных страниц должно вырасти, а число ошибок и предупреждений – нет. Если в структурированных данных будут обнаружены ошибки, примите следующие меры:

  1. Внесите исправления.
  2. Проверьте страницу на сайте и выясните, есть ли на ней обнаруженные ошибки.
  3. Запросите проверку ресурса, используя отчет о статусе расширенных результатов.

После выпуска новых шаблонов или обновления кода

Если вы внесли значительные изменения на сайт, проверьте, не увеличилось ли число ошибок и предупреждений, связанных со структурированными данными.
  • Увеличилось число ошибок? Возможно, вы создали шаблон, с которым что-то не так, или имеющийся шаблон используется некорректно.
  • Уменьшилось число действительных элементов, но не увеличилось количество ошибок? Возможно, на ваших страницах не размещены структурированные данные. Выяснить, с чем связаны ошибки, можно при помощи инструмента проверки URL.
  • При регулярном анализе трафика

    Анализировать трафик сайта из Google Поиска можно с помощью отчета об эффективности. Из этого отчета вы узнаете, как часто страница появляется в Поиске в виде расширенного результата, с какой регулярностью пользователи нажимают на нее и какова ее средняя позиция в результатах поиска. Эти сведения также можно автоматически получать с помощью Search Console API.

    Устранение неполадок

    Если у вас возникли трудности в работе со структурированными данными, устранить неполадки помогут ресурсы и сведения, доступные по ссылкам:

    Указанный набор данных не представлен в результатах поиска.

    Причина проблемы. Страница ещё не просканирована или на ней нет разметки, относящейся к набору данных.

    Как устранить проблему

    1. С помощью инструмента проверки расширенных результатов протестируйте страницу, которая должна отображаться в результатах поиска по набору данных (для этого нужно указать в интерфейсе инструмента ее URL). Если появляется сообщение "Этот инструмент проверки не находит на выбранной странице контент, который можно показывать в расширенных результатах поиска" или "Для показа расширенных результатов подходит не вся разметка", значит на странице нет разметки для набора данных или она внедрена некорректно. О том, как решить эту проблему, читайте в разделе Как добавлять структурированные данные.
    2. Если на странице есть структурированные данные, возможно, что она ещё не обработана Google. Попробуйте проверить статус ее сканирования в Search Console.

    Логотип компании отсутствует или неправильно отображается в результатах поиска.

    Причина проблемы. На странице может отсутствовать разметка schema.org для логотипа компании, или ваша компания не зарегистрирована в Google.

    Как устранить проблему

    1. Добавьте на страницу структурированные данные для логотипов.
    2. Отправьте данные о своей компании в Google.