ชุดข้อมูล

เราจะพบชุดข้อมูลได้ง่ายขึ้นเมื่อคุณให้ข้อมูลสนับสนุน เช่น ชื่อ คำอธิบาย ผู้สร้าง และรูปแบบการเผยแพร่เป็นข้อมูลที่มีโครงสร้าง วิธีการค้นพบชุดข้อมูลของ Google ใช้ประโยชน์จาก schema.org และมาตรฐานข้อมูลเมตาอื่นๆ ที่เพิ่มลงในหน้าที่อธิบายชุดข้อมูลได้ วัตถุประสงค์ของมาร์กอัปนี้คือการปรับปรุงการค้นพบชุดข้อมูลจากสาขาต่างๆ เช่น วิทยาศาสตร์ชีวภาพ สังคมศาสตร์ แมชชีนเลิร์นนิง ข้อมูลภาคพลเมืองและภาครัฐ เป็นต้น

ต่อไปนี้คือตัวอย่างของสิ่งที่จัดว่าเป็นชุดข้อมูล

  • ตารางหรือไฟล์ CSV ที่มีข้อมูล
  • คอลเล็กชันตารางที่มีการจัดระเบียบ
  • ไฟล์ในรูปแบบกรรมสิทธิ์ที่มีข้อมูล
  • คอลเล็กชันไฟล์ที่ประกอบกันขึ้นเป็นชุดข้อมูลที่มีความหมาย
  • ออบเจ็กต์ที่มีโครงสร้างซึ่งมีข้อมูลในรูปแบบอื่นที่คุณอาจต้องโหลดลงในเครื่องมือพิเศษเพื่อการประมวลผล
  • รูปภาพที่มีข้อมูล
  • ไฟล์เกี่ยวกับแมชชีนเลิร์นนิง เช่น พารามิเตอร์ที่เทรนไว้ หรือคำจำกัดความโครงสร้างของโครงข่ายประสาทเทียม
  • ทุกอย่างที่ดูเหมือนชุดข้อมูลสำหรับคุณ

วิธีการค้นพบชุดข้อมูลของเรา

เราทำความเข้าใจข้อมูลที่มีโครงสร้างในหน้าเว็บเกี่ยวกับชุดข้อมูลได้โดยใช้มาร์กอัปชุดข้อมูลของ schema.org หรือโครงสร้างที่เทียบเท่าซึ่งนำเสนออยู่ในรูปแบบคำศัพท์แคตตาล็อกข้อมูล (DCAT) ของ W3C เรายังลองทดสอบการรองรับข้อมูลที่มีโครงสร้างโดยอิงตาม W3C CSVW ด้วย และคาดว่าจะพัฒนาและปรับเปลี่ยนวิธีการของเราเมื่อมีแนวทางปฏิบัติที่ดีที่สุดใหม่ๆ เกิดขึ้นสำหรับการอธิบายชุดข้อมูล ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีการค้นพบชุดข้อมูลของเราได้ที่การอำนวยความสะดวกให้ค้นพบชุดข้อมูลสาธารณะ

ตัวอย่าง

ต่อไปนี้คือตัวอย่างชุดข้อมูลที่ใช้รูปแบบ JSON-LD (แนะนำ) ในเครื่องมือทดสอบข้อมูลที่มีโครงสร้าง คำศัพท์เดียวกันยังใช้ใน RDFa 1.1, Microdata หรือคำศัพท์ W3C DCAT ได้ด้วย ตัวอย่างต่อไปนี้อิงตามคำอธิบายชุดข้อมูลที่มีการใช้งานจริง

JSON-LD

นี่คือตัวอย่างชุดข้อมูล JSON-LD

RDFa

นี่คือตัวอย่างชุดข้อมูล RDFa

หลักเกณฑ์

เว็บไซต์ต้องเป็นไปตามหลักเกณฑ์เกี่ยวกับข้อมูลที่มีโครงสร้าง นอกเหนือจากหลักเกณฑ์เกี่ยวกับข้อมูลที่มีโครงสร้างแล้ว เราขอแนะนำให้ทำตามแนวทางปฏิบัติที่ดีที่สุดสำหรับแผนผังไซต์และแหล่งที่มาและต้นทางต่อไปนี้ด้วย

แนวทางปฏิบัติที่ดีที่สุดเกี่ยวกับแผนผังไซต์

โปรดใช้ไฟล์แผนผังไซต์เพื่อช่วยให้ Google พบ URL ของคุณ การใช้ไฟล์แผนผังไซต์และมาร์กอัป sameAs ช่วยบันทึกวิธีเผยแพร่คำอธิบายชุดข้อมูลทั่วทุกที่ในเว็บไซต์ของคุณ

หากคุณมีที่เก็บชุดข้อมูล เป็นไปได้ว่าคุณมีหน้า Canonical ("Landing Page") อย่างน้อย 2 ประเภทสำหรับชุดข้อมูลแต่ละชุดและหน้าที่แสดงรายการชุดข้อมูลหลายรายการ (เช่น ผลการค้นหาหรือชุดข้อมูลบางชุด) เราขอแนะนำให้คุณเพิ่มข้อมูลที่มีโครงสร้างเกี่ยวกับชุดข้อมูลลงในหน้า Canonical ใช้พร็อพเพอร์ตี้ sameAs เพื่อลิงก์หน้า Canonical หากคุณเพิ่มข้อมูลที่มีโครงสร้างลงในสำเนาชุดข้อมูลหลายสำเนา เช่น ข้อมูลในหน้าผลการค้นหา

แนวทางปฏิบัติที่ดีที่สุดเกี่ยวกับแหล่งที่มาและต้นทาง

ชุดข้อมูลแบบเปิดอาจมีการเผยแพร่ต่อ การรวม และการอิงตามชุดข้อมูลอื่นๆ เป็นเรื่องปกติ นี่คือข้อมูลสรุปเบื้องต้นเกี่ยวกับวิธีการนำเสนอสถานการณ์ที่ชุดข้อมูลหนึ่งอิงตามหรือเป็นสำเนาของชุดข้อมูลอื่น

  • ใช้พร็อพเพอร์ตี้ sameAs เพื่อระบุ Canonical URL ที่ตรงกันมากที่สุดของต้นฉบับในกรณีที่ชุดข้อมูลหรือคำอธิบายเป็นเพียงการเผยแพร่ซ้ำเนื้อหาที่เผยแพร่ไว้ที่อื่น
  • ใช้พร็อพเพอร์ตี้ isBasedOn ในกรณีที่ชุดข้อมูลที่เผยแพร่ซ้ำ (รวมถึงข้อมูลเมตา) มีการเปลี่ยนแปลงไปอย่างมาก
  • เมื่อชุดข้อมูลดัดแปลงมาจากหรือรวมมาจากต้นฉบับหลายรายการ ให้ใช้พร็อพเพอร์ตี้ isBasedOn
  • ใช้พร็อพเพอร์ตี้ identifier เพื่อแนบ Digital Object Identifier (DOI) หรือ Compact Identifier ใดก็ตามที่เกี่ยวข้อง ถ้าชุดข้อมูลมีตัวระบุมากกว่า 1 ตัว ให้ใช้พร็อพเพอร์ตี้ identifier ซ้ำ หากใช้ JSON-LD ระบบจะแสดงโดยใช้รูปแบบรายการ JSON

เราต้องการปรับปรุงคำแนะนำของเราโดยอิงตามความคิดเห็น โดยเฉพาะอย่างยิ่งในเรื่องคำอธิบายต้นทาง การกำหนดเวอร์ชัน และวันที่ที่เชื่อมโยงกับการเผยแพร่ตามอนุกรมเวลา โปรดเข้าร่วมในการสนทนาของชุมชน

คำแนะนำพร็อพเพอร์ตี้แบบข้อความ

เราขอแนะนำให้จำกัดช่องข้อความทั้งหมดไว้ไม่เกิน 5,000 อักขระ Google Dataset Search จะใช้เพียง 5,000 อักขระแรกของช่องข้อความแต่ละช่อง โดยปกติชื่อกับหัวข้อจะเป็นประโยคสั้นๆ หรือมีเพียงไม่กี่คำ

ข้อผิดพลาดและคำเตือนที่ทราบ

คุณอาจพบข้อผิดพลาดหรือคำเตือนในเครื่องมือทดสอบข้อมูลที่มีโครงสร้างของ Google และระบบตรวจสอบความถูกต้องอื่นๆ โดยเฉพาะอย่างยิ่ง ระบบตรวจสอบความถูกต้องอาจแนะนำให้องค์กรมีข้อมูลติดต่อ ซึ่งรวมถึง contactType ในกรณีนี้ ค่าที่เป็นประโยชน์ ได้แก่ customer service, emergency, journalist, newsroom, และ public engagement และคุณไม่จำเป็นต้องสนใจข้อผิดพลาดที่ csvw:Table เป็นค่าที่ไม่คาดคิดของพร็อพเพอร์ตี้ mainEntity ด้วย

คำจำกัดความของประเภทข้อมูลที่มีโครงสร้าง

คุณต้องใส่พร็อพเพอร์ตี้ที่จำเป็นลงในเนื้อหาเพื่อให้มีสิทธิ์แสดงเป็นผลการค้นหาที่เป็นสื่อสมบูรณ์ คุณอาจใส่พร็อพเพอร์ตี้ที่แนะนำด้วยเพื่อให้ข้อมูลเพิ่มเติมเกี่ยวกับเนื้อหา ซึ่งจะช่วยให้ผู้ใช้ได้รับประสบการณ์ที่ดียิ่งขึ้น

คุณใช้เครื่องมือทดสอบข้อมูลที่มีโครงสร้างเพื่อตรวจสอบความถูกต้องของมาร์กอัปได้

สิ่งสำคัญคือการอธิบายข้อมูลเกี่ยวกับชุดข้อมูล (ข้อมูลเมตา) และการนำเสนอเนื้อหา เช่น ข้อมูลเมตาของชุดข้อมูลจะบอกว่าชุดข้อมูลนั้นเกี่ยวกับอะไร ตัวแปรที่วัดมีอะไรบ้าง ใครเป็นผู้สร้างชุดข้อมูล และอื่นๆ แต่จะไม่มีค่าที่เจาะจงของตัวแปร เป็นต้น

ชุดข้อมูล

ดูคำจำกัดความที่สมบูรณ์ของ Dataset ได้ที่ schema.org/Dataset

คุณบรรยายข้อมูลเพิ่มเติมเกี่ยวกับสิ่งพิมพ์ของชุดข้อมูลได้ เช่น ใบอนุญาต, เวลาที่เผยแพร่, DOI ของชุดข้อมูล หรือ sameAs ที่ชี้ไปยังเวอร์ชัน Canonical ของชุดข้อมูลในที่เก็บอื่น โปรดใส่ identifier, license และ sameAs สำหรับชุดข้อมูลที่มีต้นทางและข้อมูลใบอนุญาต

พร็อพเพอร์ตี้ที่จำเป็น
description Text

สรุปสั้นๆ ที่อธิบายเกี่ยวกับชุดข้อมูล

หลักเกณฑ์

  • สรุปต้องมีความยาวระหว่าง 50 ถึง 5,000 อักขระ
  • ในสรุปอาจใส่รูปแบบ Markdown ด้วยก็ได้ รูปภาพที่ฝังจะต้องใช้เส้นทาง URL แบบสัมบูรณ์ (ไม่ใช่เส้นทางแบบสัมพัทธ์)
  • เมื่อใช้รูปแบบ JSON-LD ให้แสดงบรรทัดใหม่ด้วย \n (มีอักขระ 2 ตัวคือ แบ็กสแลชและอักษร "n" ตัวพิมพ์เล็ก)
name Text

ชื่อที่สื่อความหมายของชุดข้อมูล เช่น "ความลึกของหิมะในซีกโลกเหนือ"

พร็อพเพอร์ตี้ที่แนะนำ
alternateName Text

ชื่ออื่นที่ใช้เพื่ออ้างถึงชุดข้อมูลนี้ เช่น ชื่อแทนหรือคำย่อ ตัวอย่าง (ในรูปแบบ JSON-LD) เช่น

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person หรือ Organization

ผู้สร้างหรือผู้เขียนชุดข้อมูลนี้ ใช้ ORCID ID เป็นค่าของพร็อพเพอร์ตี้ sameAs ประเภท Person เพื่อระบุตัวตนของบุคคลโดยไม่ซ้ำ ใช้ ROR ID เพื่อระบุสถาบันและองค์กรโดยไม่ซ้ำ ตัวอย่าง (ในรูปแบบ JSON-LD) เช่น

"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text หรือ CreativeWork

ระบุบทความทางวิชาการที่ผู้ให้ข้อมูลแนะนำให้อ้างอิงนอกเหนือจากตัวชุดข้อมูล ระบุการอ้างอิงสำหรับชุดข้อมูลด้วยช่องอื่น เช่น name, identifier, creator และ publisher ตัวอย่างเช่น ช่องนี้ระบุสิ่งพิมพ์ทางวิชาการที่เกี่ยวข้องโดยเฉพาะ เช่น ข้อบ่งชี้ข้อมูล เอกสารข้อมูล หรือบทความที่ชุดข้อมูลนี้เป็นส่วนเสริมให้ ตัวอย่าง (ในรูปแบบ JSON-LD)

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

หลักเกณฑ์เพิ่มเติม

  • อย่าใช้ช่องนี้สำหรับให้ข้อมูลการอ้างอิงของชุดข้อมูลนั้น ช่องนี้ใช้สำหรับระบุบทความทางวิชาการที่เกี่ยวข้องไม่ใช่ตัวชุดข้อมูลเอง หากต้องการให้ข้อมูลที่จำเป็นสำหรับการอ้างอิงชุดข้อมูลนั้น ให้ใช้ช่อง name, identifier, creator และ publisher แทน
  • เมื่อใส่ข้อมูลโค้ดในช่องอ้างอิง ให้ใส่ตัวระบุบทความ (เช่น DOI) ทุกครั้งที่ทำได้

    แนะนำ: "Doe J (2014) Influence of X. Biomics 1(1). https://doi.org/10.1111/111"

    ไม่แนะนำ: "Doe J (2014) Influence of X. Biomics 1(1)."

identifier URL, Text หรือ PropertyValue

ตัวระบุ เช่น DOI หรือ Compact Identifier ถ้าชุดข้อมูลมีตัวระบุมากกว่า 1 ตัว ให้ใช้พร็อพเพอร์ตี้ identifier ซ้ำ หากใช้ JSON-LD ระบบจะแสดงโดยใช้รูปแบบรายการ JSON

keywords Text

คีย์เวิร์ดที่สรุปชุดข้อมูล

license URL, Text

ใบอนุญาตการเผยแพร่ของชุดข้อมูล

sameAs URL

ลิงก์ไปยังหน้าที่มีข้อมูลเพิ่มเติมเกี่ยวกับชุดข้อมูลเดียวกัน โดยทั่วไปจะอยู่ในที่เก็บที่ต่างกัน

spatialCoverage Text, Place

คุณอาจระบุจุดจุดเดียวที่อธิบายแง่มุมด้านตำแหน่งของชุดข้อมูล โปรดระบุพร็อพเพอร์ตี้นี้เมื่อชุดข้อมูลมีมิติข้อมูลเกี่ยวกับตำแหน่งเท่านั้น เช่น จุดจุดเดียวที่มีการรวบรวมการวัดทั้งหมด หรือพิกัดของกรอบพื้นที่

จุด

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

รูปทรง

โปรดใช้ GeoShape เพื่ออธิบายพื้นที่ที่มีรูปทรงต่างๆ เช่น การระบุกรอบพื้นที่

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

จุดในพร็อพเพอร์ตี้ box, circle, line, หรือ polygon ต้องใช้การเว้นวรรคสำหรับแยกค่า 2 ค่าตามละติจูดและลองจิจูด (ตามลำดับนั้น)

สถานที่ที่มีชื่อ

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

ข้อมูลในชุดข้อมูลครอบคลุมช่วงเวลาที่เจาะจง โปรดระบุพร็อพเพอร์ตี้นี้เมื่อชุดข้อมูลมีมิติข้อมูลเวลาเท่านั้น Schema.org ใช้มาตรฐาน ISO 8601 เพื่ออธิบายช่วงเวลาและจุดเวลา คุณอธิบายวันที่ในแบบต่างๆ ได้โดยขึ้นอยู่กับช่วงเวลาของชุดข้อมูล โปรดระบุช่วงเวลาปลายเปิดด้วยจุดทศนิยม 2 จุด (..)

วันเดียว

"temporalCoverage" : "2008"

ระยะเวลา

"temporalCoverage" : "1950-01-01/2013-12-18"

ระยะเวลาปลายเปิด

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

ตัวแปรที่ชุดข้อมูลนี้วัด เช่น อุณหภูมิหรือแรงดัน

version Text, Number

หมายเลขเวอร์ชันของชุดข้อมูล

url URL

ตำแหน่งของหน้าที่อธิบายชุดข้อมูล

DataCatalog

ดูคำจำกัดความที่สมบูรณ์ของ DataCatalog ได้ที่ schema.org/DataCatalog

ชุดข้อมูลมักจะเผยแพร่ในที่เก็บที่มีชุดข้อมูลอื่นๆ อีกมากมาย ชุดข้อมูลเดียวกันอาจรวมอยู่ในที่เก็บดังกล่าวมากกว่า 1 ที่ คุณอ้างถึงแคตตาล็อกข้อมูลที่มีชุดข้อมูลนี้อยู่ได้โดยการอ้างอิงแคตตาล็อกโดยตรง

พร็อพเพอร์ตี้ที่แนะนำ
includedInDataCatalog DataCatalog

แคตตาล็อกที่มีชุดข้อมูลอยู่

DataDownload

ดูคำจำกัดความที่สมบูรณ์ของ DataDownload ได้ที่ schema.org/DataDownload นอกเหนือจากพร็อพเพอร์ตี้ Dataset แล้ว โปรดเพิ่มพร็อพเพอร์ตี้ต่อไปนี้สำหรับชุดข้อมูลที่มีตัวเลือกในการดาวน์โหลดด้วย

พร็อพเพอร์ตี้ distribution อธิบายวิธีดูชุดข้อมูลเพราะ URL มักจะชี้ไปที่หน้า Landing Page ที่อธิบายชุดข้อมูล พร็อพเพอร์ตี้ distribution อธิบายตำแหน่งและรูปแบบของข้อมูล พร็อพเพอร์ตี้นี้อาจมีค่าหลายรายการ เช่น เวอร์ชัน CSV มี URL เดียวและเวอร์ชัน Excel อยู่ที่ URL อื่น

พร็อพเพอร์ตี้ที่จำเป็น
distribution.contentUrl URL

ลิงก์สำหรับการดาวน์โหลด

พร็อพเพอร์ตี้
distribution DataDownload

คำอธิบายตำแหน่งของการดาวน์โหลดชุดข้อมูลและรูปแบบไฟล์สำหรับการดาวน์โหลด

distribution.fileFormat Text

รูปแบบไฟล์ของการเผยแพร่

ชุดข้อมูลแบบตาราง

ชุดข้อมูลแบบตารางคือชุดข้อมูลที่จัดระเบียบเป็นตารางที่มีแถวและคอลัมน์เป็นหลัก สำหรับหน้าที่ฝังชุดข้อมูลแบบตาราง คุณยังสร้างมาร์กอัปที่ชัดเจนยิ่งขึ้นได้ด้วย โดยต่อยอดจากวิธีการพื้นฐานที่อธิบายไว้ข้างต้น ขณะนี้เราเข้าใจ CSVW ("CSV ในเว็บ" โปรดดู W3C) รูปแบบต่างๆ ที่ระบุพร้อมกันกับเนื้อหาแบบตารางสำหรับผู้ใช้ในหน้า HTML

ต่อไปนี้คือตัวอย่างที่แสดงตารางขนาดเล็กที่เข้ารหัสในรูปแบบ CSVW JSON-LD มีข้อผิดพลาดที่ทราบบางอย่างในเครื่องมือทดสอบข้อมูลที่มีโครงสร้าง

ความช่วยเหลือและเครื่องมือ