데이터 덤프

데이터 덤프는 Freebase에 있는 데이터의 다운로드 가능한 버전입니다. 이 도구는 Freebase에 저장된 데이터의 스냅샷과 이를 구조화하는 스키마이며 동일한 CC-BY 라이선스에 따라 제공됩니다. Freebase/Wikidata 매핑은 CC0 라이선스에 따라 제공됩니다.

  1. Freebase Triple
  2. Freebase Deleted Triple
  3. Freebase/Wikidata 매핑
  4. 라이선스
  5. 인용

프리베이스 트리플

이 데이터 세트에는 현재 Freebase에 있는 모든 사실이 포함되어 있습니다.
  • 총 3배: 19억
  • 업데이트: 매주
  • 데이터 형식: N-Triples RDF
  • 라이선스: CC-BY
22GB gzip
250GB 비압축

RDF 데이터는 UTF-8 텍스트로 인코딩되고 Gzip으로 압축된 N-Triples 형식을 통해 직렬화됩니다.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

RDF 덤프를 파싱하는 자체 코드를 작성하는 경우 먼저 데이터를 추출한 후 압축되지 않은 데이터를 처리하는 것보다 GZip 파일에서 직접 읽는 것이 더 효율적입니다.

<subject>  <predicate>  <object> .

참고: Freebase에서 객체에는 /m/012rkqx와 같은 MID가 있습니다. RDF에서 이러한 MID는 m.012rkqx가 됩니다. 마찬가지로 /common/topic 같은 Freebase 스키마는 common.topic로 작성됩니다.

subject는 Freebase 객체의 ID입니다. 주제 및 CVT에 대한 Freebase MID (예: m.012rkqx) 또는 사람이 읽을 수 있는 ID (예: common.topic)

predicate는 항상 Freebase 속성의 사람이 읽을 수 있는 ID이거나 RDFS와 같은 표준 RDF 어휘의 속성입니다. 또한 Freebase 외래 키 네임스페이스는 네임스페이스별로 키를 더 쉽게 찾을 수 있도록 조건자로 사용됩니다.

객체 필드에는 객체의 Freebase MID 또는 Freebase 또는 다른 RDF 어휘의 스키마에 대한 사람이 읽을 수 있는 ID가 포함될 수 있습니다. 문자열, 불리언, 숫자 값과 같은 리터럴 값도 포함될 수 있습니다.

주제 설명에는 줄바꿈이 포함되는 경우가 많습니다. 각 3줄이 한 줄에 들어가도록 '\n'이 있는 줄바꿈을 이스케이프했습니다.

Freebase 삭제된 3줄

또한 시간이 지남에 따라 Freebase에서 삭제된 3쌍의 덤프도 제공합니다. 2013년 3월의 일회용 덤프입니다. 향후 최근에 삭제된 3개의 트리에 대한 업데이트를 제공할 수도 있으나, 현재는 구체적인 기간이 없으며 이 일회성 덤프만 제공됩니다.

덤프는 .tar.gz 파일 (2.1Gb 압축, 7.7Gb 비압축)로 배포됩니다. 20개 파일에 삭제된 33,036,271개가 포함되어 있습니다. 개별 파일에는 특별한 의미가 없고 하나의 큰 파일보다 작은 파일을 여러 개 조작하기가 더 쉽습니다.

이러한 데이터 공개를 가능하게 해 주신 천하우와 존 지안드레아님께 감사드립니다.

  • 총 3배: 6,300만
  • 업데이트: 2013년 6월 9일
  • 데이터 형식: CSV
  • 라이선스: CC-BY
2GB gzip
8GB(압축되지 않음)

데이터 형식은 본질적으로 CSV이며 한 가지 중요한 주의사항이 있습니다. 객체 필드에는 쉼표와 함께 생각하면 괜찮은 다른 구분자를 비롯한 모든 문자가 포함될 수 있습니다. 하지만 다른 모든 필드에는 쉼표가 포함되지 않으므로 데이터가 명확하게 파싱될 수 있습니다.

데이터 세트의 열은 다음과 같이 정의됩니다.

  • 생성_타임스탬프(Unix 에포크 시간(밀리초))
  • 크리에이터
  • 삭제_타임스탬프(Unix 에포크 시간(밀리초))
  • Deletor
  • 주체 (MID)
  • 조건자 (MID)
  • 객체 (MID/리터럴)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Freebase/Wikidata 매핑

이 데이터는 2013년 10월 28일 Wikidata-Dump를 기반으로 생성되었으며 서로 다른 Wikipedia-Links가 두 개 이상 있는 링크만 포함하고 일치하지 않는 단일 Wikipedia-Link는 포함하지 않습니다. 게다가 이 줄은 일반적인 위키백과 링크 수를 기준으로 정렬됩니다 (거북이의 경우 중요하지 않음).
  • 총 3배: 210만
  • 업데이트: 2013년 10월 28일
  • 데이터 형식: N-Triples RDF
  • 라이선스: CC0
21.2MB gzip
242.9MB 비압축

RDF 데이터는 UTF-8 텍스트로 인코딩되고 Gzip으로 압축된 N-Triples 형식을 통해 직렬화됩니다.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

라이선스

Freebase Data Dump는 Google의 정기적인 업데이트를 통해 어떤 목적으로든 무료로 제공됩니다. Freebase처럼 크리에이티브 커먼즈 저작자 표시 (CC-BY)에 따라 배포되며 서비스 약관이 적용됩니다. Freebase/Wikidata ID 매핑은 CC0에 따라 제한 없이 사용할 수 있습니다.

인용

간행물에서 이러한 데이터 덤프를 인용하려면 다음을 사용할 수 있습니다.

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

또는 BibTeX로:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}