데이터 덤프

데이터 덤프는 Freebase의 다운로드 가능한 데이터 버전입니다. 이러한 데이터는 Freebase에 저장된 데이터와 이를 구조화하는 스키마의 스냅샷으로, 동일한 CC-BY 라이선스에 따라 제공됩니다. Freebase/Wikidata 매핑은 CC0 라이선스에 따라 제공됩니다.

  1. Freebase Triples
  2. Freebase 삭제된 트리플
  3. Freebase/Wikidata 매핑
  4. 라이선스
  5. 인용

Freebase Triples

이 데이터 세트에는 현재 Freebase에 있는 모든 사실이 포함되어 있습니다.
  • 총 삼중항: 19억
  • 업데이트: 매주
  • 데이터 형식: N-Triples RDF
  • 라이선스: CC-BY
22GB gzip
250GB 비압축

RDF 데이터는 N-Triples 형식을 사용하여 직렬화되고, UTF-8 텍스트로 인코딩되며, Gzip으로 압축됩니다.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

RDF 덤프를 파싱하는 코드를 직접 작성하는 경우 데이터를 먼저 추출한 다음 압축 해제된 데이터를 처리하는 것보다 GZip 파일에서 직접 읽는 것이 더 효율적인 경우가 많습니다.

<subject>  <predicate>  <object> .

참고: Freebase에서 객체에는 /m/012rkqx와 같은 MID가 있습니다. RDF에서 이러한 MID는 m.012rkqx가 됩니다. 마찬가지로 /common/topic와 같은 Freebase 스키마는 common.topic로 작성됩니다.

주제는 Freebase 객체의 ID입니다. 주제 및 CVT의 경우 Freebase MID(예: m.012rkqx)일 수 있고, common.topic)을 사용합니다.

술어는 항상 Freebase 속성 또는 RDFS와 같은 표준 RDF 어휘의 속성에 대한 사람이 읽을 수 있는 ID입니다. Freebase 외래 키 네임스페이스는 네임스페이스별로 키를 쉽게 조회할 수 있도록 술어로도 사용됩니다.

객체 필드에는 객체의 Freebase MID 또는 Freebase나 기타 RDF 어휘의 스키마에 대한 사람이 읽을 수 있는 ID가 포함될 수 있습니다. 문자열, 불리언, 숫자 값과 같은 리터럴 값도 포함될 수 있습니다.

주제 설명에는 줄바꿈이 포함되는 경우가 많습니다. 각 트리플이 한 줄에 맞도록 줄바꿈을 '\n'으로 이스케이프했습니다.

Freebase 삭제된 트리플

또한 시간이 지남에 따라 Freebase에서 삭제된 트리플의 덤프도 제공합니다. 이는 2013년 3월까지의 일회성 덤프입니다. 향후 최근에 삭제된 트리플의 정기 업데이트를 제공하는 것을 고려할 수 있지만, 현재로서는 구체적인 시기가 정해져 있지 않으며 이 일회성 덤프만 제공됩니다.

덤프는 .tar.gz 파일 (압축 시 2.1GB, 압축 해제 시 7.7GB)로 배포됩니다. 20개의 파일에 삭제된 트리플이 63,036,271개 포함되어 있습니다. 개별 파일에는 특별한 의미가 없으며 하나의 큰 파일보다 여러 개의 작은 파일을 조작하는 것이 더 쉽습니다.

이 데이터 공개를 가능하게 해 준 Chun How Tan과 John Giannandrea에게 감사드립니다.

  • 총 트리플: 6,300만 개
  • 업데이트: 2013년 6월 9일
  • 데이터 형식: CSV
  • 라이선스: CC-BY
2GB gzip
8GB 압축 해제

데이터 형식은 기본적으로 CSV이지만 한 가지 중요한 주의사항이 있습니다. 객체 필드에는 쉼표를 비롯한 모든 문자 (및 생각할 수 있는 기타 적절한 구분 기호)가 포함될 수 있습니다. 하지만 다른 모든 필드에는 쉼표가 포함되지 않으므로 데이터를 명확하게 파싱할 수 있습니다.

데이터 세트의 열은 다음과 같이 정의됩니다.

  • creation_timestamp (밀리초 단위의 Unix epoch 시간)
  • 크리에이터
  • deletion_timestamp (밀리초 단위의 Unix epoch 시간)
  • 삭제자
  • 주제 (MID)
  • 술어 (MID)
  • 객체 (MID/리터럴)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Freebase/Wikidata 매핑

이 데이터는 2013년 10월 28일의 Wikidata 덤프를 기반으로 생성되었으며, 공통 Wikipedia 링크가 2개 이상이고 반대되는 Wikipedia 링크가 없는 링크만 포함합니다. 또한 줄은 공통 Wikipedia 링크 수로 정렬됩니다 (Turtle에서는 실제로 중요하지 않음).
  • 총 트리플: 210만
  • 업데이트: 2013년 10월 28일
  • 데이터 형식: N-Triples RDF
  • 라이선스: CC0
21.2MB gzip
242.9MB 비압축

RDF 데이터는 N-Triples 형식을 사용하여 직렬화되고, UTF-8 텍스트로 인코딩되며, Gzip으로 압축됩니다.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

라이선스

Freebase 데이터 덤프는 Google에서 정기적으로 업데이트하며 어떤 목적으로든 무료로 제공됩니다. 이러한 데이터는 Freebase와 마찬가지로 크리에이티브 커먼즈 저작자 표시 (CC-BY)에 따라 배포되며 사용 시 서비스 약관이 적용됩니다. Freebase/Wikidata ID 매핑은 CC0에 따라 제공되며 제한 없이 사용할 수 있습니다.

인용

게시물에서 이러한 데이터 덤프를 인용하려면 다음을 사용하세요.

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

또는 BibTeX로:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}