Veri Dökümleri

Veri dökümleri, Freebase'deki verilerin indirilebilir sürümüdür. Freebase ve Schema'da depolanan verilerin anlık görüntüsünü oluştururlar ve aynı CC-BY lisansı kapsamında sağlanırlar. Freebase/Wikidata eşlemeleri CC0 lisansı kapsamında sunulur.

  1. Freebase Üçlüleri
  2. Freebase Silinmiş Üçlü
  3. Freebase/Wikidata Eşlemeleri
  4. Lisans
  5. Alıntı yapma

Freebase Üçlü

Bu veri kümesi şu anda Freebase'de yer alan tüm bilgileri içerir.
  • Toplam üçlü: 1,9 milyar
  • Güncellenme tarihi: Haftalık
  • Veri Biçimi: N-Triples RDF
  • Lisans: CC-BY
22 GB gzip
250 GB sıkıştırılmamış

RDF verileri, UTF-8 metni olarak kodlanan ve Gzip ile sıkıştırılan N-Triples biçimi kullanılarak serileştirilir.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

RDF dökümlerini ayrıştırmak için kendi kodunuzu yazıyorsanız genellikle önce verileri çıkarıp sıkıştırılmamış verileri işlemek yerine doğrudan GZip dosyasından okumak daha verimlidir.

<subject>  <predicate>  <object> .

Not: Freebase'deki nesnelerin MID'leri /m/012rkqx gibi görünür. RDF'de bu MID'ler m.012rkqx olur. Benzer şekilde, /common/topic gibi Freebase şeması common.topic olarak yazılır.

subject, Freebase nesnesinin kimliğidir. Konular ve CVT'ler için Freebase MID'si (ör. m.012rkqx) veya okunabilir bir kimlik (ör. common.topic) ekleyin.

Koşul, her zaman bir Freebase mülkü veya RDFS gibi standart RDF sözlüğünden bir mülk tarafından okunabilir bir kimliktir. Freebase yabancı anahtar ad alanları, anahtarları ad alanına göre aramayı kolaylaştırmak için de koşul olarak kullanılır.

Nesne alanı, bir nesneye ilişkin Freebase MID'yi veya Freebase ya da diğer RDF sözlüğündeki şemalar için okunabilir bir kimlik içerebilir. Dizeler, Boole değerleri ve sayısal değerler gibi tam değerler de içerebilir.

Konu açıklamaları genellikle yeni satırlar içerir. Üçlü çizgilerin tek bir satıra sığmasını sağlamak için "\n" içeren yeni satırlar yok.

Freebase Silinmiş Üçlü

Ayrıca, zaman içinde Freebase'den silinmiş üçlü döküm de sunulmaktadır. Bu, 2013 Mart ayına kadar geçerli olan tek seferlik bir dökümdir. Gelecekte, yakın zamanda silinen üçlülerle ilgili düzenli güncellemeler sunabiliriz ancak şu anda bunun için belirli bir zaman aralığımız yok ve bu tek seferlik dökümü sağlıyoruz.

Döküm .tar.gz dosyası olarak dağıtılır (2,1 Gb sıkıştırılmış, 7,7 Gb sıkıştırılmamış). 20 dosyada 63.036.271 silinmiş üçlü dosya içeriyor (tek tek dosyaların belirli bir anlamı yoktur, birkaç büyük dosya yerine tek bir büyük dosyayı değiştirmek daha kolaydır).

Bu verilerin yayınlanmasını mümkün kıldığı için Chun How Tan ve John Giannandrea'ya teşekkür ederiz.

  • Toplam üçlü: 63 milyon
  • Güncellenme tarihi: 9 Haziran 2013
  • Veri Biçimi: CSV
  • Lisans: CC-BY
2 GB gzip
8 GB sıkıştırılmamış

Veri biçimi temel olarak, önemli bir uyarı içeren CSV dosyasıdır. Nesne alanı, virgüller dahil olmak üzere herhangi bir karakteri (ve aklınıza gelen diğer makul ayırıcıları) içerebilir. Ancak diğer tüm alanların virgül içermemesi garanti edilir, böylece veriler açık bir şekilde ayrıştırılabilir.

Veri kümesindeki sütunlar şu şekilde tanımlanır:

  • create_timestamp (milisaniye cinsinden Unix zamanı)
  • içerik üretici
  • delete_timestamp (milisaniye cinsinden Unix zamanı)
  • Deletor
  • konu (MID)
  • koşul (MID)
  • nesne (Ortaokul/Literal)
  • dil_kodu
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Freebase/Wikidata Eşlemeleri

Veriler, 28 Ekim 2013 Wikidata-Dump dosyasına göre oluşturulmuştur ve yalnızca en az iki ortak Wikipedia-Link içeren ve birbiriyle aynı fikirde olmayan tek Wikipedia bağlantısı içermeyen bağlantıları içerir. Ayrıca, çizgiler ortak Wikipedia-Bağlantıları sayısına göre sıralanır (kaplumbağada bu gerçekten önemli değildir).
  • Toplam üçlü: 2,1 milyon
  • Güncelleme tarihi: 28 Ekim 2013
  • Veri Biçimi: N-Triples RDF
  • Lisans: CC0
21,2 MB gzip
242,9 MB sıkıştırılmamış

RDF verileri, UTF-8 metni olarak kodlanan ve Gzip ile sıkıştırılan N-Triples biçimi kullanılarak serileştirilir.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

Lisans

Freebase Data Dumps, Google tarafından düzenli olarak yapılan güncellemelerle herhangi bir amaçla ücretsiz olarak sunulur. Bunlar, Freebase Attribution gibi Creative Commons Attribution (CC-BY) altında dağıtılır ve Hizmet Şartları'na tabidir. Freebase/Wikidata ID eşlemeleri CC0 altında sağlanır ve kısıtlama olmadan kullanılabilir.

Alıntı Yapma

Bir yayında bu veri dökümlerinden alıntı yapmak isterseniz şunları kullanabilirsiniz:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

Veya BibTeX olarak:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}