डेटा डंप

डेटा डंप, Freebase में मौजूद डेटा का डाउनलोड किया जा सकने वाला वर्शन होता है. ये Freebase में सेव किए गए डेटा और उसे स्ट्रक्चर करने वाले स्कीमा का स्नैपशॉट होते हैं. इन्हें CC-BY लाइसेंस के तहत उपलब्ध कराया जाता है. Freebase/Wikidata मैपिंग, CC0 लाइसेंस के तहत उपलब्ध कराई जाती हैं.

  1. Freebase Triples
  2. Freebase Deleted Triples
  3. Freebase/Wikidata मैपिंग
  4. लाइसेंस
  5. क्रेडिट देना

Freebase Triples

इस डेटासेट में, फ़िलहाल Freebase में मौजूद हर तथ्य शामिल है.
  • कुल ट्रिपलेट: 1.9 अरब
  • अपडेट किया जाता है: हर हफ़्ते
  • डेटा फ़ॉर्मैट: N-Triples RDF
  • लाइसेंस: CC-BY
22 जीबी gzip
250 जीबी कंप्रेस नहीं किया गया

आरडीएफ़ डेटा को N-Triples फ़ॉर्मैट का इस्तेमाल करके क्रम से लगाया जाता है. इसे UTF-8 टेक्स्ट के तौर पर एन्कोड किया जाता है और Gzip की मदद से कंप्रेस किया जाता है.

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

अगर आपको RDF डंप को पार्स करने के लिए अपना कोड लिखना है, तो डेटा को पहले एक्सट्रैक्ट करने और फिर बिना कंप्रेस किए गए डेटा को प्रोसेस करने के बजाय, सीधे GZip फ़ाइल से डेटा पढ़ना ज़्यादा असरदार होता है.

<subject>  <predicate>  <object> .

ध्यान दें: Freebase में, ऑब्जेक्ट के एमआईडी होते हैं. ये /m/012rkqx की तरह दिखते हैं. आरडीएफ़ में, वे एमआईडी m.012rkqx बन जाते हैं. इसी तरह, Freebase स्कीमा जैसे कि /common/topic को common.topic के तौर पर लिखा जाता है.

विषय, Freebase ऑब्जेक्ट का आईडी होता है. यह विषयों और सीवीटी के लिए, Freebase MID (जैसे, m.012rkqx) या ऐसा आईडी हो सकता है जिसे कोई व्यक्ति आसानी से पढ़ सके (जैसे, common.topic) के लिए स्कीमा.

प्रीडिकेट, हमेशा Freebase प्रॉपर्टी या RDFS जैसी स्टैंडर्ड RDF शब्दावली की प्रॉपर्टी के लिए, ऐसा आईडी होता है जिसे लोग पढ़ सकें. Freebase की फ़ॉरेन की नेमस्पेस का इस्तेमाल, प्रेडिकेट के तौर पर भी किया जाता है. इससे नेमस्पेस के हिसाब से कुंजियों को आसानी से ढूंढा जा सकता है.

ऑब्जेक्ट फ़ील्ड में, किसी ऑब्जेक्ट के लिए Freebase MID या Freebase या अन्य RDF शब्दावलियों के स्कीमा के लिए, ऐसा आईडी हो सकता है जिसे लोग आसानी से समझ सकें. इसमें स्ट्रिंग, बूलियन, और संख्या वाली वैल्यू जैसी लिटरल वैल्यू भी शामिल हो सकती हैं.

विषय के ब्यौरे में अक्सर नई लाइनें होती हैं. हर ट्रिपलेट को एक लाइन में फ़िट करने के लिए, हमने "\n" का इस्तेमाल करके नई लाइनों को स्किप किया है.

Freebase Deleted Triples

हम उन ट्रिपलों का डंप भी उपलब्ध कराते हैं जिन्हें समय के साथ Freebase से मिटा दिया गया है. यह मार्च 2013 तक का एक बार का डंप है. हम आने वाले समय में, हाल ही में मिटाई गई ट्रिपलों के समय-समय पर अपडेट देने पर विचार कर सकते हैं. हालांकि, फ़िलहाल हमारे पास ऐसा करने के लिए कोई तय समयसीमा नहीं है. हम सिर्फ़ एक बार में पूरा डेटा उपलब्ध करा रहे हैं.

डंप को .tar.gz फ़ाइल के तौर पर डिस्ट्रिब्यूट किया जाता है. इसका साइज़ कंप्रेस करने के बाद 2.1 जीबी और कंप्रेस न करने पर 7.7 जीबी होता है. इसमें 20 फ़ाइलों में मिटाए गए 6,30,36,271 ट्रिपलेट शामिल हैं. हर फ़ाइल का कोई खास मतलब नहीं है. हालांकि, एक बड़ी फ़ाइल के बजाय कई छोटी फ़ाइलों को मैनेज करना आसान होता है.

इस डेटा को रिलीज़ करने में मदद करने के लिए, चुन हाउ टैन और जॉन जियानएंड्रिया का धन्यवाद.

  • कुल ट्रिप: 6 करोड़ 30 लाख
  • अपडेट किया गया: 9 जून, 2013
  • डेटा फ़ॉर्मैट: CSV
  • लाइसेंस: CC-BY
2 जीबी gzip
8 जीबी कंप्रेस नहीं किया गया

डेटा का फ़ॉर्मैट, CSV फ़ॉर्मैट जैसा ही होता है. हालांकि, इसमें एक ज़रूरी शर्त होती है. ऑब्जेक्ट फ़ील्ड में कोई भी वर्ण शामिल हो सकते हैं. इनमें कॉमा के साथ-साथ, कोई भी अन्य उचित सीमांकक शामिल हो सकते हैं. हालांकि, अन्य सभी फ़ील्ड में कॉमा नहीं होते. इसलिए, डेटा को अब भी आसानी से पार्स किया जा सकता है.

डेटासेट में मौजूद कॉलम इस तरह से तय किए जाते हैं:

  • creation_timestamp (यूनिक्स ईपॉक टाइम, मिलीसेकंड में)
  • क्रिएटर
  • deletion_timestamp (यूनिक्स टाइम, मिलीसेकंड में)
  • डेटा मिटाने वाला
  • विषय (एमआईडी)
  • प्रेडिकेट (एमआईडी)
  • ऑब्जेक्ट (एमआईडी/लिटरल)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Freebase/Wikidata मैपिंग

यह डेटा, 28 अक्टूबर, 2013 के Wikidata-Dump के आधार पर बनाया गया है. इसमें सिर्फ़ वे लिंक शामिल हैं जिनमें कम से कम दो Wikipedia-Link एक जैसे हैं और एक भी Wikipedia-Link अलग नहीं है. इसके अलावा, लाइनों को Wikipedia के सामान्य लिंक की संख्या के हिसाब से क्रम में लगाया जाता है. हालांकि, Turtle में इससे कोई फ़र्क़ नहीं पड़ता.
  • कुल ट्रिपल: 21 लाख
  • अपडेट किया गया: 28 अक्टूबर, 2013
  • डेटा फ़ॉर्मैट: N-Triples RDF
  • लाइसेंस: CC0
21.2 एमबी gzip
242.9 एमबी uncompressed

आरडीएफ़ डेटा को N-Triples फ़ॉर्मैट का इस्तेमाल करके क्रम से लगाया जाता है. इसे UTF-8 टेक्स्ट के तौर पर एन्कोड किया जाता है और Gzip की मदद से कंप्रेस किया जाता है.

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

लाइसेंस

Freebase के डेटा डंप, बिना किसी शुल्क के उपलब्ध कराए जाते हैं. इनका इस्तेमाल किसी भी मकसद के लिए किया जा सकता है. Google इन्हें समय-समय पर अपडेट करता रहता है. इन्हें Freebase की तरह ही, Creative Commons Attribution (CC-BY) के तहत डिस्ट्रिब्यूट किया जाता है. इनका इस्तेमाल, सेवा की शर्तों के मुताबिक किया जाता है. Freebase/Wikidata आईडी मैपिंग, CC0 के तहत उपलब्ध कराई जाती हैं. इनका इस्तेमाल बिना किसी पाबंदी के किया जा सकता है.

उद्धरण देना

अगर आपको किसी पब्लिकेशन में इन डेटा डंप का हवाला देना है, तो इनका इस्तेमाल करें:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

या BibTeX के तौर पर:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}