डेटा डंप, Freebase में मौजूद डेटा का डाउनलोड किया जा सकने वाला वर्शन होता है. ये Freebase में सेव किए गए डेटा और उसे स्ट्रक्चर करने वाले स्कीमा का स्नैपशॉट होते हैं. इन्हें CC-BY लाइसेंस के तहत उपलब्ध कराया जाता है. Freebase/Wikidata मैपिंग, CC0 लाइसेंस के तहत उपलब्ध कराई जाती हैं.
Freebase Triples
इस डेटासेट में, फ़िलहाल Freebase में मौजूद हर तथ्य शामिल है. |
|
22 जीबी gzip 250 जीबी कंप्रेस नहीं किया गया |
आरडीएफ़ डेटा को N-Triples फ़ॉर्मैट का इस्तेमाल करके क्रम से लगाया जाता है. इसे UTF-8 टेक्स्ट के तौर पर एन्कोड किया जाता है और Gzip की मदद से कंप्रेस किया जाता है.
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
अगर आपको RDF डंप को पार्स करने के लिए अपना कोड लिखना है, तो डेटा को पहले एक्सट्रैक्ट करने और फिर बिना कंप्रेस किए गए डेटा को प्रोसेस करने के बजाय, सीधे GZip फ़ाइल से डेटा पढ़ना ज़्यादा असरदार होता है.
<subject> <predicate> <object> .
ध्यान दें: Freebase में, ऑब्जेक्ट के एमआईडी होते हैं. ये /m/012rkqx
की तरह दिखते हैं. आरडीएफ़ में, वे एमआईडी m.012rkqx बन जाते हैं. इसी तरह, Freebase स्कीमा जैसे कि /common/topic
को common.topic
के तौर पर लिखा जाता है.
विषय, Freebase ऑब्जेक्ट का आईडी होता है. यह विषयों और सीवीटी के लिए, Freebase MID (जैसे, m.012rkqx) या ऐसा आईडी हो सकता है जिसे कोई व्यक्ति आसानी से पढ़ सके (जैसे, common.topic
) के लिए स्कीमा.
प्रीडिकेट, हमेशा Freebase प्रॉपर्टी या RDFS जैसी स्टैंडर्ड RDF शब्दावली की प्रॉपर्टी के लिए, ऐसा आईडी होता है जिसे लोग पढ़ सकें. Freebase की फ़ॉरेन की नेमस्पेस का इस्तेमाल, प्रेडिकेट के तौर पर भी किया जाता है. इससे नेमस्पेस के हिसाब से कुंजियों को आसानी से ढूंढा जा सकता है.
ऑब्जेक्ट फ़ील्ड में, किसी ऑब्जेक्ट के लिए Freebase MID या Freebase या अन्य RDF शब्दावलियों के स्कीमा के लिए, ऐसा आईडी हो सकता है जिसे लोग आसानी से समझ सकें. इसमें स्ट्रिंग, बूलियन, और संख्या वाली वैल्यू जैसी लिटरल वैल्यू भी शामिल हो सकती हैं.
विषय के ब्यौरे में अक्सर नई लाइनें होती हैं. हर ट्रिपलेट को एक लाइन में फ़िट करने के लिए, हमने "\n" का इस्तेमाल करके नई लाइनों को स्किप किया है.
Freebase Deleted Triples
हम उन ट्रिपलों का डंप भी उपलब्ध कराते हैं जिन्हें समय के साथ Freebase से मिटा दिया गया है. यह मार्च 2013 तक का एक बार का डंप है. हम आने वाले समय में, हाल ही में मिटाई गई ट्रिपलों के समय-समय पर अपडेट देने पर विचार कर सकते हैं. हालांकि, फ़िलहाल हमारे पास ऐसा करने के लिए कोई तय समयसीमा नहीं है. हम सिर्फ़ एक बार में पूरा डेटा उपलब्ध करा रहे हैं.
डंप को .tar.gz फ़ाइल के तौर पर डिस्ट्रिब्यूट किया जाता है. इसका साइज़ कंप्रेस करने के बाद 2.1 जीबी और कंप्रेस न करने पर 7.7 जीबी होता है. इसमें 20 फ़ाइलों में मिटाए गए 6,30,36,271 ट्रिपलेट शामिल हैं. हर फ़ाइल का कोई खास मतलब नहीं है. हालांकि, एक बड़ी फ़ाइल के बजाय कई छोटी फ़ाइलों को मैनेज करना आसान होता है.
इस डेटा को रिलीज़ करने में मदद करने के लिए, चुन हाउ टैन और जॉन जियानएंड्रिया का धन्यवाद.
2 जीबी gzip 8 जीबी कंप्रेस नहीं किया गया |
डेटा का फ़ॉर्मैट, CSV फ़ॉर्मैट जैसा ही होता है. हालांकि, इसमें एक ज़रूरी शर्त होती है. ऑब्जेक्ट फ़ील्ड में कोई भी वर्ण शामिल हो सकते हैं. इनमें कॉमा के साथ-साथ, कोई भी अन्य उचित सीमांकक शामिल हो सकते हैं. हालांकि, अन्य सभी फ़ील्ड में कॉमा नहीं होते. इसलिए, डेटा को अब भी आसानी से पार्स किया जा सकता है.
डेटासेट में मौजूद कॉलम इस तरह से तय किए जाते हैं:
- creation_timestamp (यूनिक्स ईपॉक टाइम, मिलीसेकंड में)
- क्रिएटर
- deletion_timestamp (यूनिक्स टाइम, मिलीसेकंड में)
- डेटा मिटाने वाला
- विषय (एमआईडी)
- प्रेडिकेट (एमआईडी)
- ऑब्जेक्ट (एमआईडी/लिटरल)
- language_code
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
Freebase/Wikidata मैपिंग
यह डेटा, 28 अक्टूबर, 2013 के Wikidata-Dump के आधार पर बनाया गया है. इसमें सिर्फ़ वे लिंक शामिल हैं जिनमें कम से कम दो Wikipedia-Link एक जैसे हैं और एक भी Wikipedia-Link अलग नहीं है. इसके अलावा, लाइनों को Wikipedia के सामान्य लिंक की संख्या के हिसाब से क्रम में लगाया जाता है. हालांकि, Turtle में इससे कोई फ़र्क़ नहीं पड़ता. |
|
21.2 एमबी gzip 242.9 एमबी uncompressed |
आरडीएफ़ डेटा को N-Triples फ़ॉर्मैट का इस्तेमाल करके क्रम से लगाया जाता है. इसे UTF-8 टेक्स्ट के तौर पर एन्कोड किया जाता है और Gzip की मदद से कंप्रेस किया जाता है.
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
लाइसेंस
Freebase के डेटा डंप, बिना किसी शुल्क के उपलब्ध कराए जाते हैं. इनका इस्तेमाल किसी भी मकसद के लिए किया जा सकता है. Google इन्हें समय-समय पर अपडेट करता रहता है. इन्हें Freebase की तरह ही, Creative Commons Attribution (CC-BY) के तहत डिस्ट्रिब्यूट किया जाता है. इनका इस्तेमाल, सेवा की शर्तों के मुताबिक किया जाता है. Freebase/Wikidata आईडी मैपिंग, CC0 के तहत उपलब्ध कराई जाती हैं. इनका इस्तेमाल बिना किसी पाबंदी के किया जा सकता है.
उद्धरण देना
अगर आपको किसी पब्लिकेशन में इन डेटा डंप का हवाला देना है, तो इनका इस्तेमाल करें:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
या BibTeX के तौर पर:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }