ডেটা ডাম্পগুলি ফ্রিবেসের ডেটার একটি ডাউনলোডযোগ্য সংস্করণ। তারা Freebase-এ সঞ্চিত ডেটার একটি স্ন্যাপশট এবং স্কিমা গঠন করে যা এটি গঠন করে এবং একই CC-BY লাইসেন্সের অধীনে সরবরাহ করা হয়। ফ্রিবেস/উইকিডাটা ম্যাপিং CC0 লাইসেন্সের অধীনে প্রদান করা হয়।
ফ্রিবেস ট্রিপলস
এই ডেটাসেটে বর্তমানে Freebase-এ থাকা প্রতিটি তথ্য রয়েছে। |
| 22 জিবি জিজিপ 250 জিবি আনকম্প্রেসড |
RDF ডেটা N-Triples ফর্ম্যাট ব্যবহার করে সিরিয়ালাইজ করা হয়, UTF-8 টেক্সট হিসাবে এনকোড করা হয় এবং Gzip দিয়ে সংকুচিত হয়।
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
আপনি যদি RDF ডাম্প পার্স করার জন্য আপনার নিজের কোড লিখছেন তবে প্রথমে ডেটা বের করে এবং তারপরে সংকুচিত ডেটা প্রক্রিয়া করার পরিবর্তে GZip ফাইল থেকে সরাসরি পড়তে এটি আরও দক্ষ।
<subject> <predicate> <object> .
দ্রষ্টব্য: ফ্রিবেসে, অবজেক্টের MID আছে যা দেখতে /m/012rkqx
এর মতো। RDF-এ সেই MIDগুলি m.012rkqx হয়ে যায়। একইভাবে, ফ্রীবেস স্কিমা যেমন /common/topic
লেখা হয় common.topic
হিসাবে।
বিষয় হল একটি Freebase অবজেক্টের ID। এটি বিষয় এবং CVT-এর জন্য একটি Freebase MID (উদাঃ m.012rkqx) অথবা স্কিমার জন্য একটি মানব-পঠনযোগ্য আইডি (উদাঃ. common.topic
) হতে পারে।
ফ্রিবেস প্রপার্টি বা RDFS- এর মতো স্ট্যান্ডার্ড RDF শব্দভান্ডার থেকে প্রিডিকেট সবসময় একটি মানব-পাঠযোগ্য আইডি। ফ্রিবেস বিদেশী কী নেমস্পেসগুলিও নেমস্পেস দ্বারা কীগুলি সন্ধান করা সহজ করার জন্য পূর্বাভাস হিসাবে ব্যবহৃত হয়।
অবজেক্ট ফিল্ডে একটি অবজেক্টের জন্য একটি Freebase MID বা Freebase বা অন্যান্য RDF শব্দভান্ডার থেকে স্কিমার জন্য একটি মানব-পাঠযোগ্য ID থাকতে পারে। এটি স্ট্রিং, বুলিয়ান এবং সংখ্যাসূচক মানগুলির মতো আক্ষরিক মানগুলিও অন্তর্ভুক্ত করতে পারে।
বিষয়ের বর্ণনায় প্রায়ই নতুন লাইন থাকে। প্রতিটি ট্রিপলকে এক লাইনে মানানসই করার জন্য, আমরা "\n" দিয়ে নতুন লাইন এড়িয়ে গেছি।
Freebase মুছে ফেলা Triples
আমরা ট্রিপলগুলির একটি ডাম্পও সরবরাহ করি যা সময়ের সাথে সাথে Freebase থেকে মুছে ফেলা হয়েছে। এটি মার্চ 2013 পর্যন্ত একটি এককালীন ডাম্প৷ ভবিষ্যতে, আমরা সম্প্রতি মুছে ফেলা ট্রিপলগুলির পর্যায়ক্রমিক আপডেটগুলি প্রদান করার কথা বিবেচনা করতে পারি, কিন্তু এই মুহুর্তে এটি করার জন্য আমাদের কোন নির্দিষ্ট সময়সীমা নেই, এবং শুধুমাত্র এই এককালীন ডাম্প প্রদান করছি৷
ডাম্পটি একটি .tar.gz ফাইল হিসাবে বিতরণ করা হয় (2.1Gb সংকুচিত, 7.7Gb আনকম্প্রেসড)। এটিতে 20টি ফাইলের মধ্যে 63,036,271টি মুছে ফেলা ট্রিপল রয়েছে (ব্যক্তিগত ফাইলগুলির কোনও বিশেষ অর্থ নেই, একটি বিশাল ফাইলের চেয়ে বেশ কয়েকটি ছোট ফাইল ম্যানিপুলেট করা সহজ)।
এই তথ্য প্রকাশ সম্ভব করার জন্য চুন হাউ ট্যান এবং জন জিয়ানান্দ্রিয়াকে ধন্যবাদ।
2 জিবি জিজিপ 8 জিবি আনকম্প্রেসড |
ডেটা বিন্যাসটি মূলত একটি গুরুত্বপূর্ণ সতর্কতা সহ CSV। অবজেক্ট ফিল্ডে কমা সহ যেকোন অক্ষর থাকতে পারে (পাশাপাশি অন্য কোন যুক্তিসঙ্গত ডিলিমিটার যা আপনি ভাবতে পারেন)। যাইহোক, অন্যান্য সমস্ত ক্ষেত্রে কমা না থাকার গ্যারান্টি দেওয়া হয়, তাই ডেটা এখনও দ্ব্যর্থহীনভাবে পার্স করা যেতে পারে।
ডেটাসেটের কলামগুলি এইভাবে সংজ্ঞায়িত করা হয়েছে:
- সৃষ্টি_টাইমস্ট্যাম্প (মিলিসেকেন্ডে ইউনিক্স যুগের সময়)
- সৃষ্টিকর্তা
- deletion_timestamp (মিলিসেকেন্ডে ইউনিক্স যুগের সময়)
- অপসারণকারী
- বিষয় (MID)
- পূর্বাভাস (MID)
- বস্তু (MID/আক্ষরিক)
- ভাষা_কোড
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
ফ্রিবেস/উইকিডেটা ম্যাপিং
তথ্যটি 28 অক্টোবর, 2013-এর উইকিডাটা-ডাম্পের উপর ভিত্তি করে তৈরি করা হয়েছে এবং এতে কেবলমাত্র সেই লিঙ্কগুলি রয়েছে যেগুলিতে কমপক্ষে দুটি সাধারণ উইকিপিডিয়া-লিঙ্ক রয়েছে এবং একটিও অসম্মত উইকিপিডিয়া-লিঙ্ক নেই। তদুপরি, লাইনগুলি সাধারণ উইকিপিডিয়া-লিঙ্কগুলির সংখ্যা অনুসারে বাছাই করা হয়েছে (যদিও টার্টলে এটি সত্যিই গুরুত্বপূর্ণ নয়)। |
| 21.2 এমবি জিজিপ 242.9 MB আনকম্প্রেসড |
RDF ডেটা N-Triples ফর্ম্যাট ব্যবহার করে সিরিয়ালাইজ করা হয়, UTF-8 টেক্সট হিসাবে এনকোড করা হয় এবং Gzip দিয়ে সংকুচিত হয়।
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
লাইসেন্স
ফ্রিবেস ডেটা ডাম্পগুলি Google দ্বারা নিয়মিত আপডেট সহ যেকোনো উদ্দেশ্যে বিনামূল্যে প্রদান করা হয়। এগুলি ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন (ওরফে CC-BY) এর অধীনে Freebase-এর মতোই বিতরণ করা হয় এবং ব্যবহার পরিষেবার শর্তাবলী সাপেক্ষে৷ ফ্রিবেস/উইকিডাটা আইডি ম্যাপিংগুলি CC0 এর অধীনে প্রদান করা হয় এবং সীমাবদ্ধতা ছাড়াই ব্যবহার করা যেতে পারে।
উদ্ধৃতি
আপনি যদি একটি প্রকাশনায় এই ডেটা ডাম্পগুলিকে উদ্ধৃত করতে চান তবে আপনি ব্যবহার করতে পারেন:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
বা BibTeX হিসাবে:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }