এম্বেডিং: একটি নিম্ন-মাত্রিক স্থানে অনুবাদ করা

একটি এম্বেডিং একটি অপেক্ষাকৃত নিম্ন-মাত্রিক স্থান যেখানে আপনি উচ্চ-মাত্রিক ভেক্টর অনুবাদ করতে পারেন। উচ্চ-মাত্রিক বনাম নিম্ন-মাত্রিক ডেটার আলোচনার জন্য, ক্যাটেগরিক্যাল ডেটা মডিউলটি দেখুন।

এমবেডিংগুলি বৃহৎ বৈশিষ্ট্য ভেক্টরগুলিতে মেশিন লার্নিং করা সহজ করে তোলে, যেমন স্পার্স ভেক্টর পূর্ববর্তী বিভাগে আলোচনা করা খাবারের আইটেমগুলিকে উপস্থাপন করে৷ আদর্শভাবে, একটি এমবেডিং ইনপুটগুলির কিছু শব্দার্থকে ক্যাপচার করে যেগুলি এমবেডিং স্পেসে একত্রে কাছাকাছি থাকা অর্থে একই রকম। উদাহরণস্বরূপ, একটি ভাল এম্বেডিং "কার" শব্দটিকে "হাতি" এর চেয়ে "গ্যারেজ" এর কাছাকাছি রাখবে। একটি এমবেডিং প্রশিক্ষিত এবং মডেল জুড়ে পুনরায় ব্যবহার করা যেতে পারে।

এম্বেডিং ভেক্টরগুলি কীভাবে তথ্য উপস্থাপন করে তার একটি ধারণা দিতে, "অন্তত স্যান্ডউইচের মতো" থেকে "অধিকাংশ স্যান্ডউইচের মতো" স্কেলে হট ডগ , পিৎজা , সালাদ , শাওয়ার্মা এবং বোর্শট খাবারের একটি মাত্রিক উপস্থাপনা বিবেচনা করুন। " "স্যান্ডউইচনেস" হল একক মাত্রা।

চিত্র 3. স্যান্ডউইচনেসের একটি অক্ষ বরাবর, কমপক্ষে থেকে বেশিরভাগ পর্যন্ত: বোর্শট, সালাদ, পিৎজা, হট ডগ, শাওয়ারমা।
চিত্র 3. "স্যান্ডউইচনেস" এর একটি কল্পিত মাত্রা বরাবর খাবার।

এই লাইনে একটি আপেল স্ট্রডেল কোথায় পড়বে? তর্কাতীতভাবে, এটি hot dog এবং shawarma মধ্যে স্থাপন করা যেতে পারে। কিন্তু আপেল স্ট্রুডেলও মিষ্টির একটি অতিরিক্ত মাত্রা (খাবার কতটা মিষ্টি) বা ডেজার্টনেস (খাবার কতটা ডেজার্টের মতো) আছে বলে মনে হয় যা এটিকে অন্যান্য বিকল্প থেকে খুব আলাদা করে তোলে। নিম্নলিখিত চিত্রটি একটি "ডেজার্টনেস" মাত্রা যোগ করে এটিকে কল্পনা করে:

চিত্র 4. আগের মতই একই চিত্র, কিন্তু মিষ্টির উল্লম্ব অক্ষ সহ। অ্যাপল স্ট্রডেল হট ডগ এবং শাওয়ার্মার মধ্যে কিন্তু অনুভূমিক অক্ষের উপরে, কিন্তু ডেজার্টনেস অক্ষের উপরে।
চিত্র 4. "স্যান্ডউইচনেস" এবং "ডেজার্টনেস" উভয় দ্বারা প্লট করা খাবার।

একটি এমবেডিং প্রতিটি আইটেমকে n- মাত্রিক স্থানের মধ্যে n ফ্লোটিং-পয়েন্ট সংখ্যার সাথে প্রতিনিধিত্ব করে (সাধারণত -1 থেকে 1 বা 0 থেকে 1 পর্যন্ত পরিসরে)। উদাহরণস্বরূপ, চিত্র 4 এ এমবেডিং দুটি স্থানাঙ্ক সহ দ্বি-মাত্রিক স্থানে প্রতিটি খাবারের আইটেমকে উপস্থাপন করে। আইটেম "আপেল স্ট্রুডেল" গ্রাফের উপরের-ডান চতুর্ভুজটিতে রয়েছে এবং বিন্দু বরাদ্দ করা যেতে পারে (0.5, 0.3), যেখানে "হট ডগ" গ্রাফের নীচে-ডান চতুর্ভুজটিতে রয়েছে এবং বিন্দু বরাদ্দ করা যেতে পারে ( 0.2, –0.5)।

একটি এমবেডিং-এ, যেকোনো দুটি আইটেমের মধ্যে দূরত্ব গাণিতিকভাবে গণনা করা যেতে পারে, এবং সেই দুটি আইটেমের আপেক্ষিক মিল হিসাবে ব্যাখ্যা করা যেতে পারে। দুটি জিনিস যা একে অপরের কাছাকাছি, যেমন চিত্র 4-এ shawarma এবং hot dog , দুটি জিনিস একে অপরের থেকে অনেক বেশি দূরের, যেমন apple strudel এবং borscht চেয়ে বেশি ঘনিষ্ঠভাবে সম্পর্কিত।

আরও লক্ষ্য করুন যে চিত্র 4-এর 2D স্পেসে, apple strudel shawarma এবং hot dog থেকে 1D স্পেসের চেয়ে অনেক বেশি দূরে, যা অন্তর্দৃষ্টির সাথে মেলে: apple strudel হট ডগ বা শাওয়ারমা হট ডগের মতো নয়। এবং shawarmas একে অপরের হয়.

এখন বোর্শট বিবেচনা করুন, যা অন্যান্য আইটেমগুলির তুলনায় অনেক বেশি তরল। এটি একটি তৃতীয় মাত্রার পরামর্শ দেয়, তরলতা (খাবার কতটা তরল)। সেই মাত্রা যোগ করে, আইটেমগুলিকে এইভাবে 3D তে ভিজ্যুয়ালাইজ করা যেতে পারে:

চিত্র 5. আগের মতই একই চিত্র, কিন্তু তরলতার তৃতীয় অক্ষের সাথে অন্য দুটি অর্থোগোনাল, এবং বোর্শট সেই অক্ষ বরাবর অনেক দূরে সরে গেছে।
চিত্র 5. "স্যান্ডউইচনেস", "ডেজার্টনেস" এবং "তরলতা" দ্বারা প্লট করা খাবার।

এই 3D স্পেসে ট্যাংইয়ুয়ান কোথায় যাবে? এটি স্যুপি, বোর্শটের মতো, এবং একটি মিষ্টি ডেজার্ট, আপেল স্ট্রডেলের মতো, এবং অবশ্যই একটি স্যান্ডউইচ নয়। এখানে একটি সম্ভাব্য স্থান নির্ধারণ করা হয়েছে:

চিত্র 6. আগের মতই একই চিত্র, কিন্তু ট্যাংইয়ুয়ান এর সাথে মিষ্টান্ন এবং তরলতা উচ্চ এবং স্যান্ডউইচনেস কম।
চিত্র 6. আগের ছবিতে ট্যাংইয়ুয়ান যুক্ত করা হচ্ছে, "ডেজার্টনেস" এবং "তরলতা" বেশি এবং "স্যান্ডউইচনেস" কম।

এই তিনটি মাত্রায় কত তথ্য প্রকাশ করা হয়েছে লক্ষ্য করুন। আপনি অতিরিক্ত মাত্রা কল্পনা করতে পারেন, যেমন মাংসলতা বা বেকডনেস

বাস্তব-বিশ্ব এম্বেডিং স্পেস

আপনি উপরের খাবারের উদাহরণগুলিতে যেমন দেখেছেন, এমনকি একটি ছোট বহুমাত্রিক স্থান শব্দার্থগতভাবে অনুরূপ আইটেমগুলিকে একত্রে গোষ্ঠীবদ্ধ করার এবং ভিন্ন ভিন্ন আইটেমগুলিকে দূরে রাখার স্বাধীনতা প্রদান করে। ভেক্টর স্পেসে অবস্থান (দূরত্ব এবং দিক) একটি ভাল এমবেডিংয়ে শব্দার্থবিদ্যা এনকোড করতে পারে। উদাহরণ স্বরূপ, বাস্তব এম্বেডিংয়ের নিম্নলিখিত ভিজ্যুয়ালাইজেশনগুলি একটি দেশ এবং এর রাজধানী শব্দগুলির মধ্যে জ্যামিতিক সম্পর্ককে চিত্রিত করে৷ আপনি দেখতে পাচ্ছেন যে "কানাডা" থেকে "অটোয়া" এর দূরত্ব "তুরস্ক" থেকে "আঙ্কারা" এর দূরত্বের সমান।

চিত্র 7. শব্দ এম্বেডিংয়ের তিনটি উদাহরণ যা জ্যামিতিকভাবে শব্দের সম্পর্ককে উপস্থাপন করে: লিঙ্গ (পুরুষ/মহিলা এবং রাজা/রানী প্রায় একই দৈর্ঘ্য), ক্রিয়া কাল (হাঁটা/হাঁটা এবং সাঁতার কাটা/সাঁতারের দৈর্ঘ্য প্রায় একই), এবং রাজধানী শহর (তুরস্ক/আঙ্কারা এবং ভিয়েতনাম/হানয় প্রায় একই দৈর্ঘ্য)।
চিত্র 7 । এমবেডিংগুলি অসাধারণ উপমা তৈরি করতে পারে।

একটি অর্থপূর্ণ এমবেডিং স্পেস একটি মেশিন লার্নিং মডেলকে প্রশিক্ষণের সময় প্যাটার্ন সনাক্ত করতে সহায়তা করে।

ব্যায়াম

এই অনুশীলনে, আপনি এম্বেডিং প্রজেক্টর টুল ব্যবহার করবেন word2vec নামক একটি শব্দ এমবেডিং কল্পনা করতে যা ভেক্টর স্পেসে সংখ্যাগতভাবে 70,000 টিরও বেশি ইংরেজি শব্দ উপস্থাপন করে।

টাস্ক 1

নিম্নলিখিত কাজগুলি সম্পাদন করুন, এবং তারপর নীচের প্রশ্নের উত্তর দিন।

  1. এমবেডিং প্রজেক্টর টুল খুলুন।

  2. ডান প্যানেলে, অনুসন্ধান ক্ষেত্রে শব্দ পরমাণু লিখুন। তারপর নিচের ফলাফল থেকে শব্দ পরমাণু ক্লিক করুন ( 4 ম্যাচের নিচে)। আপনার পর্দা চিত্র 8 এর মত হওয়া উচিত।

    চিত্র 8. এম্বেডিং প্রজেক্টর টুলের স্ক্রিনশট, সার্চ ফিল্ডে 'এটম' প্রবেশ করানো হয়েছে (লাল বৃত্তাকারে)। টুলের কেন্দ্রে ভিজ্যুয়ালাইজেশন এখন 'পরমাণু' শব্দের সাথে একটি বিন্দু টীকা করে এবং কাছাকাছি বিন্দুর জন্য শব্দ টীকা যোগ করে। 'নিকটতম পয়েন্ট' তালিকায়, 'পরমাণু', 'অণু' এবং 'ইলেক্ট্রন' শব্দগুলি ভেক্টর স্পেসের 'পরমাণুর' নিকটতম শব্দ হিসাবে তালিকাভুক্ত করা হয়েছে।
    চিত্র 8 । এম্বেডিং প্রজেক্টর টুল, সার্চ ফিল্ডে "এটম" শব্দ যোগ করা হয়েছে (লাল বৃত্তাকারে)।
  3. আবার, ডান প্যানেলে, পরমাণুর নিকটতম 100 শব্দ দেখাতে আইসোলেট 101 পয়েন্ট বোতামে ক্লিক করুন ( অনুসন্ধান ক্ষেত্রের উপরে)। আপনার পর্দা চিত্র 9 এর মত হওয়া উচিত।

    চিত্র 9. এম্বেডিং প্রজেক্টর টুলের স্ক্রিনশট, এখন 'আইসোলেট 101 পয়েন্ট' ক্লিক করা হয়েছে (বোতামটি লাল বৃত্তাকারে)। চিত্র 8 থেকে ভিজ্যুয়ালাইজেশন এখন শুধুমাত্র 'পরমাণু' শব্দ এবং ভেক্টর স্পেসে 100টি নিকটতম শব্দ প্রদর্শন করার জন্য আপডেট করা হয়েছে, যার মধ্যে 'পরমাণু', 'নিউক্লিয়াস' এবং 'কণা' শব্দ রয়েছে।
    চিত্র 9 । এম্বেডিং প্রজেক্টর টুল, এখন "আইসোলেট 101 পয়েন্ট" ক্লিক করা হয়েছে (লাল বৃত্তাকারে)।

এখন, মূল স্থানের নিকটবর্তী পয়েন্টের অধীনে তালিকাভুক্ত শব্দগুলি পর্যালোচনা করুন। আপনি এই শব্দগুলি কিভাবে বর্ণনা করবেন?

আমাদের উত্তরের জন্য এখানে ক্লিক করুন

বেশিরভাগ নিকটতম শব্দগুলি হল শব্দ যা সাধারণত পরমাণু শব্দের সাথে যুক্ত থাকে, যেমন বহুবচন রূপ "পরমাণু," এবং শব্দগুলি "ইলেক্ট্রন," "অণু," এবং "নিউক্লিয়াস"।

টাস্ক 2

নিম্নলিখিত কাজগুলি সম্পাদন করুন এবং তারপরে নীচের প্রশ্নের উত্তর দিন:

  1. টাস্ক 1 থেকে ডেটা ভিজ্যুয়ালাইজেশন রিসেট করতে ডান প্যানেলে সমস্ত ডেটা দেখান বোতামে ক্লিক করুন।

  2. ডান প্যানেলে, অনুসন্ধান ক্ষেত্রে ইউরেনিয়াম শব্দটি লিখুন। আপনার পর্দা চিত্র 10 এর মত হওয়া উচিত।

    চিত্র 10. এম্বেডিং প্রজেক্টর টুলের স্ক্রিনশট, অনুসন্ধান ক্ষেত্রে 'ইউরেনিয়াম' প্রবেশ করানো হয়েছে। টুলের কেন্দ্রে ভিজ্যুয়ালাইজেশন 'ইউরেনিয়াম' শব্দের সাথে একটি পয়েন্টকে টীকা করে এবং কাছাকাছি পয়েন্টগুলির জন্য শব্দ টীকা যোগ করে। 'নিকটতম পয়েন্ট' তালিকায়, 'কয়লা', 'আইসোটোপ', 'নিকেল', 'অক্সাইড', 'ওর', 'জিঙ্ক' এবং 'ম্যাঙ্গানিজ' শব্দগুলি ভেক্টর স্পেসের 'ইউরেনিয়াম'-এর নিকটতম শব্দ হিসেবে তালিকাভুক্ত করা হয়েছে। '
    চিত্র 10 । এম্বেডিং প্রজেক্টর টুল, সার্চ ফিল্ডে "ইউরেনিয়াম" শব্দ যোগ করা হয়েছে।

মূল স্থানের নিকটবর্তী পয়েন্টের অধীনে তালিকাভুক্ত শব্দগুলি পর্যালোচনা করুন। কিভাবে এই শব্দগুলি পরমাণুর নিকটতম শব্দের চেয়ে আলাদা?

আমাদের উত্তরের জন্য এখানে ক্লিক করুন

ইউরেনিয়াম একটি নির্দিষ্ট তেজস্ক্রিয় রাসায়নিক উপাদানকে বোঝায় এবং নিকটতম শব্দগুলির মধ্যে অনেকগুলি অন্যান্য উপাদান, যেমন জিঙ্ক, ম্যাঙ্গানিজ, তামা এবং অ্যালুমিনিয়াম।

টাস্ক 3

নিম্নলিখিত কাজগুলি সম্পাদন করুন এবং তারপরে নীচের প্রশ্নের উত্তর দিন:

  1. টাস্ক 2 থেকে ডেটা ভিজ্যুয়ালাইজেশন রিসেট করতে ডান প্যানেলে সমস্ত ডেটা দেখান বোতামে ক্লিক করুন।

  2. ডান প্যানেলে, অনুসন্ধান ক্ষেত্রে কমলা শব্দটি লিখুন। আপনার পর্দা চিত্র 11 এর মত হওয়া উচিত।

    চিত্র 11. এম্বেডিং প্রজেক্টর টুলের স্ক্রিনশট, অনুসন্ধান ক্ষেত্রে 'কমলা' প্রবেশ করানো হয়েছে। টুলের কেন্দ্রে ভিজ্যুয়ালাইজেশন 'কমলা' শব্দের সাথে একটি পয়েন্টকে টীকা করে এবং কাছাকাছি পয়েন্টগুলির জন্য শব্দ টীকা যোগ করে। 'নিকটতম পয়েন্ট' তালিকায়, 'হলুদ', 'সবুজ', 'নীল', 'বেগুনি' এবং 'রং' শব্দগুলিকে ভেক্টর স্পেসে 'কমলা'-এর নিকটতম শব্দ হিসাবে তালিকাভুক্ত করা হয়েছে।
    চিত্র 11 । প্রজেক্টর টুল এম্বেড করা, অনুসন্ধান ক্ষেত্রে "কমলা" শব্দটি যোগ করা হয়েছে।

মূল স্থানের নিকটবর্তী পয়েন্টের অধীনে তালিকাভুক্ত শব্দগুলি পর্যালোচনা করুন। এখানে দেখানো শব্দের ধরন সম্পর্কে আপনি কী লক্ষ্য করেন এবং এখানে দেখানো হয়নি

আমাদের উত্তরের জন্য এখানে ক্লিক করুন

প্রায় সব নিকটতম শব্দ অন্যান্য রং, যেমন "হলুদ," "সবুজ," "নীল," "বেগুনি," এবং "লাল।" নিকটতম শব্দগুলির মধ্যে শুধুমাত্র একটি ("রস") শব্দের অন্য অর্থ (একটি সাইট্রাস ফল) বোঝায়। অন্যান্য ফল যা আপনি দেখতে আশা করতে পারেন, যেমন "আপেল" এবং "কলা," নিকটতম পদের তালিকা তৈরি করেনি।

এই উদাহরণটি word2vec-এর মতো স্ট্যাটিক এম্বেডিংয়ের মূল ত্রুটিগুলির একটিকে চিত্রিত করে। একটি শব্দের সমস্ত সম্ভাব্য অর্থ ভেক্টর স্থানের একটি একক বিন্দু দ্বারা উপস্থাপিত হয়, তাই আপনি যখন "কমলা" এর জন্য একটি সাদৃশ্য বিশ্লেষণ করেন, তখন শব্দের একটি নির্দিষ্ট বর্ণনার জন্য নিকটতম বিন্দুগুলিকে আলাদা করা সম্ভব নয়, যেমন "কমলা" (ফল) কিন্তু "কমলা" (রঙ) নয়।