তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপ

ম্যানুয়ালি-সম্মিলিত বৈশিষ্ট্য ডেটা তুলনা করার পরিবর্তে, আপনি এম্বেডিং নামক উপস্থাপনাগুলিতে বৈশিষ্ট্য ডেটা হ্রাস করতে পারেন, তারপর এম্বেডিংগুলির তুলনা করুন৷ ফিচার ডেটাতেই একটি তত্ত্বাবধান করা গভীর নিউরাল নেটওয়ার্ক ( DNN ) প্রশিক্ষণের মাধ্যমে এমবেডিং তৈরি করা হয়। এম্বেডিংগুলি বৈশিষ্ট্য ডেটার তুলনায় সাধারণত কম মাত্রা সহ একটি এম্বেডিং স্পেসে একটি ভেক্টরে বৈশিষ্ট্য ডেটা ম্যাপ করে। মেশিন লার্নিং ক্র্যাশ কোর্সের এমবেডিং মডিউলে এমবেডিংগুলি নিয়ে আলোচনা করা হয়, যখন নিউরাল নেটগুলি নিউরাল নেট মডিউলে আলোচনা করা হয়। অনুরূপ উদাহরণের জন্য এম্বেডিং ভেক্টর, যেমন একই ব্যবহারকারীদের দ্বারা দেখা অনুরূপ বিষয়গুলিতে YouTube ভিডিও, এমবেডিং স্পেসে একসাথে শেষ হয়৷ একটি তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপ এই "ঘনিষ্ঠতা" ব্যবহার করে উদাহরণের জোড়ার মিলের পরিমাণ নির্ধারণ করতে।

মনে রাখবেন, আমরা শুধুমাত্র আমাদের সাদৃশ্য পরিমাপ তৈরি করতে তত্ত্বাবধানে শিক্ষা নিয়ে আলোচনা করছি। সাদৃশ্য পরিমাপ, ম্যানুয়াল বা তত্ত্বাবধান করা হোক না কেন, তারপর একটি অ্যালগরিদম দ্বারা অ-তত্ত্বাবধান করা ক্লাস্টারিং সঞ্চালনের জন্য ব্যবহার করা হয়।

ম্যানুয়াল এবং তত্ত্বাবধান করা ব্যবস্থার তুলনা

এই টেবিলটি আপনার প্রয়োজনীয়তার উপর নির্ভর করে কখন একটি ম্যানুয়াল বা তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপ ব্যবহার করতে হবে তা বর্ণনা করে।

প্রয়োজনীয়তা ম্যানুয়াল তদারকি করেছে
সম্পর্কযুক্ত বৈশিষ্ট্যে অপ্রয়োজনীয় তথ্য দূর করে? না, আপনাকে বৈশিষ্ট্যগুলির মধ্যে কোনো পারস্পরিক সম্পর্ক তদন্ত করতে হবে। হ্যাঁ, DNN অপ্রয়োজনীয় তথ্য মুছে দেয়।
গণনাকৃত মিলের অন্তর্দৃষ্টি দেয়? হ্যাঁ না, এম্বেডিং পাঠোদ্ধার করা যাবে না।
কয়েকটি বৈশিষ্ট্য সহ ছোট ডেটাসেটের জন্য উপযুক্ত? হ্যাঁ। না, ছোট ডেটাসেটগুলি একটি DNN-এর জন্য পর্যাপ্ত প্রশিক্ষণ ডেটা প্রদান করে না।
অনেক বৈশিষ্ট্য সহ বড় ডেটাসেটের জন্য উপযুক্ত? না, ম্যানুয়ালি একাধিক বৈশিষ্ট্য থেকে অপ্রয়োজনীয় তথ্য মুছে ফেলা এবং তারপর তাদের একত্রিত করা খুব কঠিন। হ্যাঁ, DNN স্বয়ংক্রিয়ভাবে অপ্রয়োজনীয় তথ্য মুছে দেয় এবং বৈশিষ্ট্যগুলিকে একত্রিত করে।

একটি তত্ত্বাবধানে সাদৃশ্য পরিমাপ তৈরি করা

এখানে একটি তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপ তৈরি করার প্রক্রিয়াটির একটি ওভারভিউ রয়েছে:

ইনপুট বৈশিষ্ট্য তথ্য. DNN চয়ন করুন: অটোএনকোডার বা ভবিষ্যদ্বাণীকারী।       এম্বেডিং বের করুন। পরিমাপ চয়ন করুন: ডট পণ্য, কোসাইন, বা ইউক্লিডীয় দূরত্ব।
চিত্র 1: একটি তত্ত্বাবধানে সাদৃশ্য পরিমাপ তৈরি করার পদক্ষেপ।

এই পৃষ্ঠাটি DNN নিয়ে আলোচনা করে, যখন নিম্নলিখিত পৃষ্ঠাগুলি অবশিষ্ট ধাপগুলিকে কভার করে।

প্রশিক্ষণ লেবেল উপর ভিত্তি করে DNN চয়ন করুন

ইনপুট এবং লেবেল উভয় হিসাবে একই বৈশিষ্ট্য ডেটা ব্যবহার করে এমন একটি DNN প্রশিক্ষণের মাধ্যমে আপনার বৈশিষ্ট্য ডেটাকে নিম্ন-মাত্রিক এম্বেডিংয়ে হ্রাস করুন৷ উদাহরণস্বরূপ, বাড়ির ডেটার ক্ষেত্রে, DNN বৈশিষ্ট্যগুলি ব্যবহার করবে - যেমন দাম, আকার এবং পোস্টাল কোড - সেই বৈশিষ্ট্যগুলি নিজেরাই ভবিষ্যদ্বাণী করতে৷

অটোএনকোডার

একটি DNN যা ইনপুট ডেটার ভবিষ্যদ্বাণী করে ইনপুট ডেটার এমবেডিং শেখে তাকে অটোএনকোডার বলা হয়। যেহেতু একটি অটোএনকোডারের লুকানো স্তরগুলি ইনপুট এবং আউটপুট স্তরগুলির চেয়ে ছোট, তাই অটোএনকোডার ইনপুট বৈশিষ্ট্য ডেটার একটি সংকুচিত উপস্থাপনা শিখতে বাধ্য হয়। একবার DNN প্রশিক্ষিত হলে, সাদৃশ্য গণনা করতে ক্ষুদ্রতম লুকানো স্তর থেকে এমবেডিংগুলি বের করুন৷

অভিন্ন ইনপুট এবং আউটপুট ডেটার জন্য প্রচুর সংখ্যক নোড দেখানো একটি চিত্র, যা মাঝখানে তিনটি নোডে সংকুচিত হয়।        পাঁচটি লুকানো স্তরের।
চিত্র 2: অটোএনকোডার আর্কিটেকচার।

ভবিষ্যদ্বাণীকারী

একটি অটোএনকোডার এম্বেডিং তৈরি করার জন্য সবচেয়ে সহজ পছন্দ। যাইহোক, একটি অটোএনকোডার সর্বোত্তম পছন্দ নয় যখন কিছু বৈশিষ্ট্য সাদৃশ্য নির্ধারণে অন্যদের চেয়ে বেশি গুরুত্বপূর্ণ হতে পারে। উদাহরণস্বরূপ, বাড়ির ডেটাতে, অনুমান করুন দাম পোস্টাল কোডের চেয়ে বেশি গুরুত্বপূর্ণ। এই ধরনের ক্ষেত্রে, DNN-এর প্রশিক্ষণ লেবেল হিসাবে শুধুমাত্র গুরুত্বপূর্ণ বৈশিষ্ট্যটি ব্যবহার করুন। যেহেতু এই ডিএনএন সমস্ত ইনপুট বৈশিষ্ট্যের পূর্বাভাস দেওয়ার পরিবর্তে একটি নির্দিষ্ট ইনপুট বৈশিষ্ট্যের পূর্বাভাস দেয়, তাই এটিকে ভবিষ্যদ্বাণীকারী ডিএনএন বলা হয়। এমবেডিংগুলি সাধারণত শেষ এমবেডিং স্তর থেকে বের করা উচিত।

একটি চিত্র যা ইনপুট ভেক্টরে সংখ্যক নোডকে তিনটি লুকানো স্তরের উপর হ্রাস করে একটি তিন-নোড স্তরে দেখা যাচ্ছে যেখান থেকে এমবেডিংগুলি বের করা উচিত৷ শেষ আউটপুট স্তরটি পূর্বাভাসিত লেবেল মান।
চিত্র 3: ভবিষ্যদ্বাণীকারী স্থাপত্য।

লেবেল হতে একটি বৈশিষ্ট্য নির্বাচন করার সময়:

  • শ্রেণীবদ্ধ বৈশিষ্ট্যগুলির জন্য সংখ্যাসূচককে অগ্রাধিকার দিন কারণ সংখ্যাসূচক বৈশিষ্ট্যগুলির জন্য ক্ষতি গণনা করা এবং ব্যাখ্যা করা সহজ।

  • আপনি DNN-এ ইনপুট থেকে লেবেল হিসাবে যে বৈশিষ্ট্যটি ব্যবহার করেন তা সরান, অন্যথায় DNN সেই বৈশিষ্ট্যটি ব্যবহার করে পুরোপুরি আউটপুট পূর্বাভাস দেবে। (এটি লেবেল ফুটো একটি চরম উদাহরণ।)

আপনার পছন্দের লেবেলের উপর নির্ভর করে, ফলস্বরূপ DNN হয় একটি অটোএনকোডার বা একটি ভবিষ্যদ্বাণীকারী।