তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপ

ম্যানুয়ালি-সম্মিলিত বৈশিষ্ট্য ডেটা তুলনা করার পরিবর্তে, আপনি এম্বেডিং নামক উপস্থাপনাগুলিতে বৈশিষ্ট্য ডেটা হ্রাস করতে পারেন, তারপর এম্বেডিংগুলির তুলনা করুন৷ ফিচার ডেটাতেই একটি তত্ত্বাবধান করা গভীর নিউরাল নেটওয়ার্ক ( DNN ) প্রশিক্ষণের মাধ্যমে এমবেডিং তৈরি করা হয়। এম্বেডিংগুলি বৈশিষ্ট্য ডেটার তুলনায় সাধারণত কম মাত্রা সহ একটি এম্বেডিং স্পেসে একটি ভেক্টরে বৈশিষ্ট্য ডেটা ম্যাপ করে। মেশিন লার্নিং ক্র্যাশ কোর্সের এমবেডিং মডিউলে এমবেডিংগুলি নিয়ে আলোচনা করা হয়, যখন নিউরাল নেটগুলি নিউরাল নেট মডিউলে আলোচনা করা হয়। অনুরূপ উদাহরণের জন্য এম্বেডিং ভেক্টর, যেমন একই ব্যবহারকারীদের দ্বারা দেখা অনুরূপ বিষয়গুলিতে YouTube ভিডিও, এমবেডিং স্পেসে একসাথে শেষ হয়৷ একটি তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপ এই "ঘনিষ্ঠতা" ব্যবহার করে উদাহরণের জোড়ার মিলের পরিমাণ নির্ধারণ করতে।

মনে রাখবেন, আমরা শুধুমাত্র আমাদের সাদৃশ্য পরিমাপ তৈরি করতে তত্ত্বাবধানে শিক্ষা নিয়ে আলোচনা করছি। সাদৃশ্য পরিমাপ, ম্যানুয়াল বা তত্ত্বাবধান করা হোক না কেন, তারপর একটি অ্যালগরিদম দ্বারা অ-তত্ত্বাবধান করা ক্লাস্টারিং সঞ্চালনের জন্য ব্যবহার করা হয়।

ম্যানুয়াল এবং তত্ত্বাবধান করা ব্যবস্থার তুলনা

এই টেবিলটি আপনার প্রয়োজনীয়তার উপর নির্ভর করে কখন একটি ম্যানুয়াল বা তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপ ব্যবহার করতে হবে তা বর্ণনা করে।

প্রয়োজনীয়তা ম্যানুয়াল তদারকি করেছে
সম্পর্কযুক্ত বৈশিষ্ট্যে অপ্রয়োজনীয় তথ্য দূর করে? না, আপনাকে বৈশিষ্ট্যগুলির মধ্যে কোনো পারস্পরিক সম্পর্ক তদন্ত করতে হবে। হ্যাঁ, DNN অপ্রয়োজনীয় তথ্য মুছে দেয়।
গণনাকৃত মিলের অন্তর্দৃষ্টি দেয়? হ্যাঁ না, এম্বেডিং পাঠোদ্ধার করা যাবে না।
কয়েকটি বৈশিষ্ট্য সহ ছোট ডেটাসেটের জন্য উপযুক্ত? হ্যাঁ। না, ছোট ডেটাসেটগুলি একটি DNN-এর জন্য পর্যাপ্ত প্রশিক্ষণ ডেটা প্রদান করে না।
অনেক বৈশিষ্ট্য সহ বড় ডেটাসেটের জন্য উপযুক্ত? না, ম্যানুয়ালি একাধিক বৈশিষ্ট্য থেকে অপ্রয়োজনীয় তথ্য মুছে ফেলা এবং তারপর তাদের একত্রিত করা খুব কঠিন। হ্যাঁ, DNN স্বয়ংক্রিয়ভাবে অপ্রয়োজনীয় তথ্য মুছে দেয় এবং বৈশিষ্ট্যগুলিকে একত্রিত করে।

একটি তত্ত্বাবধানে সাদৃশ্য পরিমাপ তৈরি করা

এখানে একটি তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপ তৈরি করার প্রক্রিয়াটির একটি ওভারভিউ রয়েছে:

ইনপুট বৈশিষ্ট্য তথ্য. DNN চয়ন করুন: অটোএনকোডার বা ভবিষ্যদ্বাণীকারী।       এম্বেডিং বের করুন। পরিমাপ চয়ন করুন: ডট পণ্য, কোসাইন, বা       ইউক্লিডীয় দূরত্ব।
চিত্র 1: একটি তত্ত্বাবধানে সাদৃশ্য পরিমাপ তৈরি করার পদক্ষেপ।

এই পৃষ্ঠাটি DNN নিয়ে আলোচনা করে, যখন নিম্নলিখিত পৃষ্ঠাগুলি অবশিষ্ট ধাপগুলিকে কভার করে।

প্রশিক্ষণ লেবেল উপর ভিত্তি করে DNN চয়ন করুন

ইনপুট এবং লেবেল উভয় হিসাবে একই বৈশিষ্ট্য ডেটা ব্যবহার করে এমন একটি DNN প্রশিক্ষণের মাধ্যমে আপনার বৈশিষ্ট্য ডেটাকে নিম্ন-মাত্রিক এম্বেডিংয়ে হ্রাস করুন৷ উদাহরণস্বরূপ, বাড়ির ডেটার ক্ষেত্রে, DNN বৈশিষ্ট্যগুলি ব্যবহার করবে - যেমন দাম, আকার এবং পোস্টাল কোড - সেই বৈশিষ্ট্যগুলি নিজেরাই ভবিষ্যদ্বাণী করতে৷

অটোএনকোডার

একটি DNN যা ইনপুট ডেটার ভবিষ্যদ্বাণী করে ইনপুট ডেটার এমবেডিং শেখে তাকে অটোএনকোডার বলা হয়। যেহেতু একটি অটোএনকোডারের লুকানো স্তরগুলি ইনপুট এবং আউটপুট স্তরগুলির চেয়ে ছোট, তাই অটোএনকোডার ইনপুট বৈশিষ্ট্য ডেটার একটি সংকুচিত উপস্থাপনা শিখতে বাধ্য হয়। একবার DNN প্রশিক্ষিত হলে, সাদৃশ্য গণনা করতে ক্ষুদ্রতম লুকানো স্তর থেকে এমবেডিংগুলি বের করুন৷

অভিন্ন জন্য নোড একটি বড় সংখ্যা দেখাচ্ছে একটি চিত্র        ইনপুট এবং আউটপুট ডেটা, যা মাঝখানে তিনটি নোডে সংকুচিত হয়।        পাঁচটি লুকানো স্তরের।
চিত্র 2: অটোএনকোডার আর্কিটেকচার।

ভবিষ্যদ্বাণীকারী

একটি অটোএনকোডার এম্বেডিং তৈরি করার জন্য সবচেয়ে সহজ পছন্দ। যাইহোক, একটি অটোএনকোডার সর্বোত্তম পছন্দ নয় যখন কিছু বৈশিষ্ট্য সাদৃশ্য নির্ধারণে অন্যদের চেয়ে বেশি গুরুত্বপূর্ণ হতে পারে। উদাহরণস্বরূপ, বাড়ির ডেটাতে, অনুমান করুন দাম পোস্টাল কোডের চেয়ে বেশি গুরুত্বপূর্ণ। এই ধরনের ক্ষেত্রে, DNN-এর প্রশিক্ষণ লেবেল হিসাবে শুধুমাত্র গুরুত্বপূর্ণ বৈশিষ্ট্যটি ব্যবহার করুন। যেহেতু এই ডিএনএন সমস্ত ইনপুট বৈশিষ্ট্যের পূর্বাভাস দেওয়ার পরিবর্তে একটি নির্দিষ্ট ইনপুট বৈশিষ্ট্যের পূর্বাভাস দেয়, তাই এটিকে ভবিষ্যদ্বাণীকারী ডিএনএন বলা হয়। এমবেডিংগুলি সাধারণত শেষ এমবেডিং স্তর থেকে বের করা উচিত।

ইনপুট ভেক্টরে বড় সংখ্যক নোড দেখানো একটি চিত্র        তিনটি লুকানো স্তর থেকে একটি তিন-নোড স্তরে হ্রাস করা হচ্ছে        এমবেডিং বের করা উচিত। শেষ আউটপুট স্তর পূর্বাভাস হয়        লেবেল মান।
চিত্র 3: ভবিষ্যদ্বাণীকারী স্থাপত্য।

লেবেল হতে একটি বৈশিষ্ট্য নির্বাচন করার সময়:

  • শ্রেণীবদ্ধ বৈশিষ্ট্যগুলির জন্য সংখ্যাসূচককে অগ্রাধিকার দিন কারণ সংখ্যাসূচক বৈশিষ্ট্যগুলির জন্য ক্ষতি গণনা করা এবং ব্যাখ্যা করা সহজ।

  • আপনি DNN-এ ইনপুট থেকে লেবেল হিসাবে যে বৈশিষ্ট্যটি ব্যবহার করেন তা সরান, অন্যথায় DNN সেই বৈশিষ্ট্যটি ব্যবহার করে পুরোপুরি আউটপুট পূর্বাভাস দেবে। (এটি লেবেল ফুটো একটি চরম উদাহরণ।)

আপনার পছন্দের লেবেলের উপর নির্ভর করে, ফলস্বরূপ DNN হয় একটি অটোএনকোডার বা একটি ভবিষ্যদ্বাণীকারী।