প্রার্থী প্রজন্ম সুপারিশের প্রথম পর্যায়। একটি প্রশ্ন দেওয়া হলে, সিস্টেম প্রাসঙ্গিক প্রার্থীদের একটি সেট তৈরি করে। নিম্নলিখিত সারণী দুটি সাধারণ প্রার্থী প্রজন্মের পন্থা দেখায়:
টাইপ | সংজ্ঞা | উদাহরণ |
---|---|---|
বিষয়বস্তু-ভিত্তিক ফিল্টারিং | ব্যবহারকারীর পছন্দের অনুরূপ আইটেম সুপারিশ করতে আইটেমগুলির মধ্যে সাদৃশ্য ব্যবহার করে। | ব্যবহারকারী A যদি দুটি সুন্দর বিড়ালের ভিডিও দেখে, তাহলে সিস্টেমটি সেই ব্যবহারকারীকে সুন্দর প্রাণীর ভিডিও সুপারিশ করতে পারে। |
সহযোগীতামূলক বিশোধন | সুপারিশ প্রদানের জন্য একই সাথে ক্যোয়ারী এবং আইটেমের মধ্যে মিল ব্যবহার করে। | যদি ব্যবহারকারী A ব্যবহারকারী B এর মত হয় এবং ব্যবহারকারী B ভিডিও 1 পছন্দ করে, তাহলে সিস্টেম A ব্যবহারকারীকে ভিডিও 1 সুপারিশ করতে পারে (এমনকি যদি ব্যবহারকারী A ভিডিও 1 এর মতো কোনো ভিডিও না দেখে থাকে)। |
স্থান এমবেডিং
উভয় বিষয়বস্তু-ভিত্তিক এবং সহযোগিতামূলক ফিল্টারিং প্রতিটি আইটেম এবং প্রতিটি কোয়েরি (বা প্রসঙ্গ) একটি সাধারণ এমবেডিং স্থানএ এমবেডিং ভেক্টরে ম্যাপ করে। সাধারণত, এম্বেড করার স্থানটি নিম্ন-মাত্রিক (অর্থাৎ, কর্পাসের আকারের চেয়ে অনেক ছোট), এবং আইটেম বা ক্যোয়ারী সেটের কিছু সুপ্ত কাঠামো ক্যাপচার করে। অনুরূপ আইটেম, যেমন ইউটিউব ভিডিও যা সাধারণত একই ব্যবহারকারী দ্বারা দেখা হয়, এমবেডিং স্পেসে একসাথে শেষ হয়৷ "ঘনিষ্ঠতা" ধারণাটি একটি সাদৃশ্য পরিমাপ দ্বারা সংজ্ঞায়িত করা হয়।
সাদৃশ্য ব্যবস্থা
একটি সাদৃশ্য পরিমাপ হল একটি ফাংশন যা একজোড়া এম্বেডিং নেয় এবং তাদের মিল পরিমাপ করে একটি স্কেলার প্রদান করে। এমবেডিংগুলি প্রার্থী তৈরির জন্য নিম্নরূপ ব্যবহার করা যেতে পারে: এম্বেড করার একটি ক্যোয়ারী দেওয়া হলে, সিস্টেমটি আইটেম এমবেডিংগুলির সন্ধান করে যা এর কাছাকাছি, অর্থাৎ উচ্চ মিলের সাথে এমবেডিং ।
সাদৃশ্যের মাত্রা নির্ধারণ করতে, বেশিরভাগ সুপারিশ সিস্টেম নিম্নলিখিতগুলির একটি বা একাধিক উপর নির্ভর করে:
- কোসাইন
- বিন্দু পণ্য
- ইউক্লিডীয় দূরত্ব
কোসাইন
এটি কেবল দুটি ভেক্টরের মধ্যে কোণের কোসাইন,
বিন্দু পণ্য
দুটি ভেক্টরের ডট গুণফল হল। এটি (আদর্শের গুণফল দ্বারা গুণিত কোণের কোসাইন) দ্বারাও দেওয়া হয়। এইভাবে, যদি এমবেডিংগুলি স্বাভাবিক করা হয়, তাহলে ডট-পণ্য এবং কোসাইন মিলে যায়।
ইউক্লিডীয় দূরত্ব
এটি ইউক্লিডীয় স্থানের স্বাভাবিক দূরত্ব, । একটি ছোট দূরত্ব মানে উচ্চ মিল। মনে রাখবেন যে যখন এম্বেডিংগুলি স্বাভাবিক করা হয়, তখন বর্গাকার ইউক্লিডীয় দূরত্ব একটি ধ্রুবক পর্যন্ত ডট-পণ্য (এবং কোসাইন) এর সাথে মিলে যায়, যেহেতু সেই ক্ষেত্রে ।
সাদৃশ্য পরিমাপ তুলনা
ডানদিকের চিত্রে উদাহরণটি বিবেচনা করুন। কালো ভেক্টর ক্যোয়ারী এমবেডিং চিত্রিত করে। অন্য তিনটি এমবেডিং ভেক্টর (আইটেম এ, আইটেম বি, আইটেম সি) প্রার্থী আইটেম প্রতিনিধিত্ব করে। ব্যবহৃত সাদৃশ্য পরিমাপের উপর নির্ভর করে, আইটেমগুলির র্যাঙ্কিং ভিন্ন হতে পারে।
চিত্রটি ব্যবহার করে, তিনটি সাদৃশ্য পরিমাপ ব্যবহার করে আইটেম র্যাঙ্কিং নির্ধারণ করার চেষ্টা করুন: কোসাইন, ডট পণ্য এবং ইউক্লিডীয় দূরত্ব।
উত্তরের চাবিকাঠি
আপনি কিভাবে করেছেন?
আইটেম A-এর সবচেয়ে বড় আদর্শ রয়েছে এবং ডট-প্রোডাক্ট অনুসারে উচ্চতর স্থান দেওয়া হয়েছে। আইটেম C-এর কোয়েরির সাথে সবচেয়ে ছোট কোণ রয়েছে এবং এইভাবে কোসাইন সাদৃশ্য অনুসারে প্রথম স্থান পেয়েছে। আইটেম বি শারীরিকভাবে প্রশ্নের সবচেয়ে কাছাকাছি তাই ইউক্লিডীয় দূরত্ব এটির পক্ষে।
কোন সাদৃশ্য পরিমাপ?
কোসাইনের তুলনায়, ডট পণ্যের সাদৃশ্য এমবেডিংয়ের আদর্শের প্রতি সংবেদনশীল। অর্থাৎ, একটি এম্বেডিংয়ের আদর্শ যত বড় হবে, তত বেশি মিল (একটি তীব্র কোণ সহ আইটেমগুলির জন্য) এবং আইটেমটির সুপারিশ করার সম্ভাবনা তত বেশি। এটি নিম্নরূপ সুপারিশগুলিকে প্রভাবিত করতে পারে:
যে আইটেমগুলি প্রশিক্ষণ সেটে খুব ঘন ঘন প্রদর্শিত হয় (উদাহরণস্বরূপ, জনপ্রিয় ইউটিউব ভিডিওগুলি) সেগুলিতে বড় নিয়মের সাথে এম্বেডিং থাকে৷ যদি জনপ্রিয়তার তথ্য ক্যাপচার করা বাঞ্ছনীয় হয়, তাহলে আপনার ডট পণ্য পছন্দ করা উচিত। যাইহোক, আপনি সতর্ক না হলে, জনপ্রিয় আইটেমগুলি সুপারিশের উপর আধিপত্য বিস্তার করতে পারে। অনুশীলনে, আপনি সাদৃশ্য পরিমাপের অন্যান্য রূপগুলি ব্যবহার করতে পারেন যা আইটেমের আদর্শের উপর কম জোর দেয়। উদাহরণস্বরূপ, কিছু এর জন্য সংজ্ঞায়িত করুন।
খুব কমই দেখা যায় এমন আইটেমগুলি প্রশিক্ষণের সময় ঘন ঘন আপডেট নাও হতে পারে। ফলস্বরূপ, যদি সেগুলি একটি বড় আদর্শের সাথে শুরু করা হয়, তবে সিস্টেমটি আরও প্রাসঙ্গিক আইটেমগুলির চেয়ে বিরল আইটেমগুলির সুপারিশ করতে পারে। এই সমস্যা এড়াতে, এমবেডিং ইনিশিয়ালাইজেশন সম্পর্কে সতর্ক থাকুন, এবং যথাযথ নিয়মিতকরণ ব্যবহার করুন। আমরা প্রথম অনুশীলনে এই সমস্যাটি বিস্তারিত করব।