এম্বেডিং থেকে সাদৃশ্য পরিমাপ

আপনার কাছে এখন যেকোনো জোড়া উদাহরণের জন্য এম্বেডিং আছে। একটি তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপ এই এমবেডিংগুলি নেয় এবং তাদের মিল পরিমাপ করে একটি সংখ্যা প্রদান করে। মনে রাখবেন যে এমবেডিং হল সংখ্যার ভেক্টর। দুটি ভেক্টরের মধ্যে মিল খুঁজে বের করতে A=[a1,a2,...,an] এবং B=[b1,b2,...,bn], এই তিনটি সাদৃশ্য পরিমাপের মধ্যে একটি বেছে নিন:

পরিমাপ অর্থ সূত্র সাদৃশ্য বাড়ার সাথে সাথে এই পরিমাপ...
ইউক্লিডীয় দূরত্ব ভেক্টরের প্রান্তের মধ্যে দূরত্ব(a1b1)2+(a2b2)2+...+(aNbN)2 কমে যায়
কোসাইন কোণের কোসাইন θ ভেক্টরের মধ্যেaTb|a||b| বাড়ে
ডট পণ্য কোসাইন উভয় ভেক্টরের দৈর্ঘ্য দ্বারা গুণিত a1b1+a2b2+...+anbn =|a||b|cos(θ) বাড়ে। এছাড়াও ভেক্টরের দৈর্ঘ্যের সাথে বৃদ্ধি পায়।

একটি সাদৃশ্য পরিমাপ নির্বাচন

কোসাইনের বিপরীতে, ডট পণ্যটি ভেক্টর দৈর্ঘ্যের সমানুপাতিক। এটি গুরুত্বপূর্ণ কারণ যে উদাহরণগুলি প্রশিক্ষণ সেটে খুব ঘন ঘন দেখা যায় (উদাহরণস্বরূপ, জনপ্রিয় ইউটিউব ভিডিও) সেগুলি বড় দৈর্ঘ্যের সাথে এম্বেডিং ভেক্টর থাকে৷আপনি জনপ্রিয়তা ক্যাপচার করতে চান, তারপর ডট পণ্য নির্বাচন করুন. যাইহোক, ঝুঁকি হল যে জনপ্রিয় উদাহরণগুলি সাদৃশ্য মেট্রিককে তিরস্কার করতে পারে। এই তির্যক ভারসাম্য রাখতে, আপনি দৈর্ঘ্যকে সূচকে বাড়াতে পারেন α <1 ডট পণ্য হিসাবে গণনা করতে |a|α|b|αcos(θ).

ভেক্টরের দৈর্ঘ্য কীভাবে সাদৃশ্য পরিমাপকে পরিবর্তন করে তা আরও ভালভাবে বোঝার জন্য, ভেক্টর দৈর্ঘ্যকে 1-এ স্বাভাবিক করুন এবং লক্ষ্য করুন যে তিনটি পরিমাপ একে অপরের সমানুপাতিক হয়ে গেছে।

প্রমাণ: সাদৃশ্য ব্যবস্থার সমানুপাতিকতা
a এবং b কে স্বাভাবিক করার পর এমন ||a||=1 এবং ||b||=1, এই তিনটি ব্যবস্থার সাথে সম্পর্কিত:
  • ইউক্লিডীয় দূরত্ব = ||ab||=||a||2+||b||22aTb=22cos(θab).
  • ডট পণ্য = |a||b|cos(θab)=11cos(θab)=cos(θab).
  • কোসাইন = cos(θab).
এইভাবে, তিনটি সাদৃশ্য পরিমাপ সমতুল্য কারণ তারা সমানুপাতিক cos(θab).

সাদৃশ্য ব্যবস্থা পর্যালোচনা

একটি সাদৃশ্য পরিমাপ অন্যান্য জোড়া উদাহরণের সাথে আপেক্ষিক উদাহরণগুলির একটি জোড়ার মধ্যে সাদৃশ্যকে পরিমাপ করে৷ দুটি প্রকার, ম্যানুয়াল এবং তত্ত্বাবধান, নীচে তুলনা করা হয়েছে:

টাইপ কিভাবে তৈরি করতে হয় জন্য সেরা অন্তর্নিহিততা
ম্যানুয়াল ম্যানুয়ালি বৈশিষ্ট্য ডেটা একত্রিত করুন। একত্রিত করা সহজবোধ্য বৈশিষ্ট্য সহ ছোট ডেটাসেট। সাদৃশ্য গণনার ফলাফলের অন্তর্দৃষ্টি দেয়। যদি বৈশিষ্ট্য ডেটা পরিবর্তিত হয়, তাহলে আপনাকে অবশ্যই মিলের পরিমাপ ম্যানুয়ালি আপডেট করতে হবে।
তদারকি করেছে একটি তত্ত্বাবধানে থাকা DNN দ্বারা উত্পন্ন এমবেডিংগুলির মধ্যে দূরত্ব পরিমাপ করুন৷ হার্ড-টু-একত্রিত বৈশিষ্ট্য সহ বড় ডেটাসেট। ফলাফলের কোন অন্তর্দৃষ্টি দেয় না। যাইহোক, একটি DNN স্বয়ংক্রিয়ভাবে বৈশিষ্ট্য ডেটা পরিবর্তনের সাথে মানিয়ে নিতে পারে।