আপনার কাছে এখন যেকোনো জোড়া উদাহরণের জন্য এম্বেডিং আছে। একটি তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপ এই এমবেডিংগুলি নেয় এবং তাদের মিল পরিমাপ করে একটি সংখ্যা প্রদান করে। মনে রাখবেন যে এমবেডিং হল সংখ্যার ভেক্টর। দুটি ভেক্টর \(A = [a_1,a_2,...,a_n]\) এবং \(B = [b_1,b_2,...,b_n]\)এর মধ্যে মিল খুঁজে পেতে, এই তিনটি সাদৃশ্য পরিমাপের মধ্যে একটি বেছে নিন:
পরিমাপ করা | অর্থ | সূত্র | সাদৃশ্য বাড়ার সাথে সাথে এই পরিমাপ... |
---|---|---|---|
ইউক্লিডীয় দূরত্ব | ভেক্টরের প্রান্তের মধ্যে দূরত্ব | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | কমে যায় |
কোসাইন | ভেক্টরের মধ্যে কোণ \(\theta\) এর কোসাইন | \(\frac{a^T b}{|a| \cdot |b|}\) | বাড়ে |
বিন্দু পণ্য | কোসাইন উভয় ভেক্টরের দৈর্ঘ্য দ্বারা গুণিত | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | বাড়ে। এছাড়াও ভেক্টরের দৈর্ঘ্যের সাথে বৃদ্ধি পায়। |
একটি সাদৃশ্য পরিমাপ নির্বাচন
কোসাইনের বিপরীতে, ডট পণ্যটি ভেক্টর দৈর্ঘ্যের সমানুপাতিক। এটি গুরুত্বপূর্ণ কারণ যে উদাহরণগুলি প্রশিক্ষণ সেটে খুব ঘন ঘন দেখা যায় (উদাহরণস্বরূপ, জনপ্রিয় ইউটিউব ভিডিও) সেগুলি বড় দৈর্ঘ্যের সাথে এম্বেডিং ভেক্টর থাকে৷আপনি যদি জনপ্রিয়তা পেতে চান, তাহলে ডট প্রোডাক্ট বেছে নিন। যাইহোক, ঝুঁকি হল যে জনপ্রিয় উদাহরণগুলি সাদৃশ্য মেট্রিককে তিরস্কার করতে পারে। এই তির্যক ভারসাম্য রাখতে, আপনি দৈর্ঘ্যকে একটি সূচক \(\alpha\ < 1\) এ বাড়াতে পারেন যাতে ডট পণ্যটিকে \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)হিসাবে গণনা করা যায়।
ভেক্টরের দৈর্ঘ্য কীভাবে সাদৃশ্য পরিমাপকে পরিবর্তন করে তা আরও ভালভাবে বোঝার জন্য, ভেক্টর দৈর্ঘ্যকে 1-এ স্বাভাবিক করুন এবং লক্ষ্য করুন যে তিনটি পরিমাপ একে অপরের সমানুপাতিক হয়ে গেছে।
- ইউক্লিডীয় দূরত্ব = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)।
- ডট পণ্য = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)।
- কোসাইন = \(\cos(\theta_{ab})\)।
সাদৃশ্য ব্যবস্থা পর্যালোচনা
একটি সাদৃশ্য পরিমাপ অন্যান্য জোড়া উদাহরণের সাথে আপেক্ষিক উদাহরণগুলির একটি জোড়ার মধ্যে সাদৃশ্যকে পরিমাপ করে৷ দুটি প্রকার, ম্যানুয়াল এবং তত্ত্বাবধান, নীচে তুলনা করা হয়েছে:
টাইপ | কিভাবে তৈরি করবেন | জন্য সেরা | অন্তর্নিহিততা |
---|---|---|---|
ম্যানুয়াল | ম্যানুয়ালি বৈশিষ্ট্য ডেটা একত্রিত করুন। | একত্রিত করা সহজবোধ্য বৈশিষ্ট্য সহ ছোট ডেটাসেট। | সাদৃশ্য গণনার ফলাফলের অন্তর্দৃষ্টি দেয়। যদি বৈশিষ্ট্য ডেটা পরিবর্তিত হয়, তাহলে আপনাকে অবশ্যই মিলের পরিমাপ ম্যানুয়ালি আপডেট করতে হবে। |
তদারকি করেছে | একটি তত্ত্বাবধানে থাকা DNN দ্বারা উত্পন্ন এমবেডিংগুলির মধ্যে দূরত্ব পরিমাপ করুন৷ | হার্ড-টু-একত্রিত বৈশিষ্ট্য সহ বড় ডেটাসেট। | ফলাফলের কোন অন্তর্দৃষ্টি দেয় না। যাইহোক, একটি DNN স্বয়ংক্রিয়ভাবে বৈশিষ্ট্য ডেটা পরিবর্তনের সাথে মানিয়ে নিতে পারে। |