যেমনটি দেখানো হয়েছে, k- মানে তাদের নিকটতম সেন্ট্রোয়েডের জন্য বিন্দু নির্ধারণ করে। কিন্তু "নিকটতম" মানে কি?
বৈশিষ্ট্য ডেটাতে k-মান প্রয়োগ করার জন্য, আপনাকে একটি সাদৃশ্যের পরিমাপ সংজ্ঞায়িত করতে হবে যা সমস্ত বৈশিষ্ট্য ডেটাকে একটি একক সাংখ্যিক মানের সাথে একত্রিত করে, যাকে ম্যানুয়াল সাদৃশ্য পরিমাপ বলা হয়।
একটি জুতা ডেটাসেট বিবেচনা করুন. যদি সেই ডেটাসেটের একমাত্র বৈশিষ্ট্য হিসাবে জুতার আকার থাকে, তাহলে আপনি দুটি জুতার আকারের পার্থক্যের ক্ষেত্রে সাদৃশ্য নির্ধারণ করতে পারেন। আকারের মধ্যে সংখ্যাগত পার্থক্য যত কম, জুতার মধ্যে মিল তত বেশি।
যদি সেই জুতার ডেটাসেটে দুটি সংখ্যাসূচক বৈশিষ্ট্য থাকে, আকার এবং মূল্য, তাহলে আপনি সেগুলিকে একটি একক সংখ্যায় একত্রিত করতে পারেন যা সাদৃশ্যের প্রতিনিধিত্ব করে৷ প্রথমে ডেটা স্কেল করুন যাতে উভয় বৈশিষ্ট্য তুলনীয় হয়:
- আকার (গুলি): জুতার আকার সম্ভবত একটি গাউসিয়ান বিতরণ গঠন করে। এটি নিশ্চিত করুন। তারপর ডেটা স্বাভাবিক করুন।
- মূল্য (পি): ডেটা সম্ভবত একটি পয়সন বিতরণ। এটি নিশ্চিত করুন। আপনার যদি পর্যাপ্ত ডেটা থাকে তবে ডেটাকে কোয়ান্টাইলে রূপান্তর করুন এবং স্কেল করুন \([0,1]\).
এর পরে, রুট গড় বর্গক্ষেত্র ত্রুটি (RMSE) গণনা করে দুটি বৈশিষ্ট্য একত্রিত করুন। সাদৃশ্য এই রুক্ষ পরিমাপ দ্বারা দেওয়া হয়\(\sqrt{\frac{(s_i - s_j)^2+(p_i - p_j)^2}{2}}\).
একটি সাধারণ উদাহরণের জন্য, ইউএস সাইজ 8 এবং 11, এবং দাম 120 এবং 150 এর সাথে দুটি জুতার মিল গণনা করুন। যেহেতু আমাদের কাছে বিতরণ বোঝার জন্য পর্যাপ্ত ডেটা নেই, তাই আমরা কোয়ান্টাইলগুলি স্বাভাবিককরণ বা ব্যবহার না করেই ডেটা স্কেল করব।
অ্যাকশন | পদ্ধতি |
---|---|
আকার স্কেল. | সর্বাধিক সম্ভাব্য জুতার আকার 20 অনুমান করুন। 0.4 এবং 0.55 পেতে 8 এবং 11 কে সর্বাধিক আকার 20 দ্বারা ভাগ করুন। |
দাম স্কেল করুন। | 0.8 এবং 1 পেতে 120 এবং 150 কে সর্বোচ্চ মূল্য 150 দ্বারা ভাগ করুন। |
আকার পার্থক্য খুঁজুন. | \(0.55 - 0.4 = 0.15\) |
দামের পার্থক্য খুঁজুন। | \(1 - 0.8 = 0.2\) |
RMSE গণনা করুন। | \(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\) |
স্বজ্ঞাতভাবে, বৈশিষ্ট্যের ডেটা আরও বেশি অনুরূপ হলে আপনার মিলের পরিমাপ বাড়তে হবে। পরিবর্তে, আপনার সাদৃশ্য পরিমাপ (RMSE) আসলে হ্রাস পায়। 1 থেকে বিয়োগ করে আপনার সাদৃশ্য পরিমাপকে আপনার অন্তর্দৃষ্টি অনুসরণ করুন।
\[\text{Similarity} = 1 - 0.17 = 0.83\]
সাধারণভাবে, আপনি প্রিপেয়ার ডাটা এ বর্ণিত সাংখ্যিক তথ্য প্রস্তুত করতে পারেন, তারপর ইউক্লিডীয় দূরত্ব ব্যবহার করে ডেটা একত্রিত করুন।
যদি সেই ডেটাসেটে জুতার আকার এবং জুতার রঙ উভয়ই অন্তর্ভুক্ত থাকে? কালার হল ক্যাটাগরিকাল ডেটা , যা মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করার ক্ষেত্রে আলোচনা করা হয়েছে। শ্রেণীগত ডেটা সংখ্যাসূচক আকারের ডেটার সাথে একত্রিত করা কঠিন। এটা হতে পারে:
- একক-মূল্যবান (সর্বস্ব), যেমন একটি গাড়ির রঙ ("সাদা" বা "নীল" কিন্তু উভয়ই নয়)
- বহু-মূল্যবান (মাল্টিভালেন্ট), যেমন একটি মুভির জেনার (একটি সিনেমা "অ্যাকশন" এবং "কমেডি" উভয়ই হতে পারে বা শুধুমাত্র "অ্যাকশন" হতে পারে)
যদি সমতুল্য ডেটা মিলে যায়, উদাহরণস্বরূপ দুটি জোড়া নীল জুতার ক্ষেত্রে, উদাহরণগুলির মধ্যে মিল 1 হয়৷ অন্যথায়, মিল 0 হয়৷
মুভি জেনারের মত মাল্টিভ্যালেন্ট ডেটার সাথে কাজ করা কঠিন। যদি সিনেমার ধরণগুলির একটি নির্দিষ্ট সেট থাকে, তাহলে সাধারণ মানের অনুপাত ব্যবহার করে সাদৃশ্য গণনা করা যেতে পারে, যাকে জ্যাকার্ড সাদৃশ্য বলা হয়। জ্যাকার্ডের মিলের উদাহরণ গণনা:
- [“কমেডি”,”অ্যাকশন”] এবং [“কমেডি”,”অ্যাকশন”] = 1
- [“কমেডি”,”অ্যাকশন”] এবং [“অ্যাকশন”] = ½
- [“কমেডি”,”অ্যাকশন”] এবং [“অ্যাকশন”, “ড্রামা”] = ⅓
- [“কমেডি”,”অ্যাকশন”] এবং [“নন-ফিকশন”,”জীবনীমূলক”] = ০
জ্যাকার্ডের সাদৃশ্য শ্রেণীবদ্ধ ডেটার জন্য একমাত্র সম্ভাব্য ম্যানুয়াল সাদৃশ্য পরিমাপ নয়। আরও দুটি উদাহরণ:
- ইউক্লিডীয় দূরত্ব গণনা করার আগে ডাক কোডগুলিকে অক্ষাংশ এবং দ্রাঘিমাংশে রূপান্তর করা যেতে পারে।
- রঙকে সাংখ্যিক RGB মানগুলিতে রূপান্তরিত করা যেতে পারে, মানগুলির পার্থক্যগুলি ইউক্লিডীয় দূরত্বে মিলিত হয়।
আরও জানতে শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করা দেখুন।
সাধারণভাবে, একটি ম্যানুয়াল সাদৃশ্য পরিমাপ সরাসরি প্রকৃত মিলের সাথে মিলিত হতে হবে। যদি আপনার নির্বাচিত মেট্রিক না করে, তাহলে আপনি যে তথ্যটি এনকোড করতে চান সেটি এনকোড করছে না।
একটি সাদৃশ্য পরিমাপ গণনা করার আগে সাবধানে আপনার ডেটা প্রি-প্রসেস করুন। এই পৃষ্ঠায় উদাহরণ সরলীকৃত করা হয়. বেশিরভাগ বাস্তব-বিশ্বের ডেটাসেট বড় এবং জটিল। পূর্বে উল্লিখিত হিসাবে, সংখ্যাসূচক ডেটা প্রক্রিয়াকরণের জন্য কোয়ান্টাইল একটি ভাল ডিফল্ট পছন্দ।
ডেটার জটিলতা বাড়ার সাথে সাথে একটি ম্যানুয়াল সাদৃশ্য পরিমাপ তৈরি করা কঠিন হয়ে পড়ে। সেই পরিস্থিতিতে, একটি তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপে স্যুইচ করুন, যেখানে একটি তত্ত্বাবধানে থাকা মেশিন লার্নিং মডেল মিল গণনা করে৷ এটি পরে আরো বিস্তারিত আলোচনা করা হবে.
,যেমনটি দেখানো হয়েছে, k- মানে তাদের নিকটতম সেন্ট্রোয়েডের জন্য বিন্দু নির্ধারণ করে। কিন্তু "নিকটতম" মানে কি?
বৈশিষ্ট্য ডেটাতে k-মান প্রয়োগ করার জন্য, আপনাকে একটি সাদৃশ্যের পরিমাপ সংজ্ঞায়িত করতে হবে যা সমস্ত বৈশিষ্ট্য ডেটাকে একটি একক সাংখ্যিক মানের সাথে একত্রিত করে, যাকে ম্যানুয়াল সাদৃশ্য পরিমাপ বলা হয়।
একটি জুতা ডেটাসেট বিবেচনা করুন. যদি সেই ডেটাসেটের একমাত্র বৈশিষ্ট্য হিসাবে জুতার আকার থাকে, তাহলে আপনি দুটি জুতার আকারের পার্থক্যের ক্ষেত্রে সাদৃশ্য নির্ধারণ করতে পারেন। আকারের মধ্যে সংখ্যাগত পার্থক্য যত কম, জুতাগুলির মধ্যে সাদৃশ্য তত বেশি।
যদি সেই জুতার ডেটাসেটে দুটি সংখ্যাসূচক বৈশিষ্ট্য থাকে, আকার এবং মূল্য, তাহলে আপনি সেগুলিকে একটি একক সংখ্যায় একত্রিত করতে পারেন যা সাদৃশ্যের প্রতিনিধিত্ব করে৷ প্রথমে ডেটা স্কেল করুন যাতে উভয় বৈশিষ্ট্য তুলনীয় হয়:
- আকার (গুলি): জুতার আকার সম্ভবত একটি গাউসিয়ান বিতরণ গঠন করে। এটি নিশ্চিত করুন। তারপর ডেটা স্বাভাবিক করুন।
- মূল্য (পি): ডেটা সম্ভবত একটি পয়সন বিতরণ। এটি নিশ্চিত করুন। আপনার যদি পর্যাপ্ত ডেটা থাকে তবে ডেটাকে কোয়ান্টাইলে রূপান্তর করুন এবং স্কেল করুন \([0,1]\).
এর পরে, রুট গড় বর্গক্ষেত্র ত্রুটি (RMSE) গণনা করে দুটি বৈশিষ্ট্য একত্রিত করুন। সাদৃশ্য এই রুক্ষ পরিমাপ দ্বারা দেওয়া হয়\(\sqrt{\frac{(s_i - s_j)^2+(p_i - p_j)^2}{2}}\).
একটি সাধারণ উদাহরণের জন্য, ইউএস সাইজ 8 এবং 11, এবং দাম 120 এবং 150 এর সাথে দুটি জুতার মিল গণনা করুন। যেহেতু আমাদের কাছে বিতরণ বোঝার জন্য পর্যাপ্ত ডেটা নেই, তাই আমরা কোয়ান্টাইলগুলি স্বাভাবিককরণ বা ব্যবহার না করেই ডেটা স্কেল করব।
অ্যাকশন | পদ্ধতি |
---|---|
আকার স্কেল. | সর্বাধিক সম্ভাব্য জুতার আকার 20 অনুমান করুন। 0.4 এবং 0.55 পেতে 8 এবং 11 কে সর্বাধিক আকার 20 দ্বারা ভাগ করুন। |
দাম স্কেল করুন। | 0.8 এবং 1 পেতে 120 এবং 150 কে সর্বোচ্চ মূল্য 150 দ্বারা ভাগ করুন। |
আকার পার্থক্য খুঁজুন. | \(0.55 - 0.4 = 0.15\) |
দামের পার্থক্য খুঁজুন। | \(1 - 0.8 = 0.2\) |
RMSE গণনা করুন। | \(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\) |
স্বজ্ঞাতভাবে, বৈশিষ্ট্যের ডেটা আরও বেশি অনুরূপ হলে আপনার মিলের পরিমাপ বাড়তে হবে। পরিবর্তে, আপনার সাদৃশ্য পরিমাপ (RMSE) আসলে হ্রাস পায়। 1 থেকে বিয়োগ করে আপনার সাদৃশ্য পরিমাপকে আপনার অন্তর্দৃষ্টি অনুসরণ করুন।
\[\text{Similarity} = 1 - 0.17 = 0.83\]
সাধারণভাবে, আপনি প্রিপেয়ার ডাটা এ বর্ণিত সাংখ্যিক তথ্য প্রস্তুত করতে পারেন, তারপর ইউক্লিডীয় দূরত্ব ব্যবহার করে ডেটা একত্রিত করুন।
যদি সেই ডেটাসেটে জুতার আকার এবং জুতার রঙ উভয়ই অন্তর্ভুক্ত থাকে? কালার হল ক্যাটাগরিকাল ডেটা , যা মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করার ক্ষেত্রে আলোচনা করা হয়েছে। শ্রেণীগত ডেটা সংখ্যাসূচক আকারের ডেটার সাথে একত্রিত করা কঠিন। এটা হতে পারে:
- একক-মূল্যবান (সর্বস্ব), যেমন একটি গাড়ির রঙ ("সাদা" বা "নীল" কিন্তু উভয়ই নয়)
- বহু-মূল্যবান (মাল্টিভালেন্ট), যেমন একটি মুভির জেনার (একটি সিনেমা "অ্যাকশন" এবং "কমেডি" উভয়ই হতে পারে বা শুধুমাত্র "অ্যাকশন" হতে পারে)
যদি সমতুল্য ডেটা মিলে যায়, উদাহরণস্বরূপ দুটি জোড়া নীল জুতার ক্ষেত্রে, উদাহরণগুলির মধ্যে মিল 1 হয়৷ অন্যথায়, মিল 0 হয়৷
মুভি জেনারের মত মাল্টিভ্যালেন্ট ডেটার সাথে কাজ করা কঠিন। যদি সিনেমার ধরণগুলির একটি নির্দিষ্ট সেট থাকে, তাহলে সাধারণ মানের অনুপাত ব্যবহার করে সাদৃশ্য গণনা করা যেতে পারে, যাকে জ্যাকার্ড সাদৃশ্য বলা হয়। জ্যাকার্ডের মিলের উদাহরণ গণনা:
- [“কমেডি”,”অ্যাকশন”] এবং [“কমেডি”,”অ্যাকশন”] = 1
- [“কমেডি”,”অ্যাকশন”] এবং [“অ্যাকশন”] = ½
- [“কমেডি”,”অ্যাকশন”] এবং [“অ্যাকশন”, “ড্রামা”] = ⅓
- [“কমেডি”,”অ্যাকশন”] এবং [“নন-ফিকশন”,”জীবনীমূলক”] = ০
জ্যাকার্ডের সাদৃশ্য শ্রেণীবদ্ধ ডেটার জন্য একমাত্র সম্ভাব্য ম্যানুয়াল সাদৃশ্য পরিমাপ নয়। আরও দুটি উদাহরণ:
- ইউক্লিডীয় দূরত্ব গণনা করার আগে ডাক কোডগুলিকে অক্ষাংশ এবং দ্রাঘিমাংশে রূপান্তর করা যেতে পারে।
- রঙকে সাংখ্যিক RGB মানগুলিতে রূপান্তরিত করা যেতে পারে, মানগুলির পার্থক্যগুলি ইউক্লিডীয় দূরত্বে মিলিত হয়।
আরও জানতে শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করা দেখুন।
সাধারণভাবে, একটি ম্যানুয়াল সাদৃশ্য পরিমাপ সরাসরি প্রকৃত মিলের সাথে মিলিত হতে হবে। যদি আপনার নির্বাচিত মেট্রিক না করে, তাহলে আপনি যে তথ্যটি এনকোড করতে চান সেটি এনকোড করছে না।
একটি সাদৃশ্য পরিমাপ গণনা করার আগে সাবধানে আপনার ডেটা প্রি-প্রসেস করুন। এই পৃষ্ঠায় উদাহরণ সরলীকৃত করা হয়. বেশিরভাগ বাস্তব-বিশ্বের ডেটাসেট বড় এবং জটিল। পূর্বে উল্লিখিত হিসাবে, সংখ্যাসূচক ডেটা প্রক্রিয়াকরণের জন্য কোয়ান্টাইল একটি ভাল ডিফল্ট পছন্দ।
ডেটার জটিলতা বাড়ার সাথে সাথে একটি ম্যানুয়াল সাদৃশ্য পরিমাপ তৈরি করা কঠিন হয়ে পড়ে। সেই পরিস্থিতিতে, একটি তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপে স্যুইচ করুন, যেখানে একটি তত্ত্বাবধানে থাকা মেশিন লার্নিং মডেল মিল গণনা করে৷ এটি পরে আরো বিস্তারিত আলোচনা করা হবে.
,যেমনটি দেখানো হয়েছে, k- মানে তাদের নিকটতম সেন্ট্রোয়েডের জন্য বিন্দু নির্ধারণ করে। কিন্তু "নিকটতম" মানে কি?
বৈশিষ্ট্য ডেটাতে k-মান প্রয়োগ করার জন্য, আপনাকে একটি সাদৃশ্যের পরিমাপ সংজ্ঞায়িত করতে হবে যা সমস্ত বৈশিষ্ট্য ডেটাকে একটি একক সাংখ্যিক মানের সাথে একত্রিত করে, যাকে ম্যানুয়াল সাদৃশ্য পরিমাপ বলা হয়।
একটি জুতা ডেটাসেট বিবেচনা করুন. যদি সেই ডেটাসেটের একমাত্র বৈশিষ্ট্য হিসাবে জুতার আকার থাকে, তাহলে আপনি দুটি জুতার আকারের পার্থক্যের ক্ষেত্রে সাদৃশ্য নির্ধারণ করতে পারেন। আকারের মধ্যে সংখ্যাগত পার্থক্য যত কম, জুতাগুলির মধ্যে সাদৃশ্য তত বেশি।
যদি সেই জুতার ডেটাসেটে দুটি সংখ্যাসূচক বৈশিষ্ট্য থাকে, আকার এবং মূল্য, তাহলে আপনি সেগুলিকে একটি একক সংখ্যায় একত্রিত করতে পারেন যা সাদৃশ্যের প্রতিনিধিত্ব করে৷ প্রথমে ডেটা স্কেল করুন যাতে উভয় বৈশিষ্ট্য তুলনীয় হয়:
- আকার (গুলি): জুতার আকার সম্ভবত একটি গাউসিয়ান বিতরণ গঠন করে। এটি নিশ্চিত করুন। তারপর ডেটা স্বাভাবিক করুন।
- মূল্য (পি): ডেটা সম্ভবত একটি পয়সন বিতরণ। এটি নিশ্চিত করুন। আপনার যদি পর্যাপ্ত ডেটা থাকে তবে ডেটাকে কোয়ান্টাইলে রূপান্তর করুন এবং স্কেল করুন \([0,1]\).
এর পরে, রুট গড় বর্গক্ষেত্র ত্রুটি (RMSE) গণনা করে দুটি বৈশিষ্ট্য একত্রিত করুন। সাদৃশ্য এই রুক্ষ পরিমাপ দ্বারা দেওয়া হয়\(\sqrt{\frac{(s_i - s_j)^2+(p_i - p_j)^2}{2}}\).
একটি সাধারণ উদাহরণের জন্য, ইউএস সাইজ 8 এবং 11, এবং দাম 120 এবং 150 এর সাথে দুটি জুতার মিল গণনা করুন। যেহেতু আমাদের কাছে বিতরণ বোঝার জন্য পর্যাপ্ত ডেটা নেই, তাই আমরা কোয়ান্টাইলগুলি স্বাভাবিককরণ বা ব্যবহার না করেই ডেটা স্কেল করব।
অ্যাকশন | পদ্ধতি |
---|---|
আকার স্কেল. | সর্বাধিক সম্ভাব্য জুতার আকার 20 অনুমান করুন। 0.4 এবং 0.55 পেতে 8 এবং 11 কে সর্বাধিক আকার 20 দ্বারা ভাগ করুন। |
দাম স্কেল করুন। | 0.8 এবং 1 পেতে 120 এবং 150 কে সর্বোচ্চ মূল্য 150 দ্বারা ভাগ করুন। |
আকার পার্থক্য খুঁজুন. | \(0.55 - 0.4 = 0.15\) |
দামের পার্থক্য খুঁজুন। | \(1 - 0.8 = 0.2\) |
RMSE গণনা করুন। | \(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\) |
স্বজ্ঞাতভাবে, বৈশিষ্ট্যের ডেটা আরও বেশি অনুরূপ হলে আপনার মিলের পরিমাপ বাড়তে হবে। পরিবর্তে, আপনার সাদৃশ্য পরিমাপ (RMSE) আসলে হ্রাস পায়। 1 থেকে বিয়োগ করে আপনার সাদৃশ্য পরিমাপকে আপনার অন্তর্দৃষ্টি অনুসরণ করুন।
\[\text{Similarity} = 1 - 0.17 = 0.83\]
সাধারণভাবে, আপনি প্রিপেয়ার ডাটা এ বর্ণিত সাংখ্যিক তথ্য প্রস্তুত করতে পারেন, তারপর ইউক্লিডীয় দূরত্ব ব্যবহার করে ডেটা একত্রিত করুন।
যদি সেই ডেটাসেটে জুতার আকার এবং জুতার রঙ উভয়ই অন্তর্ভুক্ত থাকে? কালার হল ক্যাটাগরিকাল ডেটা , যা মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করার ক্ষেত্রে আলোচনা করা হয়েছে। শ্রেণীগত ডেটা সংখ্যাসূচক আকারের ডেটার সাথে একত্রিত করা কঠিন। এটা হতে পারে:
- একক-মূল্যবান (সর্বস্ব), যেমন একটি গাড়ির রঙ ("সাদা" বা "নীল" কিন্তু উভয়ই নয়)
- বহু-মূল্যবান (মাল্টিভালেন্ট), যেমন একটি মুভির জেনার (একটি সিনেমা "অ্যাকশন" এবং "কমেডি" উভয়ই হতে পারে বা শুধুমাত্র "অ্যাকশন" হতে পারে)
যদি সমতুল্য ডেটা মিলে যায়, উদাহরণস্বরূপ দুটি জোড়া নীল জুতার ক্ষেত্রে, উদাহরণগুলির মধ্যে মিল 1 হয়৷ অন্যথায়, মিল 0 হয়৷
মুভি জেনারের মত মাল্টিভ্যালেন্ট ডেটার সাথে কাজ করা কঠিন। যদি সিনেমার ধরণগুলির একটি নির্দিষ্ট সেট থাকে, তাহলে সাধারণ মানের অনুপাত ব্যবহার করে সাদৃশ্য গণনা করা যেতে পারে, যাকে জ্যাকার্ড সাদৃশ্য বলা হয়। জ্যাকার্ডের মিলের উদাহরণ গণনা:
- [“কমেডি”,”অ্যাকশন”] এবং [“কমেডি”,”অ্যাকশন”] = 1
- [“কমেডি”,”অ্যাকশন”] এবং [“অ্যাকশন”] = ½
- [“কমেডি”,”অ্যাকশন”] এবং [“অ্যাকশন”, “ড্রামা”] = ⅓
- [“কমেডি”,”অ্যাকশন”] এবং [“নন-ফিকশন”,”জীবনীমূলক”] = ০
জ্যাকার্ডের সাদৃশ্য শ্রেণীবদ্ধ ডেটার জন্য একমাত্র সম্ভাব্য ম্যানুয়াল সাদৃশ্য পরিমাপ নয়। আরও দুটি উদাহরণ:
- ইউক্লিডীয় দূরত্ব গণনা করার আগে ডাক কোডগুলিকে অক্ষাংশ এবং দ্রাঘিমাংশে রূপান্তর করা যেতে পারে।
- রঙকে সাংখ্যিক RGB মানগুলিতে রূপান্তরিত করা যেতে পারে, মানগুলির পার্থক্যগুলি ইউক্লিডীয় দূরত্বে মিলিত হয়।
আরও জানতে শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করা দেখুন।
সাধারণভাবে, একটি ম্যানুয়াল সাদৃশ্য পরিমাপ সরাসরি প্রকৃত মিলের সাথে মিলিত হতে হবে। যদি আপনার নির্বাচিত মেট্রিক না করে, তাহলে আপনি যে তথ্যটি এনকোড করতে চান সেটি এনকোড করছে না।
একটি সাদৃশ্য পরিমাপ গণনা করার আগে সাবধানে আপনার ডেটা প্রি-প্রসেস করুন। এই পৃষ্ঠায় উদাহরণ সরলীকৃত করা হয়. বেশিরভাগ বাস্তব-বিশ্বের ডেটাসেট বড় এবং জটিল। পূর্বে উল্লিখিত হিসাবে, সংখ্যাসূচক ডেটা প্রক্রিয়াকরণের জন্য কোয়ান্টাইল একটি ভাল ডিফল্ট পছন্দ।
ডেটার জটিলতা বাড়ার সাথে সাথে একটি ম্যানুয়াল সাদৃশ্য পরিমাপ তৈরি করা কঠিন হয়ে পড়ে। সেই পরিস্থিতিতে, একটি তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপে স্যুইচ করুন, যেখানে একটি তত্ত্বাবধানে থাকা মেশিন লার্নিং মডেল মিল গণনা করে৷ এটি পরে আরো বিস্তারিত আলোচনা করা হবে.
,যেমনটি দেখানো হয়েছে, k- মানে তাদের নিকটতম সেন্ট্রোয়েডের জন্য বিন্দু নির্ধারণ করে। কিন্তু "নিকটতম" মানে কি?
বৈশিষ্ট্য ডেটাতে k-মান প্রয়োগ করার জন্য, আপনাকে একটি সাদৃশ্যের পরিমাপ সংজ্ঞায়িত করতে হবে যা সমস্ত বৈশিষ্ট্য ডেটাকে একটি একক সাংখ্যিক মানের সাথে একত্রিত করে, যাকে ম্যানুয়াল সাদৃশ্য পরিমাপ বলা হয়।
একটি জুতা ডেটাসেট বিবেচনা করুন. যদি সেই ডেটাসেটের একমাত্র বৈশিষ্ট্য হিসাবে জুতার আকার থাকে, তাহলে আপনি দুটি জুতার আকারের পার্থক্যের ক্ষেত্রে সাদৃশ্য নির্ধারণ করতে পারেন। আকারের মধ্যে সংখ্যাগত পার্থক্য যত কম, জুতার মধ্যে মিল তত বেশি।
যদি সেই জুতার ডেটাসেটে দুটি সংখ্যাসূচক বৈশিষ্ট্য থাকে, আকার এবং মূল্য, তাহলে আপনি সেগুলিকে একটি একক সংখ্যায় একত্রিত করতে পারেন যা সাদৃশ্যের প্রতিনিধিত্ব করে৷ প্রথমে ডেটা স্কেল করুন যাতে উভয় বৈশিষ্ট্য তুলনীয় হয়:
- আকার (গুলি): জুতার আকার সম্ভবত একটি গাউসিয়ান বিতরণ গঠন করে। এটি নিশ্চিত করুন। তারপর ডেটা স্বাভাবিক করুন।
- মূল্য (পি): ডেটা সম্ভবত একটি পয়সন বিতরণ। এটি নিশ্চিত করুন। আপনার যদি পর্যাপ্ত ডেটা থাকে তবে ডেটাকে কোয়ান্টাইলে রূপান্তর করুন এবং স্কেল করুন \([0,1]\).
এর পরে, রুট গড় বর্গক্ষেত্র ত্রুটি (RMSE) গণনা করে দুটি বৈশিষ্ট্য একত্রিত করুন। সাদৃশ্য এই রুক্ষ পরিমাপ দ্বারা দেওয়া হয়\(\sqrt{\frac{(s_i - s_j)^2+(p_i - p_j)^2}{2}}\).
একটি সাধারণ উদাহরণের জন্য, ইউএস সাইজ 8 এবং 11, এবং দাম 120 এবং 150 এর সাথে দুটি জুতার মিল গণনা করুন। যেহেতু আমাদের কাছে বিতরণ বোঝার জন্য পর্যাপ্ত ডেটা নেই, তাই আমরা কোয়ান্টাইলগুলি স্বাভাবিককরণ বা ব্যবহার না করেই ডেটা স্কেল করব।
অ্যাকশন | পদ্ধতি |
---|---|
আকার স্কেল. | সর্বাধিক সম্ভাব্য জুতার আকার 20 অনুমান করুন। 0.4 এবং 0.55 পেতে 8 এবং 11 কে সর্বাধিক আকার 20 দ্বারা ভাগ করুন। |
দাম স্কেল করুন। | 0.8 এবং 1 পেতে 120 এবং 150 কে সর্বোচ্চ মূল্য 150 দ্বারা ভাগ করুন। |
আকার পার্থক্য খুঁজুন. | \(0.55 - 0.4 = 0.15\) |
দামের পার্থক্য খুঁজুন। | \(1 - 0.8 = 0.2\) |
RMSE গণনা করুন। | \(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\) |
স্বজ্ঞাতভাবে, বৈশিষ্ট্যের ডেটা আরও বেশি অনুরূপ হলে আপনার মিলের পরিমাপ বাড়তে হবে। পরিবর্তে, আপনার সাদৃশ্য পরিমাপ (RMSE) আসলে হ্রাস পায়। 1 থেকে বিয়োগ করে আপনার সাদৃশ্য পরিমাপকে আপনার অন্তর্দৃষ্টি অনুসরণ করুন।
\[\text{Similarity} = 1 - 0.17 = 0.83\]
সাধারণভাবে, আপনি প্রিপেয়ার ডাটা এ বর্ণিত সাংখ্যিক তথ্য প্রস্তুত করতে পারেন, তারপর ইউক্লিডীয় দূরত্ব ব্যবহার করে ডেটা একত্রিত করুন।
যদি সেই ডেটাসেটে জুতার আকার এবং জুতার রঙ উভয়ই অন্তর্ভুক্ত থাকে? কালার হল ক্যাটাগরিকাল ডেটা , যা মেশিন লার্নিং ক্র্যাশ কোর্সে শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করার ক্ষেত্রে আলোচনা করা হয়েছে। শ্রেণীগত ডেটা সংখ্যাসূচক আকারের ডেটার সাথে একত্রিত করা কঠিন। এটা হতে পারে:
- একক-মূল্যবান (সর্বস্ব), যেমন একটি গাড়ির রঙ ("সাদা" বা "নীল" কিন্তু উভয়ই নয়)
- বহু-মূল্যবান (মাল্টিভালেন্ট), যেমন একটি মুভির জেনার (একটি সিনেমা "অ্যাকশন" এবং "কমেডি" উভয়ই হতে পারে বা শুধুমাত্র "অ্যাকশন" হতে পারে)
যদি সমতুল্য ডেটা মিলে যায়, উদাহরণস্বরূপ দুটি জোড়া নীল জুতার ক্ষেত্রে, উদাহরণগুলির মধ্যে মিল 1 হয়৷ অন্যথায়, মিল 0 হয়৷
মুভি জেনারের মত মাল্টিভ্যালেন্ট ডেটার সাথে কাজ করা কঠিন। যদি সিনেমার ধরণগুলির একটি নির্দিষ্ট সেট থাকে, তাহলে সাধারণ মানের অনুপাত ব্যবহার করে সাদৃশ্য গণনা করা যেতে পারে, যাকে জ্যাকার্ড সাদৃশ্য বলা হয়। জ্যাকার্ডের মিলের উদাহরণ গণনা:
- [“কমেডি”,”অ্যাকশন”] এবং [“কমেডি”,”অ্যাকশন”] = 1
- [“কমেডি”,”অ্যাকশন”] এবং [“অ্যাকশন”] = ½
- [“কমেডি”,”অ্যাকশন”] এবং [“অ্যাকশন”, “ড্রামা”] = ⅓
- [“কমেডি”,”অ্যাকশন”] এবং [“নন-ফিকশন”,”জীবনীমূলক”] = ০
জ্যাকার্ডের সাদৃশ্য শ্রেণীবদ্ধ ডেটার জন্য একমাত্র সম্ভাব্য ম্যানুয়াল সাদৃশ্য পরিমাপ নয়। আরও দুটি উদাহরণ:
- ইউক্লিডীয় দূরত্ব গণনা করার আগে ডাক কোডগুলিকে অক্ষাংশ এবং দ্রাঘিমাংশে রূপান্তর করা যেতে পারে।
- রঙকে সাংখ্যিক RGB মানগুলিতে রূপান্তরিত করা যেতে পারে, মানগুলির পার্থক্যগুলি ইউক্লিডীয় দূরত্বে মিলিত হয়।
আরও জানতে শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করা দেখুন।
সাধারণভাবে, একটি ম্যানুয়াল সাদৃশ্য পরিমাপ সরাসরি প্রকৃত মিলের সাথে মিলিত হতে হবে। যদি আপনার নির্বাচিত মেট্রিক না করে, তাহলে আপনি যে তথ্যটি এনকোড করতে চান সেটি এনকোড করছে না।
একটি সাদৃশ্য পরিমাপ গণনা করার আগে সাবধানে আপনার ডেটা প্রি-প্রসেস করুন। এই পৃষ্ঠায় উদাহরণ সরলীকৃত করা হয়. বেশিরভাগ বাস্তব-বিশ্বের ডেটাসেট বড় এবং জটিল। পূর্বে উল্লিখিত হিসাবে, সংখ্যাসূচক ডেটা প্রক্রিয়াকরণের জন্য কোয়ান্টাইল একটি ভাল ডিফল্ট পছন্দ।
ডেটার জটিলতা বাড়ার সাথে সাথে একটি ম্যানুয়াল সাদৃশ্য পরিমাপ তৈরি করা কঠিন হয়ে পড়ে। সেই পরিস্থিতিতে, একটি তত্ত্বাবধানে থাকা সাদৃশ্য পরিমাপে স্যুইচ করুন, যেখানে একটি তত্ত্বাবধানে থাকা মেশিন লার্নিং মডেল মিল গণনা করে৷ এটি পরে আরো বিস্তারিত আলোচনা করা হবে.