ক্লাস্টারিং কি?

ধরুন আপনি একটি ডেটাসেটের সাথে কাজ করছেন যাতে একটি স্বাস্থ্যসেবা সিস্টেম থেকে রোগীর তথ্য অন্তর্ভুক্ত থাকে। ডেটাসেটটি জটিল এবং এতে শ্রেণীগত এবং সংখ্যাসূচক উভয় বৈশিষ্ট্যই রয়েছে। আপনি ডেটাসেটে নিদর্শন এবং মিল খুঁজে পেতে চান। আপনি কিভাবে এই টাস্ক যোগাযোগ করতে পারেন?

ক্লাস্টারিং হল একটি তত্ত্বাবধানহীন মেশিন লার্নিং কৌশল যা একে অপরের সাথে তাদের মিলের ভিত্তিতে লেবেলবিহীন উদাহরণগুলিকে গোষ্ঠীভুক্ত করার জন্য ডিজাইন করা হয়েছে। (যদি উদাহরণগুলি লেবেল করা হয়, এই ধরণের গ্রুপিংকে শ্রেণীবিভাগ বলা হয়।) একটি নতুন চিকিত্সা প্রোটোকল মূল্যায়ন করার জন্য ডিজাইন করা একটি অনুমানমূলক রোগীর অধ্যয়ন বিবেচনা করুন। অধ্যয়নের সময়, রোগীরা প্রতি সপ্তাহে কতবার উপসর্গ এবং লক্ষণগুলির তীব্রতা অনুভব করে তা রিপোর্ট করে। গবেষকরা ক্লাস্টারে অনুরূপ চিকিত্সা প্রতিক্রিয়া সহ রোগীদের গ্রুপ করার জন্য ক্লাস্টারিং বিশ্লেষণ ব্যবহার করতে পারেন। চিত্র 1 তিনটি ক্লাস্টারে সিমুলেটেড ডেটার একটি সম্ভাব্য গ্রুপিং প্রদর্শন করে।

বাম দিকে, উপসর্গের তীব্রতা বনাম উপসর্গ গণনার একটি গ্রাফ যা তিনটি ক্লাস্টারের পরামর্শ দেয় এমন ডেটাপয়েন্ট প্রদর্শন করে।    ডানদিকে, একই গ্রাফ কিন্তু তিনটি ক্লাস্টারের প্রতিটি রঙিন।
চিত্র 1: লেবেলবিহীন উদাহরণ তিনটি ক্লাস্টারে বিভক্ত (সিমুলেটেড ডেটা)।

চিত্র 1 এর বামদিকে লেবেলবিহীন ডেটা দেখে আপনি অনুমান করতে পারেন যে ডেটা তিনটি ক্লাস্টার গঠন করে, এমনকি ডেটা পয়েন্টগুলির মধ্যে সাদৃশ্যের একটি আনুষ্ঠানিক সংজ্ঞা ছাড়াই। বাস্তব-বিশ্বের অ্যাপ্লিকেশানগুলিতে, যাইহোক, আপনাকে ডেটাসেটের বৈশিষ্ট্যগুলির পরিপ্রেক্ষিতে একটি সাদৃশ্য পরিমাপ বা নমুনার তুলনা করার জন্য ব্যবহৃত মেট্রিকটি স্পষ্টভাবে সংজ্ঞায়িত করতে হবে। উদাহরণে যখন মাত্র কয়েকটি বৈশিষ্ট্য থাকে, তখন সাদৃশ্য দেখা এবং পরিমাপ করা সোজা। কিন্তু বৈশিষ্ট্যের সংখ্যা বাড়ার সাথে সাথে বৈশিষ্ট্যগুলিকে একত্রিত করা এবং তুলনা করা কম স্বজ্ঞাত এবং আরও জটিল হয়ে ওঠে। বিভিন্ন ক্লাস্টারিং পরিস্থিতির জন্য বিভিন্ন সাদৃশ্য পরিমাপ কমবেশি উপযুক্ত হতে পারে, এবং এই কোর্সটি পরবর্তী বিভাগে একটি উপযুক্ত সাদৃশ্য পরিমাপ বেছে নেওয়ার বিষয়ে আলোচনা করবে: এম্বেডিং থেকে ম্যানুয়াল সাদৃশ্য পরিমাপ এবং সাদৃশ্য পরিমাপ

ক্লাস্টারিংয়ের পরে, প্রতিটি গ্রুপকে ক্লাস্টার আইডি নামে একটি অনন্য লেবেল বরাদ্দ করা হয়। ক্লাস্টারিং শক্তিশালী কারণ এটি একটি একক ক্লাস্টার আইডিতে অনেক বৈশিষ্ট্য সহ বড়, জটিল ডেটাসেটকে সরল করতে পারে।

ক্লাস্টারিং ব্যবহারের ক্ষেত্রে

ক্লাস্টারিং বিভিন্ন শিল্পে দরকারী। ক্লাস্টারিংয়ের জন্য কিছু সাধারণ অ্যাপ্লিকেশন:

  • বাজার বিভাজন
  • সামাজিক নেটওয়ার্ক বিশ্লেষণ
  • অনুসন্ধান ফলাফল গ্রুপিং
  • মেডিকেল ইমেজিং
  • চিত্র বিভাজন
  • অসঙ্গতি সনাক্তকরণ

ক্লাস্টারিংয়ের কিছু নির্দিষ্ট উদাহরণ:

  • হার্টজস্প্রাং-রাসেল ডায়াগ্রামে তারার ক্লাস্টার দেখায় যখন উজ্জ্বলতা এবং তাপমাত্রা দ্বারা প্লট করা হয়।
  • জিন সিকোয়েন্সিং যা পূর্বে অজানা জেনেটিক মিল এবং প্রজাতির মধ্যে বৈষম্য দেখায় তা পূর্বে উপস্থিতির উপর ভিত্তি করে শ্রেণীবিন্যাস সংশোধনের দিকে পরিচালিত করেছে।
  • ব্যক্তিত্বের বৈশিষ্ট্যের বিগ 5 মডেলটি ক্লাস্টারিং শব্দ দ্বারা তৈরি করা হয়েছিল যা ব্যক্তিত্বকে 5 টি গোষ্ঠীতে বর্ণনা করে। HEXACO মডেল 5 এর পরিবর্তে 6 টি ক্লাস্টার ব্যবহার করে।

ইম্পুটেশন

যখন একটি ক্লাস্টারের কিছু উদাহরণে বৈশিষ্ট্য ডেটা অনুপস্থিত থাকে, আপনি ক্লাস্টারের অন্যান্য উদাহরণ থেকে অনুপস্থিত ডেটা অনুমান করতে পারেন। একে বলা হয় অভিযুক্তি । উদাহরণ স্বরূপ, ভিডিও সুপারিশ উন্নত করতে কম জনপ্রিয় ভিডিওগুলিকে আরও জনপ্রিয় ভিডিওর সাথে ক্লাস্টার করা যেতে পারে।

তথ্য সংকোচন

যেমন আলোচনা করা হয়েছে, প্রাসঙ্গিক ক্লাস্টার আইডি সেই ক্লাস্টারের সমস্ত উদাহরণের জন্য অন্যান্য বৈশিষ্ট্য প্রতিস্থাপন করতে পারে। এই প্রতিস্থাপন বৈশিষ্ট্যের সংখ্যা হ্রাস করে এবং সেইজন্য সেই ডেটাতে সঞ্চয়, প্রক্রিয়া এবং মডেলগুলি প্রশিক্ষণের জন্য প্রয়োজনীয় সংস্থানগুলিও হ্রাস করে। খুব বড় ডেটাসেটের জন্য, এই সঞ্চয়গুলি তাৎপর্যপূর্ণ হয়ে ওঠে।

একটি উদাহরণ দিতে, একটি একক YouTube ভিডিও সহ বৈশিষ্ট্য ডেটা থাকতে পারে:

  • দর্শকের অবস্থান, সময় এবং জনসংখ্যা
  • মন্তব্য টাইমস্ট্যাম্প, পাঠ্য, এবং ব্যবহারকারী আইডি
  • ভিডিও ট্যাগ

ইউটিউব ভিডিওগুলি ক্লাস্টার করা এই বৈশিষ্ট্যগুলির সেটটিকে একটি একক ক্লাস্টার আইডি দিয়ে প্রতিস্থাপন করে, এইভাবে ডেটা সংকুচিত হয়।

গোপনীয়তা সংরক্ষণ

আপনি ব্যবহারকারীদের ক্লাস্টারিং করে এবং ব্যবহারকারীর আইডির পরিবর্তে ক্লাস্টার আইডির সাথে ব্যবহারকারীর ডেটা সংযুক্ত করে কিছুটা গোপনীয়তা রক্ষা করতে পারেন। একটি সম্ভাব্য উদাহরণ দিতে, বলুন আপনি YouTube ব্যবহারকারীদের দেখার ইতিহাসে একটি মডেলকে প্রশিক্ষণ দিতে চান৷ মডেলটিতে ব্যবহারকারী আইডি পাস করার পরিবর্তে, আপনি ব্যবহারকারীদের ক্লাস্টার করতে পারেন এবং শুধুমাত্র ক্লাস্টার আইডি পাস করতে পারেন। এটি পৃথক ব্যবহারকারীদের সাথে সংযুক্ত হওয়া থেকে পৃথক ঘড়ির ইতিহাস রাখে। নোট করুন যে গোপনীয়তা রক্ষা করার জন্য ক্লাস্টারে অবশ্যই যথেষ্ট পরিমাণে ব্যবহারকারী থাকতে হবে।