কে-মানসের সুবিধা এবং অসুবিধা

কে-মান অনেক মেশিন লার্নিং প্রসঙ্গে দরকারী এবং দক্ষ, কিন্তু কিছু স্বতন্ত্র দুর্বলতা রয়েছে।

k-এর সুবিধা

বাস্তবায়ন করা তুলনামূলকভাবে সহজ।

বড় ডেটা সেটে স্কেল।

সর্বদা একত্রিত হয়।

সেন্ট্রোয়েডের অবস্থান উষ্ণ শুরু করার অনুমতি দেয়।

মসৃণভাবে নতুন উদাহরণের সাথে খাপ খায়।

বিভিন্ন আকার এবং আকারের ক্লাস্টারে সাধারণীকরণ করা যেতে পারে, যেমন উপবৃত্তাকার ক্লাস্টার।

সাধারণীকরণ k- মানে

k-মানগুলির একটি সহজবোধ্য বাস্তবায়ন বিভিন্ন ঘনত্ব এবং আকারের ক্লাস্টারগুলির সাথে লড়াই করতে পারে। চিত্র 1 এর বাম দিকে আমরা যে ক্লাস্টারগুলি দেখতে চাই তা দেখায়, যখন ডান দিকে k-মান দ্বারা প্রস্তাবিত ক্লাস্টারগুলি দেখায়৷

পাশাপাশি দুটি গ্রাফ। প্রথমটি কিছুটা সুস্পষ্ট ক্লাস্টার সহ একটি ডেটাসেট দেখাচ্ছে৷ দ্বিতীয়টি কে-মানে চালানোর পরে উদাহরণগুলির একটি বিজোড় গ্রুপিং দেখাচ্ছে৷
চিত্র 1: সাধারণহীন k- মানে উদাহরণ।

ভারসাম্যহীন ক্লাস্টারে ভালো পারফরম্যান্সের জন্য যেমন চিত্র 1-এ দেখানো হয়েছে, আপনি সাধারণীকরণ করতে পারেন, অর্থাৎ মানিয়ে নিতে, k-মানে। চিত্র 2 দুটি ভিন্ন সাধারণীকরণের সাথে ক্লাস্টার করা তিনটি ভিন্ন ডেটাসেট দেখায়। প্রথম ডেটাসেটটি সাধারণীকরণ ছাড়াই k-মান দেখায়, যখন দ্বিতীয় এবং তৃতীয়টি ক্লাস্টারগুলিকে প্রস্থে পরিবর্তিত হতে দেয়।

তিনটি গ্রাফ সাধারণীকরণ ছাড়াই k-মান দেখায়, তারপর k-মানে বিভিন্ন প্রস্থের অনুমতি দেয়, তারপর k-মানে বিভিন্ন মাত্রার প্রস্থের জন্য অনুমতি দেয়।
চিত্র 2: k- মানে সাধারণীকরণ সহ এবং ছাড়া ক্লাস্টারিং।

এই কোর্সটি কভার করে না কিভাবে কে-মানকে সাধারণীকরণ করা যায়, তবে আগ্রহীদের দেখা উচিত ক্লাস্টারিং – কে-মানে কার্নেগি মেলন ইউনিভার্সিটির কার্লোস গেস্ট্রিনের গাউসিয়ান মিশ্রণের মডেলগুলি

k-অর্থের অসুবিধা

\(k\) ম্যানুয়ালি বেছে নিতে হবে।

ফলাফল প্রাথমিক মান উপর নির্ভর করে.

কম \(k\)এর জন্য, আপনি বিভিন্ন প্রাথমিক মান সহ k-means চালিয়ে এবং সেরা ফলাফল বেছে নিয়ে এই নির্ভরতা কমাতে পারেন। \(k\)বাড়ার সাথে সাথে, আরও ভাল প্রাথমিক সেন্ট্রয়েড বাছাই করার জন্য আপনার k-মানে বীজ বপনের প্রয়োজন, কে-মানে বীজ বপনের সম্পূর্ণ আলোচনার জন্য, M. Emre Celebi দ্বারা "K-মানে ক্লাস্টারিং অ্যালগরিদমের জন্য দক্ষ প্রাথমিক পদ্ধতির তুলনামূলক অধ্যয়ন" দেখুন। , হাসান এ কিংরাভি এবং প্যাট্রিসিও এ ভেলা।

সাধারণীকরণ ছাড়া বিভিন্ন আকার এবং ঘনত্বের ডেটা ক্লাস্টার করার অসুবিধা।

অসুবিধা ক্লাস্টার outliers.

সেন্ট্রোয়েডগুলি আউটলায়ারদের দ্বারা টেনে আনা যেতে পারে, বা আউটলায়াররা উপেক্ষা করার পরিবর্তে তাদের নিজস্ব ক্লাস্টার পেতে পারে। ক্লাস্টার করার আগে আউটলিয়ার অপসারণ বা ক্লিপ করার কথা বিবেচনা করুন।

মাত্রার সংখ্যা সহ স্কেলিং অসুবিধা।

ডেটাতে মাত্রার সংখ্যা বাড়ার সাথে সাথে একটি দূরত্ব-ভিত্তিক সাদৃশ্য পরিমাপ যে কোনো প্রদত্ত উদাহরণের মধ্যে একটি ধ্রুবক মানের রূপান্তরিত হয়। বৈশিষ্ট্য ডেটাতে PCA ব্যবহার করে বা ক্লাস্টারিং অ্যালগরিদম সংশোধন করতে বর্ণালী ক্লাস্টারিং ব্যবহার করে মাত্রা হ্রাস করুন।

মাত্রিকতা এবং বর্ণালী ক্লাস্টারিংয়ের অভিশাপ

এই তিনটি প্লটে, লক্ষ্য করুন কিভাবে মাত্রা বৃদ্ধির সাথে সাথে উদাহরণের মধ্যবর্তী দূরত্বের মানক বিচ্যুতি উদাহরণের মধ্যবর্তী দূরত্বের তুলনায় সঙ্কুচিত হয়। এই কনভারজেন্সের অর্থ হল k-মানগুলি ডেটার মাত্রা বৃদ্ধির সাথে সাথে উদাহরণগুলির মধ্যে পার্থক্য করার ক্ষেত্রে কম কার্যকর হয়৷ এটি মাত্রিকতার অভিশাপ হিসাবে উল্লেখ করা হয়।

তিনটি প্লট যা দেখায় কিভাবে উদাহরণগুলির মধ্যে দূরত্বের মানক বিচ্যুতি মাত্রার সংখ্যা বাড়ার সাথে সাথে হ্রাস পায়
চিত্র 3: মাত্রিকতার অভিশাপের একটি প্রদর্শন। প্রতিটি প্লট 200 র্যান্ডম পয়েন্টের মধ্যে জোড়ার মতো দূরত্ব দেখায়।

আপনি বর্ণালী ক্লাস্টারিং এর মাধ্যমে কর্মক্ষমতার এই হ্রাস এড়াতে পারেন, যা অ্যালগরিদমে প্রাক-ক্লাস্টারিং পদক্ষেপ যোগ করে। বর্ণালী ক্লাস্টারিং সম্পাদন করতে:

  1. PCA ব্যবহার করে ফিচার ডেটার মাত্রা কমিয়ে দিন।
  2. নিম্ন-মাত্রিক সাবস্পেসে সমস্ত ডেটা পয়েন্ট প্রজেক্ট করুন।
  3. আপনার নির্বাচিত অ্যালগরিদম ব্যবহার করে এই সাবস্পেসে ডেটা ক্লাস্টার করুন।

বর্ণালী ক্লাস্টারিং সম্পর্কে আরও তথ্যের জন্য উলরিক ভন লাক্সবার্গের স্পেকট্রাল ক্লাস্টারিংয়ের একটি টিউটোরিয়াল দেখুন।