কে-মান অনেক মেশিন লার্নিং প্রসঙ্গে দরকারী এবং দক্ষ, কিন্তু কিছু স্বতন্ত্র দুর্বলতা রয়েছে।
k-এর সুবিধা
বাস্তবায়ন করা তুলনামূলকভাবে সহজ।
বড় ডেটা সেটে স্কেল।
সর্বদা একত্রিত হয়।
সেন্ট্রোয়েডের অবস্থান উষ্ণ শুরু করার অনুমতি দেয়।
মসৃণভাবে নতুন উদাহরণের সাথে খাপ খায়।
বিভিন্ন আকার এবং আকারের ক্লাস্টারে সাধারণীকরণ করা যেতে পারে, যেমন উপবৃত্তাকার ক্লাস্টার।
সাধারণীকরণ k- মানে
k-মানগুলির একটি সহজবোধ্য বাস্তবায়ন বিভিন্ন ঘনত্ব এবং আকারের ক্লাস্টারগুলির সাথে লড়াই করতে পারে। চিত্র 1 এর বাম দিকে আমরা যে ক্লাস্টারগুলি দেখতে চাই তা দেখায়, যখন ডান দিকে k-মান দ্বারা প্রস্তাবিত ক্লাস্টারগুলি দেখায়৷
ভারসাম্যহীন ক্লাস্টারে ভালো পারফরম্যান্সের জন্য যেমন চিত্র 1-এ দেখানো হয়েছে, আপনি সাধারণীকরণ করতে পারেন, অর্থাৎ মানিয়ে নিতে, k-মানে। চিত্র 2 দুটি ভিন্ন সাধারণীকরণের সাথে ক্লাস্টার করা তিনটি ভিন্ন ডেটাসেট দেখায়। প্রথম ডেটাসেটটি সাধারণীকরণ ছাড়াই k-মান দেখায়, যখন দ্বিতীয় এবং তৃতীয়টি ক্লাস্টারগুলিকে প্রস্থে পরিবর্তিত হতে দেয়।
এই কোর্সটি কভার করে না কিভাবে কে-মানকে সাধারণীকরণ করা যায়, তবে আগ্রহীদের দেখা উচিত ক্লাস্টারিং – কে-মানে কার্নেগি মেলন ইউনিভার্সিটির কার্লোস গেস্ট্রিনের গাউসিয়ান মিশ্রণের মডেলগুলি ।
k-অর্থের অসুবিধা
\(k\) ম্যানুয়ালি বেছে নিতে হবে।
ফলাফল প্রাথমিক মান উপর নির্ভর করে.
কম \(k\)এর জন্য, আপনি বিভিন্ন প্রাথমিক মান সহ k-means চালিয়ে এবং সেরা ফলাফল বেছে নিয়ে এই নির্ভরতা কমাতে পারেন। \(k\)বাড়ার সাথে সাথে, আরও ভাল প্রাথমিক সেন্ট্রয়েড বাছাই করার জন্য আপনার k-মানে বীজ বপনের প্রয়োজন, কে-মানে বীজ বপনের সম্পূর্ণ আলোচনার জন্য, M. Emre Celebi দ্বারা "K-মানে ক্লাস্টারিং অ্যালগরিদমের জন্য দক্ষ প্রাথমিক পদ্ধতির তুলনামূলক অধ্যয়ন" দেখুন। , হাসান এ কিংরাভি এবং প্যাট্রিসিও এ ভেলা।
সাধারণীকরণ ছাড়া বিভিন্ন আকার এবং ঘনত্বের ডেটা ক্লাস্টার করার অসুবিধা।
অসুবিধা ক্লাস্টার outliers.
সেন্ট্রোয়েডগুলি আউটলায়ারদের দ্বারা টেনে আনা যেতে পারে, বা আউটলায়াররা উপেক্ষা করার পরিবর্তে তাদের নিজস্ব ক্লাস্টার পেতে পারে। ক্লাস্টার করার আগে আউটলিয়ার অপসারণ বা ক্লিপ করার কথা বিবেচনা করুন।
মাত্রার সংখ্যা সহ স্কেলিং অসুবিধা।
ডেটাতে মাত্রার সংখ্যা বাড়ার সাথে সাথে একটি দূরত্ব-ভিত্তিক সাদৃশ্য পরিমাপ যে কোনো প্রদত্ত উদাহরণের মধ্যে একটি ধ্রুবক মানের রূপান্তরিত হয়। বৈশিষ্ট্য ডেটাতে PCA ব্যবহার করে বা ক্লাস্টারিং অ্যালগরিদম সংশোধন করতে বর্ণালী ক্লাস্টারিং ব্যবহার করে মাত্রা হ্রাস করুন।
মাত্রিকতা এবং বর্ণালী ক্লাস্টারিংয়ের অভিশাপ
এই তিনটি প্লটে, লক্ষ্য করুন কিভাবে মাত্রা বৃদ্ধির সাথে সাথে উদাহরণের মধ্যবর্তী দূরত্বের মানক বিচ্যুতি উদাহরণের মধ্যবর্তী দূরত্বের তুলনায় সঙ্কুচিত হয়। এই কনভারজেন্সের অর্থ হল k-মানগুলি ডেটার মাত্রা বৃদ্ধির সাথে সাথে উদাহরণগুলির মধ্যে পার্থক্য করার ক্ষেত্রে কম কার্যকর হয়৷ এটি মাত্রিকতার অভিশাপ হিসাবে উল্লেখ করা হয়।
আপনি বর্ণালী ক্লাস্টারিং এর মাধ্যমে কর্মক্ষমতার এই হ্রাস এড়াতে পারেন, যা অ্যালগরিদমে প্রাক-ক্লাস্টারিং পদক্ষেপ যোগ করে। বর্ণালী ক্লাস্টারিং সম্পাদন করতে:
- PCA ব্যবহার করে ফিচার ডেটার মাত্রা কমিয়ে দিন।
- নিম্ন-মাত্রিক সাবস্পেসে সমস্ত ডেটা পয়েন্ট প্রজেক্ট করুন।
- আপনার নির্বাচিত অ্যালগরিদম ব্যবহার করে এই সাবস্পেসে ডেটা ক্লাস্টার করুন।
বর্ণালী ক্লাস্টারিং সম্পর্কে আরও তথ্যের জন্য উলরিক ভন লাক্সবার্গের স্পেকট্রাল ক্লাস্টারিংয়ের একটি টিউটোরিয়াল দেখুন।