যেহেতু ক্লাস্টারিং তত্ত্বাবধানহীন, ফলাফল যাচাই করার জন্য কোন গ্রাউন্ড ট্রুথ পাওয়া যায় না। সত্যের অনুপস্থিতি গুণমানের মূল্যায়নকে জটিল করে তোলে। অধিকন্তু, বাস্তব-বিশ্বের ডেটাসেটগুলি সাধারণত চিত্র 1-এ দেখানো উদাহরণের মতো উদাহরণগুলির সুস্পষ্ট ক্লাস্টার অফার করে না।
পরিবর্তে, বাস্তব-বিশ্বের ডেটা প্রায়শই চিত্র 2-এর মতো দেখায়, যা চাক্ষুষভাবে ক্লাস্টারিং গুণমান মূল্যায়ন করা কঠিন করে তোলে।
যাইহোক, হিউরিস্টিকস এবং সর্বোত্তম অনুশীলন রয়েছে যা আপনি আপনার ক্লাস্টারিংয়ের গুণমান উন্নত করতে পুনরাবৃত্তিমূলকভাবে প্রয়োগ করতে পারেন। নিম্নলিখিত ফ্লোচার্টটি আপনার ক্লাস্টারিং ফলাফলগুলিকে কীভাবে মূল্যায়ন করতে হয় তার একটি ওভারভিউ দেয়৷ আমরা প্রতিটি ধাপে প্রসারিত করব।
ধাপ 1: ক্লাস্টারিংয়ের গুণমান মূল্যায়ন করুন
প্রথমে পরীক্ষা করে দেখুন যে ক্লাস্টারগুলি আপনার প্রত্যাশা অনুযায়ী দেখায় এবং যে উদাহরণগুলিকে আপনি একে অপরের মতো মনে করেন একই ক্লাস্টারে উপস্থিত হয়৷
তারপরে এই সাধারণভাবে ব্যবহৃত মেট্রিকগুলি পরীক্ষা করুন (একটি সম্পূর্ণ তালিকা নয়):
- ক্লাস্টার কার্ডিনালিটি
- ক্লাস্টার মাত্রা
- ডাউনস্ট্রিম কর্মক্ষমতা
ক্লাস্টার কার্ডিনালিটি
ক্লাস্টার কার্ডিনালিটি হল প্রতি ক্লাস্টারে উদাহরণের সংখ্যা। সমস্ত ক্লাস্টারের জন্য ক্লাস্টার কার্ডিনালিটি প্লট করুন এবং ক্লাস্টারগুলি তদন্ত করুন যেগুলি প্রধান বহিরাগত। চিত্র 2-এ, এটি ক্লাস্টার 5 হবে।
ক্লাস্টার মাত্রা
ক্লাস্টার ম্যাগনিটিউড হল ক্লাস্টারের সমস্ত উদাহরণ থেকে ক্লাস্টারের সেন্ট্রোয়েড পর্যন্ত দূরত্বের সমষ্টি। সমস্ত ক্লাস্টারের জন্য প্লট ক্লাস্টার ম্যাগনিটিউড এবং বহিরাগতদের তদন্ত করুন। চিত্র 3-এ, ক্লাস্টার 0 একটি আউটলায়ার।
এছাড়াও আউটলায়ার্স খুঁজে বের করার জন্য ক্লাস্টার দ্বারা, সেন্ট্রোয়েড থেকে উদাহরণগুলির সর্বাধিক বা গড় দূরত্বের দিকে তাকানো বিবেচনা করুন।
বিশালতা বনাম কার্ডিনালিটি
আপনি হয়তো লক্ষ্য করেছেন যে একটি উচ্চতর ক্লাস্টার কার্ডিনালিটি একটি উচ্চতর ক্লাস্টার ম্যাগনিটিউডের সাথে মিলে যায়, যা স্বজ্ঞাত বোধগম্য করে, যেহেতু একটি ক্লাস্টারে যত বেশি বিন্দু (কার্ডিনালিটি), সেন্ট্রয়েড (ম্যাগনিটিউড) থেকে সেই বিন্দুগুলির দূরত্বের সম্ভাব্য যোগফল তত বেশি। আপনি অন্য ক্লাস্টারগুলির তুলনায় কার্ডিনালিটি এবং ম্যাগনিটিউডের মধ্যে এই সম্পর্কটি খুব আলাদা যেখানে এমনগুলি সন্ধান করে অস্বাভাবিক ক্লাস্টারগুলি সনাক্ত করতে পারেন। চিত্র 4-এ, কার্ডিনালিটি এবং ম্যাগনিটিউডের প্লটে একটি লাইন ফিট করা থেকে বোঝা যায় যে ক্লাস্টার 0 অস্বাভাবিক। (ক্লাস্টার 5 লাইন থেকে অনেক দূরে, কিন্তু ক্লাস্টার 0 বাদ দিলে, নতুন লাগানো লাইন ক্লাস্টার 5 এর অনেক কাছাকাছি হবে।)
ডাউনস্ট্রিম কর্মক্ষমতা
যেহেতু ক্লাস্টারিং আউটপুটগুলি প্রায়শই ডাউনস্ট্রিম এমএল সিস্টেমে ব্যবহৃত হয়, তাই দেখুন যখন আপনার ক্লাস্টারিং প্রক্রিয়া পরিবর্তন হয় তখন ডাউনস্ট্রিম মডেলের কর্মক্ষমতা উন্নত হয় কিনা। এটি আপনার ক্লাস্টারিং ফলাফলের গুণমানের একটি বাস্তব-বিশ্ব মূল্যায়ন অফার করে, যদিও এই ধরনের পরীক্ষা পরিচালনা করা জটিল এবং ব্যয়বহুল হতে পারে।
ধাপ 2: আপনার সাদৃশ্য পরিমাপ পুনরায় মূল্যায়ন
আপনার ক্লাস্টারিং অ্যালগরিদম আপনার সাদৃশ্য পরিমাপের মতোই ভাল। নিশ্চিত করুন যে আপনার মিল পরিমাপ বুদ্ধিমান ফলাফল প্রদান করে। একটি দ্রুত চেক হল উদাহরণগুলির জোড়া সনাক্ত করা যা কমবেশি একই রকম বলে পরিচিত৷ প্রতিটি জোড়া উদাহরণের জন্য সাদৃশ্য পরিমাপ গণনা করুন, এবং আপনার ফলাফলগুলিকে আপনার জ্ঞানের সাথে তুলনা করুন: অনুরূপ উদাহরণগুলির জোড়াগুলি ভিন্ন উদাহরণগুলির জোড়ার তুলনায় উচ্চতর মিল থাকা উচিত৷
আপনার সাদৃশ্য পরিমাপকে স্পট-চেক করার জন্য আপনি যে উদাহরণগুলি ব্যবহার করেন সেগুলি ডেটাসেটের প্রতিনিধি হওয়া উচিত, যাতে আপনি নিশ্চিত হতে পারেন যে আপনার সমস্ত উদাহরণের জন্য আপনার মিল রয়েছে। আপনার সাদৃশ্য পরিমাপের কর্মক্ষমতা, ম্যানুয়াল বা তত্ত্বাবধানে, আপনার ডেটাসেট জুড়ে সামঞ্জস্যপূর্ণ হতে হবে। যদি আপনার মিলের পরিমাপ কিছু উদাহরণের জন্য অসঙ্গতিপূর্ণ হয়, তাহলে সেই উদাহরণগুলিকে অনুরূপ উদাহরণের সাথে ক্লাস্টার করা হবে না।
আপনি যদি ভুল সাদৃশ্য স্কোরের উদাহরণ খুঁজে পান, তাহলে আপনার মিলের পরিমাপ সম্ভবত সেই বৈশিষ্ট্যের ডেটা সম্পূর্ণরূপে ক্যাপচার করে না যা সেই উদাহরণগুলিকে আলাদা করে। আপনার সাদৃশ্য পরিমাপের সাথে পরীক্ষা করুন যতক্ষণ না এটি আরও সঠিক এবং সামঞ্জস্যপূর্ণ ফলাফল দেয়।
ধাপ 3: ক্লাস্টারগুলির সর্বোত্তম সংখ্যা খুঁজুন
k-অর্থের জন্য আপনাকে আগে থেকেই \(k\) ক্লাস্টারের সংখ্যা নির্ধারণ করতে হবে। আপনি কিভাবে একটি সর্বোত্তম \(k\)নির্ধারণ করবেন? \(k\) এর ক্রমবর্ধমান মান সহ অ্যালগরিদম চালানোর চেষ্টা করুন এবং সমস্ত ক্লাস্টার মাত্রার যোগফল নোট করুন।\(k\) বাড়ার সাথে সাথে ক্লাস্টারগুলি ছোট হয়ে যায় এবং সেন্ট্রোয়েড থেকে বিন্দুর মোট দূরত্ব হ্রাস পায়। আমরা এই মোট দূরত্বটিকে ক্ষতি হিসাবে বিবেচনা করতে পারি। ক্লাস্টার সংখ্যার বিপরীতে এই দূরত্ব প্লট করুন।
চিত্র 5-এ দেখানো হয়েছে, একটি নির্দিষ্ট \(k\)এর উপরে, ক্ষতি হ্রাস \(k\)বৃদ্ধির সাথে প্রান্তিক হয়ে যায়। \(k\)ব্যবহার করার কথা বিবেচনা করুন যেখানে ঢালের প্রথমে একটি তীব্র পরিবর্তন হয়, যাকে বলা হয় কনুই পদ্ধতি । দেখানো প্লটের জন্য, সর্বোত্তম \(k\) হল আনুমানিক 11টি। আপনি যদি আরও দানাদার ক্লাস্টার পছন্দ করেন, তাহলে আপনি এই প্লটের সাথে পরামর্শ করে একটি উচ্চতর \(k\)বেছে নিতে পারেন।
সমস্যা সমাধানের প্রশ্ন
আপনি যদি আপনার মূল্যায়নের সময় সমস্যাগুলি আবিষ্কার করেন, আপনার ডেটা প্রস্তুতির পদক্ষেপগুলি পুনরায় মূল্যায়ন করুন এবং সাদৃশ্য পরিমাপ বেছে নিন। জিজ্ঞাসা করুন:
- আপনার ডেটা সঠিকভাবে মাপানো হয়?
- আপনার মিল পরিমাপ সঠিক?
- আপনার অ্যালগরিদম কি ডেটাতে অর্থপূর্ণ অর্থপূর্ণ ক্রিয়াকলাপ সম্পাদন করছে?
- আপনার অ্যালগরিদমের অনুমান কি ডেটার সাথে মেলে?