ফলাফল মূল্যায়ন

যেহেতু ক্লাস্টারিং তত্ত্বাবধানহীন, ফলাফল যাচাই করার জন্য কোন গ্রাউন্ড ট্রুথ পাওয়া যায় না। সত্যের অনুপস্থিতি গুণমানের মূল্যায়নকে জটিল করে তোলে। অধিকন্তু, বাস্তব-বিশ্বের ডেটাসেটগুলি সাধারণত চিত্র 1-এ দেখানো উদাহরণের মতো উদাহরণগুলির সুস্পষ্ট ক্লাস্টার অফার করে না।

ডেটা পয়েন্টের তিনটি পরিষ্কার গ্রুপ দেখানো একটি গ্রাফ
চিত্র 1: একটি আদর্শ ডেটা প্লট। বাস্তব বিশ্বের তথ্য খুব কমই এই মত দেখায়.

পরিবর্তে, বাস্তব-বিশ্বের ডেটা প্রায়শই চিত্র 2-এর মতো দেখায়, যা চাক্ষুষভাবে ক্লাস্টারিং গুণমান মূল্যায়ন করা কঠিন করে তোলে।

র্যান্ডম ডেটা পয়েন্ট সহ একটি গ্রাফ
চিত্র 2: আরও বাস্তবসম্মত ডেটা প্লট

যাইহোক, হিউরিস্টিকস এবং সর্বোত্তম অনুশীলন রয়েছে যা আপনি আপনার ক্লাস্টারিংয়ের গুণমান উন্নত করতে পুনরাবৃত্তিমূলকভাবে প্রয়োগ করতে পারেন। নিম্নলিখিত ফ্লোচার্টটি আপনার ক্লাস্টারিং ফলাফলগুলিকে কীভাবে মূল্যায়ন করতে হয় তার একটি ওভারভিউ দেয়৷ আমরা প্রতিটি ধাপে প্রসারিত করব।

যাচাইকরণ প্রক্রিয়ার ফ্লোচার্ট ভিজ্যুয়াল
এই চার্টের একটি বড় সংস্করণ দেখতে এখানে ক্লিক করুন.

ধাপ 1: ক্লাস্টারিংয়ের গুণমান মূল্যায়ন করুন

প্রথমে পরীক্ষা করে দেখুন যে ক্লাস্টারগুলি আপনার প্রত্যাশা অনুযায়ী দেখায় এবং যে উদাহরণগুলিকে আপনি একে অপরের মতো মনে করেন একই ক্লাস্টারে উপস্থিত হয়৷

তারপরে এই সাধারণভাবে ব্যবহৃত মেট্রিকগুলি পরীক্ষা করুন (একটি সম্পূর্ণ তালিকা নয়):

  • ক্লাস্টার কার্ডিনালিটি
  • ক্লাস্টার মাত্রা
  • ডাউনস্ট্রিম কর্মক্ষমতা

ক্লাস্টার কার্ডিনালিটি

ক্লাস্টার কার্ডিনালিটি হল প্রতি ক্লাস্টারে উদাহরণের সংখ্যা। সমস্ত ক্লাস্টারের জন্য ক্লাস্টার কার্ডিনালিটি প্লট করুন এবং ক্লাস্টারগুলি তদন্ত করুন যেগুলি প্রধান বহিরাগত। চিত্র 2-এ, এটি ক্লাস্টার 5 হবে।

একটি বারচার্ট বেশ কয়েকটি ক্লাস্টারের মূলত্ব দেখাচ্ছে৷ ক্লাস্টার 5 বাকিদের থেকে ছোট।
চিত্র 2: বেশ কয়েকটি ক্লাস্টারের মূলত্ব।

ক্লাস্টার মাত্রা

ক্লাস্টার ম্যাগনিটিউড হল ক্লাস্টারের সমস্ত উদাহরণ থেকে ক্লাস্টারের সেন্ট্রোয়েড পর্যন্ত দূরত্বের সমষ্টি। সমস্ত ক্লাস্টারের জন্য প্লট ক্লাস্টার ম্যাগনিটিউড এবং বহিরাগতদের তদন্ত করুন। চিত্র 3-এ, ক্লাস্টার 0 একটি আউটলায়ার।

এছাড়াও আউটলায়ার্স খুঁজে বের করার জন্য ক্লাস্টার দ্বারা, সেন্ট্রোয়েড থেকে উদাহরণগুলির সর্বাধিক বা গড় দূরত্বের দিকে তাকানো বিবেচনা করুন।

একটি বারচার্ট বিভিন্ন ক্লাস্টারের মাত্রা দেখাচ্ছে৷ ক্লাস্টার 0 অন্যদের তুলনায় অনেক বড়।
চিত্র 3: বেশ কয়েকটি ক্লাস্টারের মাত্রা।

বিশালতা বনাম কার্ডিনালিটি

আপনি হয়তো লক্ষ্য করেছেন যে একটি উচ্চতর ক্লাস্টার কার্ডিনালিটি একটি উচ্চতর ক্লাস্টার ম্যাগনিটিউডের সাথে মিলে যায়, যা স্বজ্ঞাত বোধগম্য করে, যেহেতু একটি ক্লাস্টারে যত বেশি বিন্দু (কার্ডিনালিটি), সেন্ট্রয়েড (ম্যাগনিটিউড) থেকে সেই বিন্দুগুলির দূরত্বের সম্ভাব্য যোগফল তত বেশি। আপনি অন্য ক্লাস্টারগুলির তুলনায় কার্ডিনালিটি এবং ম্যাগনিটিউডের মধ্যে এই সম্পর্কটি খুব আলাদা যেখানে এমনগুলি সন্ধান করে অস্বাভাবিক ক্লাস্টারগুলি সনাক্ত করতে পারেন। চিত্র 4-এ, কার্ডিনালিটি এবং ম্যাগনিটিউডের প্লটে একটি লাইন ফিট করা থেকে বোঝা যায় যে ক্লাস্টার 0 অস্বাভাবিক। (ক্লাস্টার 5 লাইন থেকে অনেক দূরে, কিন্তু ক্লাস্টার 0 বাদ দিলে, নতুন লাগানো লাইন ক্লাস্টার 5 এর অনেক কাছাকাছি হবে।)

একটি স্ক্যাটার প্লট যা বিভিন্ন ক্লাস্টারের জন্য মূলত্ব বনাম মাত্রা দেখাচ্ছে। একটি ক্লাস্টার হল প্লটের একটি আউটলায়ার।
চিত্র 4: পূর্বে দেখানো ক্লাস্টারগুলির জন্য কার্ডিনালিটি বনাম মাত্রা।

ডাউনস্ট্রিম কর্মক্ষমতা

যেহেতু ক্লাস্টারিং আউটপুটগুলি প্রায়শই ডাউনস্ট্রিম এমএল সিস্টেমে ব্যবহৃত হয়, তাই দেখুন যখন আপনার ক্লাস্টারিং প্রক্রিয়া পরিবর্তন হয় তখন ডাউনস্ট্রিম মডেলের কর্মক্ষমতা উন্নত হয় কিনা। এটি আপনার ক্লাস্টারিং ফলাফলের গুণমানের একটি বাস্তব-বিশ্ব মূল্যায়ন অফার করে, যদিও এই ধরনের পরীক্ষা পরিচালনা করা জটিল এবং ব্যয়বহুল হতে পারে।

ধাপ 2: আপনার সাদৃশ্য পরিমাপ পুনরায় মূল্যায়ন

আপনার ক্লাস্টারিং অ্যালগরিদম আপনার সাদৃশ্য পরিমাপের মতোই ভাল। নিশ্চিত করুন যে আপনার মিল পরিমাপ বুদ্ধিমান ফলাফল প্রদান করে। একটি দ্রুত চেক হল উদাহরণগুলির জোড়া সনাক্ত করা যা কমবেশি একই রকম বলে পরিচিত৷ প্রতিটি জোড়া উদাহরণের জন্য সাদৃশ্য পরিমাপ গণনা করুন, এবং আপনার ফলাফলগুলিকে আপনার জ্ঞানের সাথে তুলনা করুন: অনুরূপ উদাহরণগুলির জোড়াগুলি ভিন্ন উদাহরণগুলির জোড়ার তুলনায় উচ্চতর মিল থাকা উচিত৷

আপনার সাদৃশ্য পরিমাপকে স্পট-চেক করার জন্য আপনি যে উদাহরণগুলি ব্যবহার করেন সেগুলি ডেটাসেটের প্রতিনিধি হওয়া উচিত, যাতে আপনি নিশ্চিত হতে পারেন যে আপনার সমস্ত উদাহরণের জন্য আপনার মিল রয়েছে। আপনার সাদৃশ্য পরিমাপের কর্মক্ষমতা, ম্যানুয়াল বা তত্ত্বাবধানে, আপনার ডেটাসেট জুড়ে সামঞ্জস্যপূর্ণ হতে হবে। যদি আপনার মিলের পরিমাপ কিছু উদাহরণের জন্য অসঙ্গতিপূর্ণ হয়, তাহলে সেই উদাহরণগুলিকে অনুরূপ উদাহরণের সাথে ক্লাস্টার করা হবে না।

আপনি যদি ভুল সাদৃশ্য স্কোরের উদাহরণ খুঁজে পান, তাহলে আপনার মিলের পরিমাপ সম্ভবত সেই বৈশিষ্ট্যের ডেটা সম্পূর্ণরূপে ক্যাপচার করে না যা সেই উদাহরণগুলিকে আলাদা করে। আপনার সাদৃশ্য পরিমাপের সাথে পরীক্ষা করুন যতক্ষণ না এটি আরও সঠিক এবং সামঞ্জস্যপূর্ণ ফলাফল দেয়।

ধাপ 3: ক্লাস্টারগুলির সর্বোত্তম সংখ্যা খুঁজুন

k-অর্থের জন্য আপনাকে আগে থেকেই \(k\) ক্লাস্টারের সংখ্যা নির্ধারণ করতে হবে। আপনি কিভাবে একটি সর্বোত্তম \(k\)নির্ধারণ করবেন? \(k\) এর ক্রমবর্ধমান মান সহ অ্যালগরিদম চালানোর চেষ্টা করুন এবং সমস্ত ক্লাস্টার মাত্রার যোগফল নোট করুন।\(k\) বাড়ার সাথে সাথে ক্লাস্টারগুলি ছোট হয়ে যায় এবং সেন্ট্রোয়েড থেকে বিন্দুর মোট দূরত্ব হ্রাস পায়। আমরা এই মোট দূরত্বটিকে ক্ষতি হিসাবে বিবেচনা করতে পারি। ক্লাস্টার সংখ্যার বিপরীতে এই দূরত্ব প্লট করুন।

চিত্র 5-এ দেখানো হয়েছে, একটি নির্দিষ্ট \(k\)এর উপরে, ক্ষতি হ্রাস \(k\)বৃদ্ধির সাথে প্রান্তিক হয়ে যায়। \(k\)ব্যবহার করার কথা বিবেচনা করুন যেখানে ঢালের প্রথমে একটি তীব্র পরিবর্তন হয়, যাকে বলা হয় কনুই পদ্ধতি । দেখানো প্লটের জন্য, সর্বোত্তম \(k\) হল আনুমানিক 11টি। আপনি যদি আরও দানাদার ক্লাস্টার পছন্দ করেন, তাহলে আপনি এই প্লটের সাথে পরামর্শ করে একটি উচ্চতর \(k\)বেছে নিতে পারেন।

ব্যবহৃত ক্লাস্টার বনাম ক্ষতি দেখানো একটি গ্রাফ। 10 টি ক্লাস্টারের কাছাকাছি না হওয়া পর্যন্ত ক্লাস্টারের সংখ্যা বৃদ্ধির সাথে সাথে ক্ষতি হ্রাস পায়
চিত্র 5: লস বনাম ক্লাস্টার সংখ্যা

সমস্যা সমাধানের প্রশ্ন

আপনি যদি আপনার মূল্যায়নের সময় সমস্যাগুলি আবিষ্কার করেন, আপনার ডেটা প্রস্তুতির পদক্ষেপগুলি পুনরায় মূল্যায়ন করুন এবং সাদৃশ্য পরিমাপ বেছে নিন। জিজ্ঞাসা করুন:

  • আপনার ডেটা সঠিকভাবে মাপানো হয়?
  • আপনার মিল পরিমাপ সঠিক?
  • আপনার অ্যালগরিদম কি ডেটাতে অর্থপূর্ণ অর্থপূর্ণ ক্রিয়াকলাপ সম্পাদন করছে?
  • আপনার অ্যালগরিদমের অনুমান কি ডেটার সাথে মেলে?