আপনার ডেটা বিভক্ত করা

সংবাদ গল্পের উদাহরণ হিসাবে দেখায়, একটি বিশুদ্ধ এলোমেলো বিভাজন সর্বদা সঠিক পদ্ধতির নয়।

অনলাইন সিস্টেমের জন্য একটি ঘন ঘন কৌশল হল সময় অনুসারে ডেটা বিভক্ত করা, যেমন আপনি:

  • 30 দিনের ডেটা সংগ্রহ করুন।
  • 1-29 দিন পর্যন্ত ডেটা নিয়ে ট্রেন।
  • 30 দিন থেকে ডেটা মূল্যায়ন করুন।

অনলাইন সিস্টেমের জন্য, প্রশিক্ষণ ডেটা পরিবেশন ডেটার চেয়ে পুরানো, তাই এই কৌশলটি নিশ্চিত করে যে আপনার বৈধতা সেটটি প্রশিক্ষণ এবং পরিবেশনের মধ্যে ব্যবধানকে প্রতিফলিত করে৷ যাইহোক, সময়-ভিত্তিক বিভাজনগুলি খুব বড় ডেটাসেটের সাথে ভাল কাজ করে, যেমন লক্ষ লক্ষ উদাহরণ সহ। কম ডেটা সহ প্রকল্পগুলিতে, বিতরণগুলি প্রশিক্ষণ, বৈধতা এবং পরীক্ষার মধ্যে বেশ আলাদা হয়।

মেশিন লার্নিং ক্র্যাশ কোর্সে বর্ণিত মেশিন লার্নিং লিটারেচার প্রোজেক্ট থেকে ডেটা স্প্লিট ত্রুটিও স্মরণ করুন। তথ্যটি তিনজন লেখকের একজনের দ্বারা লেখা সাহিত্য ছিল, তাই ডেটা তিনটি প্রধান গ্রুপে পড়ে। যেহেতু দলটি একটি এলোমেলো বিভাজন প্রয়োগ করেছে, প্রতিটি গোষ্ঠীর ডেটা প্রশিক্ষণ, মূল্যায়ন এবং পরীক্ষার সেটগুলিতে উপস্থিত ছিল, তাই মডেলটি তথ্য থেকে শিখেছে যা পূর্বাভাসের সময় এটির অগত্যা থাকবে না। এই সমস্যাটি যেকোনও সময় ঘটতে পারে যখন আপনার ডেটা গোষ্ঠীবদ্ধ করা হয়, তা সময় সিরিজের ডেটা হিসাবে, বা অন্যান্য মানদণ্ড দ্বারা ক্লাস্টার করা হয়। ডোমেন জ্ঞান জানাতে পারে কিভাবে আপনি আপনার ডেটা বিভক্ত করেন।

অতিরিক্ত পর্যালোচনার জন্য, মেশিন লার্নিং ক্র্যাশ কোর্সে এই মডিউলগুলি দেখুন: