সংখ্যাগত তথ্য: স্ক্রাবিং

আপেল গাছ দারুণ ফল এবং কৃমি মেসের মিশ্রণ তৈরি করে। তবুও হাই-এন্ড মুদি দোকানে আপেল 100% নিখুঁত ফল প্রদর্শন করে। বাগান এবং মুদিখানার মধ্যে, কেউ খারাপ আপেল অপসারণ করতে বা উদ্ধারযোগ্য আপেলগুলিতে সামান্য মোম স্প্রে করতে উল্লেখযোগ্য সময় ব্যয় করে। একজন এমএল প্রকৌশলী হিসাবে, আপনি খারাপ উদাহরণগুলি ফেলে দিতে এবং উদ্ধারযোগ্যগুলি পরিষ্কার করতে আপনার প্রচুর সময় ব্যয় করবেন। এমনকি কয়েকটি খারাপ আপেল একটি বড় ডেটাসেট নষ্ট করতে পারে।

নিম্নলিখিত এক বা একাধিক সমস্যার কারণে ডেটাসেটের অনেক উদাহরণ অবিশ্বস্ত:

সমস্যা বিভাগ উদাহরণ
বাদ দেওয়া মান একজন জনগণনা গ্রহণকারী একজন বাসিন্দার বয়স রেকর্ড করতে ব্যর্থ হন।
নকল উদাহরণ একটি সার্ভার একই লগ দুইবার আপলোড করে।
সীমার বাইরের বৈশিষ্ট্যের মান। একজন মানুষ ঘটনাক্রমে একটি অতিরিক্ত অঙ্ক টাইপ করে।
খারাপ লেবেল একজন মানব মূল্যায়নকারী একটি ওক গাছের ছবিকে ম্যাপেল হিসেবে ভুল লেবেল করে।

নিচের যেকোনো সমস্যা সনাক্ত করতে আপনি একটি প্রোগ্রাম বা স্ক্রিপ্ট লিখতে পারেন:

  • বাদ দেওয়া মান
  • নকল উদাহরণ
  • সীমার বাইরের বৈশিষ্ট্যের মান

উদাহরণস্বরূপ, নিম্নলিখিত ডেটাসেটে ছয়টি পুনরাবৃত্তি মান রয়েছে:

চিত্র 15. প্রথম ছয়টি মান পুনরাবৃত্তি হয়। চূড়ান্ত আট মান নয়।
চিত্র 15. প্রথম ছয়টি মান পুনরাবৃত্তি হয়।

অন্য একটি উদাহরণ হিসাবে, ধরুন একটি নির্দিষ্ট বৈশিষ্ট্যের জন্য তাপমাত্রা পরিসীমা 10 থেকে 30 ডিগ্রির মধ্যে হতে হবে, অন্তর্ভুক্ত। কিন্তু দুর্ঘটনা ঘটে—সম্ভবত একটি থার্মোমিটার সাময়িকভাবে সূর্যের সংস্পর্শে আসে যা একটি খারাপ আউটলারের কারণ হয়। আপনার প্রোগ্রাম বা স্ক্রিপ্টকে অবশ্যই 10 এর কম বা 30 এর বেশি তাপমাত্রার মান সনাক্ত করতে হবে:

চিত্র 16. উনিশটি ইন-রেঞ্জ মান এবং একটি রেঞ্জের বাইরের মান।
চিত্র 16. একটি সীমার বাইরের মান।

যখন একাধিক ব্যক্তি দ্বারা লেবেল তৈরি করা হয়, তখন আমরা পরিসংখ্যানগতভাবে নির্ধারণ করার সুপারিশ করি যে প্রতিটি রেটার লেবেলের সমতুল্য সেট তৈরি করেছে কিনা। সম্ভবত একটি রেটার অন্য রেটারদের চেয়ে কঠোর গ্রেডার ছিল বা গ্রেডিংয়ের মানদণ্ডের একটি ভিন্ন সেট ব্যবহার করেছিল?

একবার শনাক্ত হয়ে গেলে, আপনি সাধারণত খারাপ বৈশিষ্ট্য বা খারাপ লেবেলগুলিকে ডেটাসেট থেকে সরিয়ে দিয়ে বা তাদের মানগুলিকে অভিযুক্ত করে "ঠিক" করেন৷ বিশদ বিবরণের জন্য, ডেটাসেট, সাধারণীকরণ এবং ওভারফিটিং মডিউলের ডেটা বৈশিষ্ট্য বিভাগটি দেখুন।