শেখার উদ্দেশ্য
এই মডিউলে, আপনি শিখবেন:
- সংগ্রহ এবং মানের সমস্যা সহ কাঁচা বা প্রক্রিয়াকৃত ডেটাসেটের অন্তর্নিহিত সম্ভাব্য সমস্যাগুলি তদন্ত করুন।
- পক্ষপাতিত্ব, অবৈধ অনুমান এবং যৌক্তিকতা চিহ্নিত করুন।
- পারস্পরিক সম্পর্ক, সম্পর্ক এবং অপ্রাসঙ্গিকতা সহ ডেটা বিশ্লেষণে সাধারণ সমস্যাগুলি খুঁজুন।
- সাধারণ সমস্যা, ভুল ধারণা এবং বিভ্রান্তিকর প্রদর্শন এবং নকশা পছন্দের জন্য একটি চার্ট পরীক্ষা করুন।
এমএল অনুপ্রেরণা
মডেল আর্কিটেকচার এবং অন্যান্য ডাউনস্ট্রিম মডেল কাজের মতো চটকদার না হলেও, ডেটা অন্বেষণ, ডকুমেন্টেশন এবং প্রিপ্রসেসিং এমএল কাজের জন্য গুরুত্বপূর্ণ। ML অনুশীলনকারীরা নিথ্যা সাম্বাসিভান এট আল-এর মধ্যে পড়তে পারেন। তাদের 2021 ACM পেপারে ডেটা ক্যাসকেড বলা হয় যদি তারা গভীরভাবে বুঝতে না পারে:
- যে শর্তে তাদের তথ্য সংগ্রহ করা হয়
- ডেটার গুণমান, বৈশিষ্ট্য এবং সীমাবদ্ধতা
- ডেটা কী দেখাতে পারে এবং কী দেখাতে পারে না
খারাপ ডেটার উপর মডেলগুলিকে প্রশিক্ষণ দেওয়া খুব ব্যয়বহুল এবং শুধুমাত্র নিম্ন-মানের আউটপুটগুলিতে ডেটাতে সমস্যা ছিল তা খুঁজে বের করা। একইভাবে, তথ্যের সীমাবদ্ধতা উপলব্ধি করতে ব্যর্থতা, তথ্য সংগ্রহে মানুষের পক্ষপাতিত্ব, বা কার্যকারণের জন্য ভুল পারস্পরিক সম্পর্ক, অতিরিক্ত প্রতিশ্রুতিশীল এবং কম-ডেলিভারির ফলাফল হতে পারে, যা বিশ্বাসের ক্ষতি হতে পারে।
এই কোর্সটি সাধারণ কিন্তু সূক্ষ্ম তথ্য ফাঁদের মধ্য দিয়ে চলে যা এমএল এবং ডেটা অনুশীলনকারীরা তাদের কাজে সম্মুখীন হতে পারে।