শ্রেণীবদ্ধ তথ্য: সাধারণ সমস্যা

সংখ্যাসূচক তথ্য প্রায়ই বৈজ্ঞানিক যন্ত্র বা স্বয়ংক্রিয় পরিমাপ দ্বারা রেকর্ড করা হয়। শ্রেণীগত তথ্য, অন্য দিকে, প্রায়ই মানুষ বা মেশিন লার্নিং (ML) মডেল দ্বারা শ্রেণীবদ্ধ করা হয়। কে বিভাগ এবং লেবেল সম্পর্কে সিদ্ধান্ত নেয় এবং তারা কীভাবে সেই সিদ্ধান্তগুলি নেয়, সেই ডেটার নির্ভরযোগ্যতা এবং উপযোগিতাকে প্রভাবিত করে।

মানব রেটার

মানুষের দ্বারা ম্যানুয়ালি লেবেল করা ডেটাকে প্রায়শই সোনার লেবেল হিসাবে উল্লেখ করা হয়, এবং তুলনামূলকভাবে ভাল ডেটা মানের কারণে প্রশিক্ষণ মডেলের জন্য মেশিন-লেবেলযুক্ত ডেটার চেয়ে বেশি পছন্দনীয় বলে বিবেচিত হয়।

এর মানে এই নয় যে মানব-লেবেলযুক্ত ডেটার কোনও সেট উচ্চ মানের। ডেটা সংগ্রহের সময় বা ডেটা পরিষ্কার এবং প্রক্রিয়াকরণের সময় মানবিক ত্রুটি, পক্ষপাতিত্ব এবং বিদ্বেষ প্রবর্তন করা যেতে পারে। প্রশিক্ষণের আগে তাদের জন্য পরীক্ষা করুন।

যে কোনো দুটি মানুষ একই উদাহরণকে ভিন্নভাবে লেবেল করতে পারে। মানব রেটারদের সিদ্ধান্তের মধ্যে পার্থক্যকে বলা হয় ইন্টার-রেটর চুক্তি । আপনি উদাহরণ প্রতি একাধিক রেটার ব্যবহার করে এবং আন্তঃ-রেটার চুক্তি পরিমাপ করে রেটারদের মতামতের ভিন্নতার ধারণা পেতে পারেন।

মেশিন রেটার

মেশিন-লেবেলযুক্ত ডেটা, যেখানে বিভাগগুলি স্বয়ংক্রিয়ভাবে এক বা একাধিক শ্রেণীবিভাগ মডেল দ্বারা নির্ধারিত হয়, প্রায়শই সিলভার লেবেল হিসাবে উল্লেখ করা হয়। মেশিন-লেবেলযুক্ত ডেটা গুণমানে ব্যাপকভাবে পরিবর্তিত হতে পারে। এটি শুধুমাত্র সঠিকতা এবং পক্ষপাতের জন্য নয় বরং সাধারণ জ্ঞান, বাস্তবতা এবং উদ্দেশ্য লঙ্ঘনের জন্যও পরীক্ষা করুন। উদাহরণস্বরূপ, যদি একটি কম্পিউটার-ভিশন মডেল একটি মাফিন হিসাবে একটি চিহুয়াহুয়ার একটি ফটোকে ভুল লেবেল করে, বা একটি মাফিনের একটি ফটোকে একটি চিহুয়াহুয়া হিসাবে লেবেল করে, সেই লেবেলযুক্ত ডেটাতে প্রশিক্ষিত মডেলগুলি নিম্ন মানের হবে৷

একইভাবে, একটি অনুভূতি বিশ্লেষক যা নিরপেক্ষ শব্দগুলিকে -0.25 হিসাবে স্কোর করে, যখন 0.0 নিরপেক্ষ মান হয়, এমন একটি অতিরিক্ত নেতিবাচক পক্ষপাতের সাথে সমস্ত শব্দ স্কোর করতে পারে যা আসলে ডেটাতে উপস্থিত নয়। একটি অতিসংবেদনশীল বিষাক্ততা সনাক্তকারী অনেক নিরপেক্ষ বিবৃতিকে বিষাক্ত হিসাবে মিথ্যাভাবে পতাকাঙ্কিত করতে পারে। প্রশিক্ষণের আগে আপনার ডেটাতে মেশিন লেবেল এবং টীকাগুলির গুণমান এবং পক্ষপাতগুলি সম্পর্কে ধারণা পাওয়ার চেষ্টা করুন।

উচ্চমাত্রিকতা

শ্রেণীগত তথ্য উচ্চ-মাত্রিক বৈশিষ্ট্য ভেক্টর উত্পাদন করতে থাকে; অর্থাৎ, বৈশিষ্ট্যযুক্ত ভেক্টরগুলিতে প্রচুর পরিমাণে উপাদান রয়েছে। উচ্চমাত্রিকতা প্রশিক্ষণের খরচ বাড়ায় এবং প্রশিক্ষণকে আরও কঠিন করে তোলে। এই কারণে, এমএল বিশেষজ্ঞরা প্রায়ই প্রশিক্ষণের আগে মাত্রার সংখ্যা কমানোর উপায় খোঁজেন।

প্রাকৃতিক-ভাষা ডেটার জন্য, মাত্রিকতা হ্রাস করার প্রধান পদ্ধতি হল বৈশিষ্ট্য ভেক্টরকে এমবেডিং ভেক্টরে রূপান্তর করা। এই কোর্সে পরে এমবেডিং মডিউলে এটি আলোচনা করা হয়েছে।