যেকোন তত্ত্বাবধানে থাকা মেশিন লার্নিং সমস্যা সমাধানের সবচেয়ে গুরুত্বপূর্ণ ধাপ হল ডেটা সংগ্রহ করা। আপনার টেক্সট ক্লাসিফায়ার শুধুমাত্র ততটা ভালো হতে পারে যতটা ডেটাসেট থেকে তৈরি করা হয়েছে।
আপনার যদি কোনো নির্দিষ্ট সমস্যা না থাকে যা আপনি সমাধান করতে চান এবং শুধুমাত্র সাধারণভাবে পাঠ্য শ্রেণিবিন্যাস অন্বেষণ করতে আগ্রহী হন, তবে প্রচুর ওপেন সোর্স ডেটাসেট উপলব্ধ রয়েছে। আপনি আমাদের GitHub রেপোতে তাদের কিছু লিঙ্ক খুঁজে পেতে পারেন। অন্যদিকে, আপনি যদি একটি নির্দিষ্ট সমস্যা মোকাবেলা করছেন, আপনাকে প্রয়োজনীয় তথ্য সংগ্রহ করতে হবে। অনেক প্রতিষ্ঠান তাদের ডেটা অ্যাক্সেস করার জন্য সর্বজনীন API প্রদান করে—উদাহরণস্বরূপ, X API বা NY Times API । আপনি যে সমস্যাটি সমাধান করার চেষ্টা করছেন তার জন্য আপনি এই API গুলিকে ব্যবহার করতে সক্ষম হতে পারেন৷
তথ্য সংগ্রহ করার সময় এখানে কিছু গুরুত্বপূর্ণ বিষয় মনে রাখতে হবে:
- আপনি যদি একটি সর্বজনীন API ব্যবহার করেন তবে সেগুলি ব্যবহার করার আগে API এর সীমাবদ্ধতাগুলি বুঝুন৷ উদাহরণস্বরূপ, কিছু এপিআই আপনি যে হারে প্রশ্ন করতে পারেন তার একটি সীমা নির্ধারণ করে।
- আপনার কাছে যত বেশি প্রশিক্ষণের উদাহরণ (এই গাইডের বাকি অংশে নমুনা হিসাবে উল্লেখ করা হয়েছে) তত ভাল। এটি আপনার মডেলকে আরও ভালোভাবে সাধারণীকরণ করতে সাহায্য করবে।
- নিশ্চিত করুন যে প্রতিটি ক্লাস বা বিষয়ের জন্য নমুনার সংখ্যা অতিরিক্ত ভারসাম্যহীন নয়। অর্থাৎ, প্রতিটি ক্লাসে আপনার তুলনামূলক সংখ্যক নমুনা থাকা উচিত।
- নিশ্চিত করুন যে আপনার নমুনাগুলি শুধুমাত্র সাধারণ ক্ষেত্রেই নয়, সম্ভাব্য ইনপুটগুলির স্থানকে পর্যাপ্তভাবে কভার করে৷
এই নির্দেশিকা জুড়ে, আমরা ইন্টারনেট মুভি ডেটাবেস (IMDb) মুভি রিভিউ ডেটাসেট ব্যবহার করব কর্মপ্রবাহকে চিত্রিত করতে। এই ডেটাসেটে আইএমডিবি ওয়েবসাইটে লোকেদের দ্বারা পোস্ট করা মুভি রিভিউ রয়েছে, সেইসাথে সংশ্লিষ্ট লেবেলগুলি ("ইতিবাচক" বা "নেতিবাচক") যা নির্দেশ করে যে পর্যালোচক মুভিটি পছন্দ করেছেন কিনা। এটি একটি অনুভূতি বিশ্লেষণ সমস্যার একটি ক্লাসিক উদাহরণ।