ডেটাসেট: ডেটা ট্রান্সফর্মিং

মেশিন লার্নিং মডেলগুলি শুধুমাত্র ফ্লোটিং-পয়েন্ট মানগুলিতে প্রশিক্ষণ দিতে পারে। যাইহোক, অনেক ডেটাসেট বৈশিষ্ট্য প্রাকৃতিকভাবে ভাসমান-বিন্দু মান নয় । অতএব, মেশিন লার্নিং-এর একটি গুরুত্বপূর্ণ অংশ হল নন-ফ্লোটিং-পয়েন্ট বৈশিষ্ট্যগুলিকে ফ্লোটিং-পয়েন্ট উপস্থাপনায় রূপান্তর করা।

উদাহরণস্বরূপ, ধরুন street names একটি বৈশিষ্ট্য। বেশিরভাগ রাস্তার নাম স্ট্রিং, যেমন "ব্রডওয়ে" বা "ভিলাকাজি"। আপনার মডেল "ব্রডওয়ে" তে প্রশিক্ষণ দিতে পারে না, তাই আপনাকে অবশ্যই "ব্রডওয়ে" কে একটি ফ্লোটিং-পয়েন্ট নম্বরে রূপান্তর করতে হবে৷ ক্যাটেগরিক্যাল ডেটা মডিউল ব্যাখ্যা করে কিভাবে এটি করতে হয়।

উপরন্তু, আপনি এমনকি সবচেয়ে ভাসমান-বিন্দু বৈশিষ্ট্য রূপান্তর করা উচিত. এই রূপান্তর প্রক্রিয়া, যাকে বলা হয় স্বাভাবিকীকরণ , ভাসমান-বিন্দু সংখ্যাকে একটি সীমাবদ্ধ পরিসরে রূপান্তর করে যা মডেল প্রশিক্ষণকে উন্নত করে। সংখ্যাসূচক ডেটা মডিউল ব্যাখ্যা করে কিভাবে এটি করতে হয়।

নমুনা ডেটা যখন আপনার কাছে অনেক বেশি থাকে

কিছু সংস্থা প্রচুর পরিমাণে ডেটা দিয়ে আশীর্বাদপ্রাপ্ত।যখন ডেটাসেটে অনেকগুলি উদাহরণ থাকে, তখন আপনাকে প্রশিক্ষণের জন্য উদাহরণগুলির একটি উপসেট নির্বাচন করতে হবে। যখন সম্ভব, আপনার মডেলের ভবিষ্যদ্বাণীগুলির সাথে সবচেয়ে প্রাসঙ্গিক উপসেটটি নির্বাচন করুন৷

PII ধারণকারী উদাহরণগুলি ফিল্টার করুন৷

ভাল ডেটাসেটগুলি ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য (PII) ধারণকারী উদাহরণ বাদ দেয়। এই নীতি গোপনীয়তা রক্ষা করতে সাহায্য করে কিন্তু মডেলকে প্রভাবিত করতে পারে।

এই বিষয়ে আরও জানতে কোর্সে পরে নিরাপত্তা এবং গোপনীয়তা মডিউলটি দেখুন।