বৈশিষ্ট্য ভেক্টর তৈরি করার আগে, আমরা দুটি উপায়ে সংখ্যাসূচক ডেটা অধ্যয়ন করার পরামর্শ দিই:
- প্লট বা গ্রাফে আপনার ডেটা কল্পনা করুন।
- আপনার ডেটা সম্পর্কে পরিসংখ্যান পান।
আপনার ডেটা কল্পনা করুন
গ্রাফগুলি আপনাকে ডেটাতে লুকিয়ে থাকা অসঙ্গতি বা নিদর্শনগুলি খুঁজে পেতে সহায়তা করতে পারে। অতএব, বিশ্লেষণে অনেক দূর যাওয়ার আগে, আপনার ডেটা গ্রাফিকভাবে দেখুন, হয় স্ক্যাটার প্লট বা হিস্টোগ্রাম হিসাবে। শুধুমাত্র ডাটা পাইপলাইনের শুরুতেই নয়, ডেটা ট্রান্সফরমেশন জুড়েও গ্রাফ দেখুন। ভিজ্যুয়ালাইজেশন আপনাকে ক্রমাগত আপনার অনুমান পরীক্ষা করতে সাহায্য করে।
আমরা ভিজ্যুয়ালাইজেশনের জন্য পান্ডাদের সাথে কাজ করার পরামর্শ দিই:
উল্লেখ্য যে নির্দিষ্ট কিছু ভিজ্যুয়ালাইজেশন টুল নির্দিষ্ট ডেটা ফরম্যাটের জন্য অপ্টিমাইজ করা হয়েছে। একটি ভিজ্যুয়ালাইজেশন টুল যা আপনাকে প্রোটোকল বাফারগুলি মূল্যায়ন করতে সাহায্য করে CSV ডেটা মূল্যায়নে আপনাকে সাহায্য করতে পারে বা নাও পারে৷
পরিসংখ্যানগতভাবে আপনার ডেটা মূল্যায়ন করুন
ভিজ্যুয়াল বিশ্লেষণের বাইরে, আমরা সম্ভাব্য বৈশিষ্ট্যগুলি এবং লেবেলগুলিকে গাণিতিকভাবে মূল্যায়ন করার সুপারিশ করি, মৌলিক পরিসংখ্যান সংগ্রহ করে যেমন:
- গড় এবং মধ্যমা
- আদর্শ বিচ্যুতি
- কোয়ার্টাইল ডিভিশনের মানগুলি: 0ম, 25তম, 50তম, 75তম এবং 100তম শতাংশ। 0ম পার্সেন্টাইল হল এই কলামের সর্বনিম্ন মান; 100 তম পার্সেন্টাইল হল এই কলামের সর্বোচ্চ মান। (50 তম পার্সেন্টাইল হল মধ্যক।)
আউটলিয়ার খুঁজুন
একটি আউটলিয়ার হল একটি বৈশিষ্ট্য বা লেবেলে থাকা অন্যান্য মানগুলির থেকে একটি মান। বহিরাগতরা প্রায়ই মডেল প্রশিক্ষণে সমস্যা সৃষ্টি করে, তাই বহিরাগতদের খুঁজে বের করা গুরুত্বপূর্ণ।
যখন 0 তম এবং 25 তম পার্সেন্টাইলের মধ্যে বদ্বীপটি 75 তম এবং 100 তম পার্সেন্টাইলের মধ্যবর্তী বদ্বীপ থেকে উল্লেখযোগ্যভাবে পৃথক হয়, তখন ডেটাসেটে সম্ভবত আউটলিয়ার থাকে৷
বহিরাগতরা নিম্নলিখিত যে কোনো বিভাগে পড়তে পারে:
- বাহ্যিক ভুলের কারণে। উদাহরণস্বরূপ, সম্ভবত একজন পরীক্ষক ভুলবশত একটি অতিরিক্ত শূন্য প্রবেশ করেছেন, অথবা সম্ভবত একটি যন্ত্র যা ডেটা সংগ্রহ করেছে ত্রুটিপূর্ণ। আপনি সাধারণত ভুল বহির্মুখী উদাহরণগুলি মুছে ফেলবেন।
- আউটলায়ারটি একটি বৈধ ডেটা পয়েন্ট, ভুল নয় । এই ক্ষেত্রে, আপনার প্রশিক্ষিত মডেলের শেষ পর্যন্ত এই বহিরাগতদের উপর ভাল ভবিষ্যদ্বাণী করতে হবে?
- যদি হ্যাঁ, এই বহিরাগতদের আপনার প্রশিক্ষণ সেটে রাখুন। সর্বোপরি, কিছু বৈশিষ্ট্যের আউটলায়াররা কখনও কখনও লেবেলে আউটলারকে মিরর করে, তাই আউটলায়াররা আসলে আপনার মডেলকে আরও ভাল ভবিষ্যদ্বাণী করতে সাহায্য করতে পারে। সতর্ক থাকুন, চরম বহিরাগতরা এখনও আপনার মডেলকে আঘাত করতে পারে।
- যদি না হয়, আউটলারগুলি মুছুন বা আরও আক্রমণাত্মক বৈশিষ্ট্য ইঞ্জিনিয়ারিং কৌশল প্রয়োগ করুন, যেমন ক্লিপিং ৷