সংখ্যাসূচক তথ্য: ভাল সংখ্যাসূচক বৈশিষ্ট্যের গুণাবলী

এই ইউনিটটি উপযুক্ত বৈশিষ্ট্য ভেক্টরগুলিতে কাঁচা ডেটা ম্যাপ করার উপায়গুলি অন্বেষণ করেছে৷ ভাল সংখ্যাসূচক বৈশিষ্ট্য এই বিভাগে বর্ণিত গুণাবলী ভাগ.

স্পষ্ট নাম

প্রতিটি বৈশিষ্ট্যের একটি পরিষ্কার, বোধগম্য এবং প্রজেক্টের যেকোনো মানুষের কাছে সুস্পষ্ট অর্থ থাকা উচিত। উদাহরণস্বরূপ, নিম্নলিখিত বৈশিষ্ট্য মানের অর্থ বিভ্রান্তিকর:

সুপারিশ করা হয় না

বাড়ির_বয়স: 851472000

বিপরীতে, নিম্নলিখিত বৈশিষ্ট্যের নাম এবং মান অনেক বেশি পরিষ্কার:

প্রস্তাবিত

বাড়ির_বয়স_বছর: ২৭

প্রশিক্ষণের আগে পরীক্ষা করা বা পরীক্ষা করা হয়েছে

যদিও এই মডিউলটি আউটলিয়ারদের জন্য অনেক সময় নিবেদিত করেছে, তবে একটি চূড়ান্ত উল্লেখ করার জন্য বিষয়টি যথেষ্ট গুরুত্বপূর্ণ। কিছু ক্ষেত্রে, খারাপ ডেটা (খারাপ ইঞ্জিনিয়ারিং পছন্দের পরিবর্তে) অস্পষ্ট মান সৃষ্টি করে। উদাহরণ স্বরূপ, নিম্নলিখিত user_age_in_years একটি উৎস থেকে এসেছে যা উপযুক্ত মান পরীক্ষা করেনি:

সুপারিশ করা হয় না

user_age_in_years: 224

কিন্তু মানুষের বয়স 24 বছর হতে পারে :

প্রস্তাবিত

user_age_in_years: 24

আপনার তথ্য পরীক্ষা করুন!

ইন্দ্রিয়গ্রাহ্য

একটি "জাদু মান" অন্যথায় অবিচ্ছিন্ন বৈশিষ্ট্যে একটি উদ্দেশ্যমূলক বিচ্ছিন্নতা। উদাহরণস্বরূপ, ধরুন watch_time_in_seconds নামের একটি ক্রমাগত বৈশিষ্ট্য 0 থেকে 30 এর মধ্যে যেকোনো ফ্লোটিং-পয়েন্ট মান ধরে রাখতে পারে কিন্তু ম্যাজিক মান -1 সহ একটি পরিমাপের অনুপস্থিতিকে প্রতিনিধিত্ব করে:

সুপারিশ করা হয় না

দেখার_সময়_সেকেন্ডে: -1

-1- watch_time_in_seconds মডেলটিকে সময়মতো পিছনের দিকে একটি সিনেমা দেখার অর্থ কী তা বোঝার চেষ্টা করতে বাধ্য করবে৷ ফলাফল মডেল সম্ভবত ভাল ভবিষ্যদ্বাণী করতে হবে না.

একটি ভাল কৌশল হল একটি পৃথক বুলিয়ান বৈশিষ্ট্য তৈরি করা যা নির্দেশ করে যে একটি watch_time_in_seconds মান সরবরাহ করা হয়েছে কিনা। যেমন:

প্রস্তাবিত

দেখার_সময়_সেকেন্ডে: 4.82
is_watch_time_in_seconds_defined=True

দেখার_সময়_সেকেন্ডে: 0
is_watch_time_in_seconds_defined=False

এখন একটি বিচ্ছিন্ন সাংখ্যিক বৈশিষ্ট্য বিবেচনা করুন যার মান অবশ্যই একটি সীমিত মানের সেটের অন্তর্ভুক্ত। এই ক্ষেত্রে, যখন একটি মান অনুপস্থিত থাকে, তখন সসীম সেটে একটি নতুন মান ব্যবহার করে অনুপস্থিত মানটিকে নির্দেশ করুন। একটি পৃথক বৈশিষ্ট্য সহ, মডেল অনুপস্থিত বৈশিষ্ট্যগুলির জন্য আসল ওজন সহ প্রতিটি মানের জন্য বিভিন্ন ওজন শিখবে।