এই ইউনিটটি উপযুক্ত বৈশিষ্ট্য ভেক্টরগুলিতে কাঁচা ডেটা ম্যাপ করার উপায়গুলি অন্বেষণ করেছে৷ ভাল সংখ্যাসূচক বৈশিষ্ট্য এই বিভাগে বর্ণিত গুণাবলী ভাগ.
স্পষ্ট নাম
প্রতিটি বৈশিষ্ট্যের একটি পরিষ্কার, বোধগম্য এবং প্রজেক্টের যেকোনো মানুষের কাছে সুস্পষ্ট অর্থ থাকা উচিত। উদাহরণস্বরূপ, নিম্নলিখিত বৈশিষ্ট্য মানের অর্থ বিভ্রান্তিকর:
সুপারিশ করা হয় না
বাড়ির_বয়স: 851472000
বিপরীতে, নিম্নলিখিত বৈশিষ্ট্যের নাম এবং মান অনেক বেশি পরিষ্কার:
প্রস্তাবিত
বাড়ির_বয়স_বছর: ২৭
প্রশিক্ষণের আগে পরীক্ষা করা বা পরীক্ষা করা হয়েছে
যদিও এই মডিউলটি আউটলিয়ারদের জন্য অনেক সময় নিবেদিত করেছে, তবে একটি চূড়ান্ত উল্লেখ করার জন্য বিষয়টি যথেষ্ট গুরুত্বপূর্ণ। কিছু ক্ষেত্রে, খারাপ ডেটা (খারাপ ইঞ্জিনিয়ারিং পছন্দের পরিবর্তে) অস্পষ্ট মান সৃষ্টি করে। উদাহরণ স্বরূপ, নিম্নলিখিত user_age_in_years
একটি উৎস থেকে এসেছে যা উপযুক্ত মান পরীক্ষা করেনি:
সুপারিশ করা হয় না
user_age_in_years: 224
কিন্তু মানুষের বয়স 24 বছর হতে পারে :
প্রস্তাবিত
user_age_in_years: 24
আপনার তথ্য পরীক্ষা করুন!
ইন্দ্রিয়গ্রাহ্য
একটি "জাদু মান" অন্যথায় অবিচ্ছিন্ন বৈশিষ্ট্যে একটি উদ্দেশ্যমূলক বিচ্ছিন্নতা। উদাহরণস্বরূপ, ধরুন watch_time_in_seconds
নামের একটি ক্রমাগত বৈশিষ্ট্য 0 থেকে 30 এর মধ্যে যেকোনো ফ্লোটিং-পয়েন্ট মান ধরে রাখতে পারে কিন্তু ম্যাজিক মান -1 সহ একটি পরিমাপের অনুপস্থিতিকে প্রতিনিধিত্ব করে:
সুপারিশ করা হয় না
দেখার_সময়_সেকেন্ডে: -1
-1- watch_time_in_seconds
মডেলটিকে সময়মতো পিছনের দিকে একটি সিনেমা দেখার অর্থ কী তা বোঝার চেষ্টা করতে বাধ্য করবে৷ ফলাফল মডেল সম্ভবত ভাল ভবিষ্যদ্বাণী করতে হবে না.
একটি ভাল কৌশল হল একটি পৃথক বুলিয়ান বৈশিষ্ট্য তৈরি করা যা নির্দেশ করে যে একটি watch_time_in_seconds
মান সরবরাহ করা হয়েছে কিনা। যেমন:
প্রস্তাবিত
দেখার_সময়_সেকেন্ডে: 4.82
is_watch_time_in_seconds_defined=Trueদেখার_সময়_সেকেন্ডে: 0
is_watch_time_in_seconds_defined=False
এখন একটি বিচ্ছিন্ন সাংখ্যিক বৈশিষ্ট্য বিবেচনা করুন যার মান অবশ্যই একটি সীমিত মানের সেটের অন্তর্ভুক্ত। এই ক্ষেত্রে, যখন একটি মান অনুপস্থিত থাকে, তখন সসীম সেটে একটি নতুন মান ব্যবহার করে অনুপস্থিত মানটিকে নির্দেশ করুন। একটি পৃথক বৈশিষ্ট্য সহ, মডেল অনুপস্থিত বৈশিষ্ট্যগুলির জন্য আসল ওজন সহ প্রতিটি মানের জন্য বিভিন্ন ওজন শিখবে।