একটি মেশিন লার্নিং মডেল সরাসরি ইনপুট উদাহরণ দেখতে, শুনতে বা বুঝতে পারে না। পরিবর্তে, ডেটার মূল গুণাবলীর মধ্যে একটি দরকারী সুবিধার পয়েন্ট সহ মডেল প্রদান করার জন্য আপনাকে অবশ্যই ডেটার একটি উপস্থাপনা তৈরি করতে হবে। অর্থাৎ, একটি মডেলকে প্রশিক্ষিত করার জন্য, আপনাকে অবশ্যই এমন বৈশিষ্ট্যগুলির সেট বেছে নিতে হবে যা ডেটাকে সর্বোত্তমভাবে উপস্থাপন করে।
প্রতিনিধিত্ব
কাঁচা ডেটা থেকে বৈশিষ্ট্য পর্যন্ত
ধারণাটি হল বাম দিকের ভেক্টরের প্রতিটি অংশকে এক বা একাধিক ক্ষেত্রে ডানদিকের বৈশিষ্ট্য ভেক্টরে ম্যাপ করা।
কাঁচা ডেটা থেকে বৈশিষ্ট্য পর্যন্ত
কাঁচা ডেটা থেকে বৈশিষ্ট্য পর্যন্ত
কাঁচা ডেটা থেকে বৈশিষ্ট্য পর্যন্ত
অভিধান প্রতিটি রাস্তার নাম {0, ...,V-1}- এ একটি int-এ ম্যাপ করে
এখন উপরের এক-হট ভেক্টরকে < i > হিসাবে উপস্থাপন করুন
একটি ভাল বৈশিষ্ট্য বৈশিষ্ট্য
বৈশিষ্ট্যের মানগুলি ডেটাসেটে অল্প মুষ্টিমেয় সময়ের চেয়ে শূন্য নয় এমন মানের সাথে উপস্থিত হওয়া উচিত।
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
একটি ভাল বৈশিষ্ট্য বৈশিষ্ট্য
বৈশিষ্ট্যগুলির একটি পরিষ্কার, সুস্পষ্ট অর্থ থাকা উচিত।
user_age:23
user_age:123456789
একটি ভাল বৈশিষ্ট্য বৈশিষ্ট্য
বৈশিষ্ট্য "জাদু" মান গ্রহণ করা উচিত নয়
(পরিবর্তে একটি অতিরিক্ত বুলিয়ান বৈশিষ্ট্য ব্যবহার করুন যেমন watch_time_is_defined!)
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
একটি ভাল বৈশিষ্ট্য বৈশিষ্ট্য
একটি বৈশিষ্ট্যের সংজ্ঞা সময়ের সাথে পরিবর্তন করা উচিত নয়।
(অন্যান্য এমএল সিস্টেমের উপর নির্ভর করে সাবধান!)
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
একটি ভাল বৈশিষ্ট্য বৈশিষ্ট্য
বিতরণে চরম বহিঃপ্রকাশ থাকা উচিত নয়
আদর্শভাবে সমস্ত বৈশিষ্ট্য একই পরিসরে রূপান্তরিত হয়, যেমন (-1, 1) বা (0, 5)।
বিনিং ট্রিক
বিনিং ট্রিক
একাধিক বুলিয়ান বিন তৈরি করুন, প্রতিটি ম্যাপিং একটি নতুন অনন্য বৈশিষ্ট্যে
মডেলকে প্রতিটি বিনের জন্য আলাদা মান ফিট করার অনুমতি দেয়
ভালো অভ্যাস
আপনার ডেটা জানুন
ভিজ্যুয়ালাইজ করুন : প্লট হিস্টোগ্রাম, সর্বাধিক থেকে কম সাধারণ র্যাঙ্ক।
ডিবাগ : নকল উদাহরণ? অনুপস্থিত মানের? বহিরাগত? ডেটা ড্যাশবোর্ডের সাথে একমত? প্রশিক্ষণ এবং বৈধতা তথ্য অনুরূপ?
মনিটর : ফিচার কোয়ান্টাইল, সময়ের সাথে উদাহরণের সংখ্যা?