ডেটাসেট: লেবেল

এই বিভাগটি লেবেলের উপর আলোকপাত করে।

ডাইরেক্ট বনাম প্রক্সি লেবেল

দুটি ভিন্ন ধরণের লেবেল বিবেচনা করুন:

  • ডাইরেক্ট লেবেল , যা আপনার মডেল যে ভবিষ্যদ্বাণী করার চেষ্টা করছে তার অনুরূপ লেবেল। অর্থাৎ, আপনার মডেল যে ভবিষ্যদ্বাণী করার চেষ্টা করছে তা আপনার ডেটাসেটে একটি কলাম হিসাবে উপস্থিত রয়েছে। উদাহরণস্বরূপ, bicycle owner নামে একটি কলাম একটি বাইনারি শ্রেণীবিভাগ মডেলের জন্য একটি ডাইরেক্ট লেবেল হবে যা ভবিষ্যদ্বাণী করে যে কোনও ব্যক্তির একটি সাইকেল আছে কিনা।
  • প্রক্সি লেবেল , যা এমন লেবেল যা আপনার মডেল যে ভবিষ্যদ্বাণী করার চেষ্টা করছে তার সাথে সাদৃশ্যপূর্ণ—কিন্তু অভিন্ন নয়। উদাহরণস্বরূপ, বাইসাইকেল বিজার ম্যাগাজিনের সাবস্ক্রাইবকারী একজন ব্যক্তি সম্ভবত—কিন্তু নিশ্চিতভাবে নয়—একটি সাইকেলের মালিক।

ডাইরেক্ট লেবেলগুলি সাধারণত প্রক্সি লেবেলের চেয়ে ভালো। যদি আপনার ডেটাসেটে সম্ভাব্য ডাইরেক্ট লেবেল থাকে, তাহলে আপনার সম্ভবত এটি ব্যবহার করা উচিত। যদিও প্রায়শই, ডাইরেক্ট লেবেলগুলি উপলব্ধ থাকে না।

প্রক্সি লেবেলগুলি সর্বদা একটি আপস - একটি সরাসরি লেবেলের একটি অসম্পূর্ণ আনুমানিকতা। যাইহোক, কিছু প্রক্সি লেবেল কার্যকর হওয়ার জন্য যথেষ্ট আনুমানিকতা। প্রক্সি লেবেল ব্যবহার করে এমন মডেলগুলি কেবল প্রক্সি লেবেল এবং পূর্বাভাসের মধ্যে সংযোগের মতোই কার্যকর।

মনে রাখবেন যে প্রতিটি লেবেলকে অবশ্যই একটি ফ্লোটিং-পয়েন্ট সংখ্যা হিসেবে উপস্থাপন করতে হবে, যা ফিচার ভেক্টরের মতো (কারণ মেশিন লার্নিং মূলত গাণিতিক ক্রিয়াকলাপের একটি সংগ্রহ)। কখনও কখনও, একটি সরাসরি লেবেল বিদ্যমান থাকে কিন্তু সহজেই একটি ফ্লোটিং-পয়েন্ট সংখ্যা হিসেবে উপস্থাপন করা যায় না। এই ক্ষেত্রে, একটি প্রক্সি লেবেল ব্যবহার করুন।

অনুশীলন: আপনার বোধগম্যতা পরীক্ষা করুন

আপনার কোম্পানি নিম্নলিখিত কাজগুলি করতে চায়:

সাইকেল মালিকদের কাছে কুপন ("নতুন সাইকেল হেলমেটে ১৫% ছাড় পান") ডাকযোগে পাঠান।

সুতরাং, আপনার মডেলকে নিম্নলিখিতগুলি করতে হবে:

কোন কোন মানুষের সাইকেল আছে তা অনুমান করুন।

দুর্ভাগ্যবশত, ডেটাসেটে bike owner নামে একটি কলাম নেই। তবে, ডেটাসেটে " recently bought a bicycle নামে একটি কলাম রয়েছে।

এই মডেলের জন্য recently bought a bicycle কি ভালো প্রক্সি লেবেল হবে, নাকি খারাপ প্রক্সি লেবেল হবে?
ভালো প্রক্সি লেবেল
recently bought a bicycle কলামটি তুলনামূলকভাবে ভালো একটি প্রক্সি লেবেল। সর্বোপরি, যারা সাইকেল কেনেন তাদের বেশিরভাগেরই এখন সাইকেল থাকে। তবুও, সমস্ত প্রক্সি লেবেলের মতো, এমনকি খুব ভালো সাইকেলও, recently bought a bicycle অসম্পূর্ণ। সর্বোপরি, যে ব্যক্তি কোনও জিনিস কিনছেন তিনি সর্বদা সেই জিনিসটি ব্যবহার করছেন (অথবা মালিক) নন। উদাহরণস্বরূপ, লোকেরা কখনও কখনও উপহার হিসেবে সাইকেল কেনেন।
প্রক্সি লেবেলটি খারাপ
সমস্ত প্রক্সি লেবেলের মতো, recently bought a bicycle অসম্পূর্ণ (কিছু সাইকেল উপহার হিসেবে কেনা হয় এবং অন্যদের দেওয়া হয়)। তবে, recently bought a bicycle এখনও তুলনামূলকভাবে ভালো সূচক যে কারও একটি সাইকেল আছে।

মানব-সৃষ্ট তথ্য

কিছু তথ্য মানুষের তৈরি ; অর্থাৎ, এক বা একাধিক মানুষ কিছু তথ্য পরীক্ষা করে এবং সাধারণত লেবেলের জন্য একটি মান প্রদান করে। উদাহরণস্বরূপ, এক বা একাধিক আবহাওয়াবিদ আকাশের ছবি পরীক্ষা করে মেঘের ধরণ সনাক্ত করতে পারেন।

বিকল্পভাবে, কিছু তথ্য স্বয়ংক্রিয়ভাবে তৈরি হয় । অর্থাৎ, সফ্টওয়্যার (সম্ভবত, অন্য একটি মেশিন লার্নিং মডেল) মান নির্ধারণ করে। উদাহরণস্বরূপ, একটি মেশিন লার্নিং মডেল আকাশের ছবি পরীক্ষা করতে পারে এবং স্বয়ংক্রিয়ভাবে মেঘের ধরণ সনাক্ত করতে পারে।

এই বিভাগটি মানব-সৃষ্ট তথ্যের সুবিধা এবং অসুবিধাগুলি অন্বেষণ করে।

সুবিধাদি

  • মানব মূল্যায়নকারীরা বিস্তৃত পরিসরের কাজ সম্পাদন করতে পারেন যা এমনকি অত্যাধুনিক মেশিন লার্নিং মডেলগুলির জন্যও কঠিন বলে মনে হতে পারে।
  • এই প্রক্রিয়াটি ডেটাসেটের মালিককে স্পষ্ট এবং সামঞ্জস্যপূর্ণ মানদণ্ড তৈরি করতে বাধ্য করে।

অসুবিধাগুলি

  • আপনি সাধারণত মানব রেটিংকারীদের অর্থ প্রদান করেন, তাই মানব-উত্পাদিত ডেটা ব্যয়বহুল হতে পারে।
  • ভুল করা মানুষের কাজ। অতএব, একাধিক মানব মূল্যায়নকারীকে একই তথ্য মূল্যায়ন করতে হতে পারে।

আপনার চাহিদা নির্ধারণের জন্য এই প্রশ্নগুলি বিবেচনা করুন:

  • আপনার রেটিংকারীদের কতটা দক্ষ হতে হবে? (উদাহরণস্বরূপ, রেটিংকারীদের কি একটি নির্দিষ্ট ভাষা জানা উচিত? সংলাপ বা NLP অ্যাপ্লিকেশনের জন্য আপনার কি ভাষাবিদদের প্রয়োজন?)
  • আপনার কতগুলি লেবেলযুক্ত উদাহরণের প্রয়োজন? কত তাড়াতাড়ি আপনার সেগুলি প্রয়োজন?
  • আপনার বাজেট কত?

সর্বদা আপনার মানব রেটিংকারীদের দুবার পরীক্ষা করুন । উদাহরণস্বরূপ, নিজে ১০০০টি উদাহরণ লেবেল করুন এবং দেখুন আপনার ফলাফল অন্যান্য রেটিংকারীদের ফলাফলের সাথে কীভাবে মেলে। যদি অসঙ্গতি দেখা দেয়, তাহলে ধরে নেবেন না যে আপনার রেটিংগুলি সঠিক, বিশেষ করে যদি কোনও মূল্য বিচার জড়িত থাকে। যদি মানব রেটিংকারীরা ত্রুটিগুলি উপস্থাপন করে থাকে, তাহলে তাদের সাহায্য করার জন্য নির্দেশাবলী যোগ করার কথা বিবেচনা করুন এবং আবার চেষ্টা করুন।