ডেটাসেট: লেবেল

এই বিভাগটি লেবেলগুলিতে ফোকাস করে।

প্রক্সি লেবেল বনাম সরাসরি

দুটি ভিন্ন ধরনের লেবেল বিবেচনা করুন:

  • প্রত্যক্ষ লেবেলগুলি , যেগুলি আপনার মডেল যে ভবিষ্যদ্বাণী করার চেষ্টা করছে তার অনুরূপ লেবেল৷ অর্থাৎ, আপনার মডেল যে ভবিষ্যদ্বাণীটি করার চেষ্টা করছে তা আপনার ডেটাসেটে একটি কলাম হিসাবে উপস্থিত রয়েছে। উদাহরণস্বরূপ, bicycle owner নামে একটি কলাম একটি বাইনারি শ্রেণিবিন্যাস মডেলের জন্য একটি সরাসরি লেবেল হবে যা ভবিষ্যদ্বাণী করে যে একজন ব্যক্তি একটি সাইকেলের মালিক কিনা।
  • প্রক্সি লেবেলগুলি , যেগুলি লেবেলগুলি অনুরূপ—কিন্তু অভিন্ন নয়—আপনার মডেল যে ভবিষ্যদ্বাণী করার চেষ্টা করছে৷ উদাহরণ স্বরূপ, একজন ব্যক্তি সাইকেল বিজেয়ার ম্যাগাজিনে সাবস্ক্রাইব করছেন সম্ভবত—কিন্তু নিশ্চিতভাবে নয়—একটি সাইকেলের মালিক৷

প্রক্সি লেবেলগুলির চেয়ে সরাসরি লেবেলগুলি সাধারণত ভাল। যদি আপনার ডেটাসেট একটি সম্ভাব্য সরাসরি লেবেল প্রদান করে, আপনার সম্ভবত এটি ব্যবহার করা উচিত। যদিও প্রায়ই, সরাসরি লেবেল পাওয়া যায় না।

প্রক্সি লেবেলগুলি সর্বদা একটি আপস-একটি সরাসরি লেবেলের একটি অপূর্ণ অনুমান। যাইহোক, কিছু প্রক্সি লেবেল উপযোগী হওয়ার জন্য যথেষ্ট কাছাকাছি। যে মডেলগুলি প্রক্সি লেবেল ব্যবহার করে সেগুলি প্রক্সি লেবেল এবং ভবিষ্যদ্বাণীর মধ্যে সংযোগের মতোই কার্যকর৷

মনে রাখবেন যে প্রতিটি লেবেল অবশ্যই বৈশিষ্ট্য ভেক্টরে একটি ফ্লোটিং-পয়েন্ট সংখ্যা হিসাবে উপস্থাপন করা উচিত (কারণ মেশিন লার্নিং মূলত গাণিতিক ক্রিয়াকলাপের একটি বিশাল সংমিশ্রণ)। কখনও কখনও, একটি সরাসরি লেবেল বিদ্যমান থাকে কিন্তু বৈশিষ্ট্য ভেক্টরে একটি ফ্লোটিং-পয়েন্ট সংখ্যা হিসাবে সহজে উপস্থাপন করা যায় না। এই ক্ষেত্রে, একটি প্রক্সি লেবেল ব্যবহার করুন।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

আপনার কোম্পানি নিম্নলিখিত কাজ করতে চায়:

সাইকেল মালিকদের মেল কুপন ("একটি নতুন সাইকেলে 15% ছাড়ে আপনার পুরানো সাইকেলে ট্রেড করুন")।

সুতরাং, আপনার মডেল নিম্নলিখিত করতে হবে:

ভবিষ্যদ্বাণী করুন কোন লোকেদের একটি সাইকেল আছে।

দুর্ভাগ্যবশত, ডেটাসেটে bike owner নামে একটি কলাম নেই। যাইহোক, ডেটাসেটে recently bought a bicycle নামে একটি কলাম রয়েছে।

recently bought a bicycle কি এই মডেলের জন্য একটি ভাল প্রক্সি লেবেল বা একটি খারাপ প্রক্সি লেবেল হবে?
ভালো প্রক্সি লেবেল
কলাম recently bought a bicycle একটি অপেক্ষাকৃত ভাল প্রক্সি লেবেল. সর্বোপরি, যারা সাইকেল কেনেন তাদের বেশিরভাগই এখন সাইকেলের মালিক। তা সত্ত্বেও, সমস্ত প্রক্সি লেবেলের মতো, এমনকি খুব ভাল, recently bought a bicycle অসম্পূর্ণ। সর্বোপরি, যে ব্যক্তি একটি আইটেম কিনছেন তিনি সর্বদা সেই আইটেমটি ব্যবহার করছেন (বা মালিক) নন। উদাহরণস্বরূপ, লোকেরা কখনও কখনও উপহার হিসাবে বাইসাইকেল কিনে থাকে।
দুর্বল প্রক্সি লেবেল
সমস্ত প্রক্সি লেবেলের মতো, recently bought a bicycle অসম্পূর্ণ (কিছু সাইকেল উপহার হিসাবে কেনা হয় এবং অন্যদের দেওয়া হয়)। যাইহোক, recently bought a bicycle এখনও একটি অপেক্ষাকৃত ভাল সূচক যে কেউ একটি সাইকেল মালিক.

মানুষের তৈরি তথ্য

কিছু তথ্য মানুষের দ্বারা তৈরি ; অর্থাৎ, এক বা একাধিক মানুষ কিছু তথ্য পরীক্ষা করে এবং একটি মান প্রদান করে, সাধারণত লেবেলের জন্য। উদাহরণস্বরূপ, এক বা একাধিক আবহাওয়াবিদ আকাশের ছবি পরীক্ষা করে মেঘের ধরন শনাক্ত করতে পারেন।

বিকল্পভাবে, কিছু ডেটা স্বয়ংক্রিয়ভাবে তৈরি হয়। অর্থাৎ, সফ্টওয়্যার (সম্ভবত, অন্য মেশিন লার্নিং মডেল) মান নির্ধারণ করে। উদাহরণস্বরূপ, একটি মেশিন-লার্নিং মডেল আকাশের ছবি পরীক্ষা করতে পারে এবং স্বয়ংক্রিয়ভাবে মেঘের ধরন সনাক্ত করতে পারে।

এই বিভাগটি মানুষের দ্বারা তৈরি ডেটার সুবিধা এবং অসুবিধাগুলি অন্বেষণ করে৷

সুবিধা

  • হিউম্যান রেটাররা বিস্তৃত পরিসরের কাজগুলি সম্পাদন করতে পারে যা এমনকি অত্যাধুনিক মেশিন লার্নিং মডেলগুলিও কঠিন হতে পারে।
  • প্রক্রিয়াটি ডেটাসেটের মালিককে স্পষ্ট এবং সামঞ্জস্যপূর্ণ মানদণ্ড বিকাশ করতে বাধ্য করে।

অসুবিধা

  • আপনি সাধারণত হিউম্যান রেটারগুলিকে অর্থ প্রদান করেন, তাই মানুষের দ্বারা তৈরি ডেটা ব্যয়বহুল হতে পারে।
  • ভুল করা মানবিক। অতএব, একাধিক মানব রেটারকে একই ডেটা মূল্যায়ন করতে হতে পারে।

আপনার চাহিদা নির্ধারণ করতে এই প্রশ্নগুলির মাধ্যমে চিন্তা করুন:

  • আপনার রেটারদের কতটা দক্ষ হতে হবে? (উদাহরণস্বরূপ, রেটারদের কি একটি নির্দিষ্ট ভাষা জানা উচিত? আপনার কি সংলাপ বা NLP অ্যাপ্লিকেশনের জন্য ভাষাবিদদের প্রয়োজন?)
  • কতগুলি লেবেলযুক্ত উদাহরণ আপনার প্রয়োজন? কত তাড়াতাড়ি আপনি তাদের প্রয়োজন?
  • আপনার বাজেট কি?

সর্বদা আপনার হিউম্যান রেটারগুলিকে দুবার চেক করুন । উদাহরণস্বরূপ, নিজেকে 1000টি উদাহরণ লেবেল করুন, এবং দেখুন কিভাবে আপনার ফলাফল অন্যান্য রেটারদের ফলাফলের সাথে মেলে। অসঙ্গতি দেখা দিলে, আপনার রেটিং সঠিক বলে ধরে নিবেন না, বিশেষ করে যদি কোনো মূল্য বিচার জড়িত থাকে। যদি মানব রেটাররা ত্রুটিগুলি প্রবর্তন করে থাকে, তাহলে তাদের সাহায্য করার জন্য নির্দেশাবলী যোগ করার কথা বিবেচনা করুন এবং আবার চেষ্টা করুন।