এই বিভাগটি লেবেলগুলিতে ফোকাস করে।
প্রক্সি লেবেল বনাম সরাসরি
দুটি ভিন্ন ধরনের লেবেল বিবেচনা করুন:
- প্রত্যক্ষ লেবেলগুলি , যেগুলি আপনার মডেল যে ভবিষ্যদ্বাণী করার চেষ্টা করছে তার অনুরূপ লেবেল৷ অর্থাৎ, আপনার মডেল যে ভবিষ্যদ্বাণীটি করার চেষ্টা করছে তা আপনার ডেটাসেটে একটি কলাম হিসাবে উপস্থিত রয়েছে। উদাহরণস্বরূপ,
bicycle owner
নামে একটি কলাম একটি বাইনারি শ্রেণিবিন্যাস মডেলের জন্য একটি সরাসরি লেবেল হবে যা ভবিষ্যদ্বাণী করে যে একজন ব্যক্তি একটি সাইকেলের মালিক কিনা। - প্রক্সি লেবেলগুলি , যেগুলি লেবেলগুলি অনুরূপ—কিন্তু অভিন্ন নয়—আপনার মডেল যে ভবিষ্যদ্বাণী করার চেষ্টা করছে৷ উদাহরণ স্বরূপ, একজন ব্যক্তি সাইকেল বিজেয়ার ম্যাগাজিনে সাবস্ক্রাইব করছেন সম্ভবত—কিন্তু নিশ্চিতভাবে নয়—একটি সাইকেলের মালিক৷
প্রক্সি লেবেলগুলির চেয়ে সরাসরি লেবেলগুলি সাধারণত ভাল। যদি আপনার ডেটাসেট একটি সম্ভাব্য সরাসরি লেবেল প্রদান করে, আপনার সম্ভবত এটি ব্যবহার করা উচিত। যদিও প্রায়ই, সরাসরি লেবেল পাওয়া যায় না।
প্রক্সি লেবেলগুলি সর্বদা একটি আপস-একটি সরাসরি লেবেলের একটি অপূর্ণ অনুমান। যাইহোক, কিছু প্রক্সি লেবেল উপযোগী হওয়ার জন্য যথেষ্ট কাছাকাছি। যে মডেলগুলি প্রক্সি লেবেল ব্যবহার করে সেগুলি প্রক্সি লেবেল এবং ভবিষ্যদ্বাণীর মধ্যে সংযোগের মতোই কার্যকর৷
মনে রাখবেন যে প্রতিটি লেবেল অবশ্যই বৈশিষ্ট্য ভেক্টরে একটি ফ্লোটিং-পয়েন্ট সংখ্যা হিসাবে উপস্থাপন করা উচিত (কারণ মেশিন লার্নিং মূলত গাণিতিক ক্রিয়াকলাপের একটি বিশাল সংমিশ্রণ)। কখনও কখনও, একটি সরাসরি লেবেল বিদ্যমান থাকে কিন্তু বৈশিষ্ট্য ভেক্টরে একটি ফ্লোটিং-পয়েন্ট সংখ্যা হিসাবে সহজে উপস্থাপন করা যায় না। এই ক্ষেত্রে, একটি প্রক্সি লেবেল ব্যবহার করুন।
অনুশীলন: আপনার বোঝার পরীক্ষা করুন
আপনার কোম্পানি নিম্নলিখিত কাজ করতে চায়:
সাইকেল মালিকদের মেল কুপন ("একটি নতুন সাইকেলে 15% ছাড়ে আপনার পুরানো সাইকেলে ট্রেড করুন")।
সুতরাং, আপনার মডেল নিম্নলিখিত করতে হবে:
ভবিষ্যদ্বাণী করুন কোন লোকেদের একটি সাইকেল আছে।
দুর্ভাগ্যবশত, ডেটাসেটে bike owner
নামে একটি কলাম নেই। যাইহোক, ডেটাসেটে recently bought a bicycle
নামে একটি কলাম রয়েছে।
recently bought a bicycle
কি এই মডেলের জন্য একটি ভাল প্রক্সি লেবেল বা একটি খারাপ প্রক্সি লেবেল হবে?recently bought a bicycle
একটি অপেক্ষাকৃত ভাল প্রক্সি লেবেল. সর্বোপরি, যারা সাইকেল কেনেন তাদের বেশিরভাগই এখন সাইকেলের মালিক। তা সত্ত্বেও, সমস্ত প্রক্সি লেবেলের মতো, এমনকি খুব ভাল, recently bought a bicycle
অসম্পূর্ণ। সর্বোপরি, যে ব্যক্তি একটি আইটেম কিনছেন তিনি সর্বদা সেই আইটেমটি ব্যবহার করছেন (বা মালিক) নন। উদাহরণস্বরূপ, লোকেরা কখনও কখনও উপহার হিসাবে বাইসাইকেল কিনে থাকে।recently bought a bicycle
অসম্পূর্ণ (কিছু সাইকেল উপহার হিসাবে কেনা হয় এবং অন্যদের দেওয়া হয়)। যাইহোক, recently bought a bicycle
এখনও একটি অপেক্ষাকৃত ভাল সূচক যে কেউ একটি সাইকেল মালিক. মানুষের তৈরি তথ্য
কিছু তথ্য মানুষের দ্বারা তৈরি ; অর্থাৎ, এক বা একাধিক মানুষ কিছু তথ্য পরীক্ষা করে এবং একটি মান প্রদান করে, সাধারণত লেবেলের জন্য। উদাহরণস্বরূপ, এক বা একাধিক আবহাওয়াবিদ আকাশের ছবি পরীক্ষা করে মেঘের ধরন শনাক্ত করতে পারেন।
বিকল্পভাবে, কিছু ডেটা স্বয়ংক্রিয়ভাবে তৈরি হয়। অর্থাৎ, সফ্টওয়্যার (সম্ভবত, অন্য মেশিন লার্নিং মডেল) মান নির্ধারণ করে। উদাহরণস্বরূপ, একটি মেশিন-লার্নিং মডেল আকাশের ছবি পরীক্ষা করতে পারে এবং স্বয়ংক্রিয়ভাবে মেঘের ধরন সনাক্ত করতে পারে।
এই বিভাগটি মানুষের দ্বারা তৈরি ডেটার সুবিধা এবং অসুবিধাগুলি অন্বেষণ করে৷
সুবিধা
- হিউম্যান রেটাররা বিস্তৃত পরিসরের কাজগুলি সম্পাদন করতে পারে যা এমনকি অত্যাধুনিক মেশিন লার্নিং মডেলগুলিও কঠিন হতে পারে।
- প্রক্রিয়াটি ডেটাসেটের মালিককে স্পষ্ট এবং সামঞ্জস্যপূর্ণ মানদণ্ড বিকাশ করতে বাধ্য করে।
অসুবিধা
- আপনি সাধারণত হিউম্যান রেটারগুলিকে অর্থ প্রদান করেন, তাই মানুষের দ্বারা তৈরি ডেটা ব্যয়বহুল হতে পারে।
- ভুল করা মানবিক। অতএব, একাধিক মানব রেটারকে একই ডেটা মূল্যায়ন করতে হতে পারে।
আপনার চাহিদা নির্ধারণ করতে এই প্রশ্নগুলির মাধ্যমে চিন্তা করুন:
- আপনার রেটারদের কতটা দক্ষ হতে হবে? (উদাহরণস্বরূপ, রেটারদের কি একটি নির্দিষ্ট ভাষা জানা উচিত? আপনার কি সংলাপ বা NLP অ্যাপ্লিকেশনের জন্য ভাষাবিদদের প্রয়োজন?)
- কতগুলি লেবেলযুক্ত উদাহরণ আপনার প্রয়োজন? কত তাড়াতাড়ি আপনি তাদের প্রয়োজন?
- আপনার বাজেট কি?
সর্বদা আপনার হিউম্যান রেটারগুলিকে দুবার চেক করুন । উদাহরণস্বরূপ, নিজেকে 1000টি উদাহরণ লেবেল করুন, এবং দেখুন কিভাবে আপনার ফলাফল অন্যান্য রেটারদের ফলাফলের সাথে মেলে। অসঙ্গতি দেখা দিলে, আপনার রেটিং সঠিক বলে ধরে নিবেন না, বিশেষ করে যদি কোনো মূল্য বিচার জড়িত থাকে। যদি মানব রেটাররা ত্রুটিগুলি প্রবর্তন করে থাকে, তাহলে তাদের সাহায্য করার জন্য নির্দেশাবলী যোগ করার কথা বিবেচনা করুন এবং আবার চেষ্টা করুন।