লেবেল এবং উত্স সনাক্তকরণ

সরাসরি বনাম উদ্ভূত লেবেল

আপনার লেবেলগুলি ভালভাবে সংজ্ঞায়িত হলে মেশিন লার্নিং সহজ হয়৷ সেরা লেবেল হল আপনি যা ভবিষ্যদ্বাণী করতে চান তার একটি সরাসরি লেবেল । উদাহরণস্বরূপ, আপনি যদি একজন ব্যবহারকারী একজন টেলর সুইফ্ট ভক্ত কিনা তা ভবিষ্যদ্বাণী করতে চান, তাহলে একটি সরাসরি লেবেল হবে "ব্যবহারকারী একজন টেলর সুইফট ভক্ত।"

ব্যবহারকারী YouTube-এ টেলর সুইফ্ট ভিডিও দেখেছেন কিনা তা ভক্তত্বের একটি সহজ পরীক্ষা হতে পারে। "ব্যবহারকারী YouTube-এ একটি টেলর সুইফ্ট ভিডিও দেখেছেন" লেবেলটি একটি উদ্ভূত লেবেল কারণ এটি আপনি যা ভবিষ্যদ্বাণী করতে চান তা সরাসরি পরিমাপ করে না। এই প্রাপ্ত লেবেলটি কি একটি নির্ভরযোগ্য সূচক যে ব্যবহারকারী টেলর সুইফট পছন্দ করে? আপনার মডেল শুধুমাত্র আপনার উদ্ভূত লেবেল এবং আপনার পছন্দসই ভবিষ্যদ্বাণী মধ্যে সংযোগ হিসাবে ভাল হবে.

লেবেল উত্স

আপনার মডেলের আউটপুট একটি ইভেন্ট বা একটি বৈশিষ্ট্য হতে পারে। এর ফলে নিম্নলিখিত দুটি ধরনের লেবেল পাওয়া যায়:

  • ইভেন্টগুলির জন্য সরাসরি লেবেল , যেমন "ব্যবহারকারী কি শীর্ষ অনুসন্ধান ফলাফলে ক্লিক করেছেন?"
  • অ্যাট্রিবিউটের জন্য সরাসরি লেবেল , যেমন "বিজ্ঞাপনদাতা কি পরের সপ্তাহে $X এর বেশি খরচ করবে?"

ইভেন্টের জন্য সরাসরি লেবেল

ইভেন্টগুলির জন্য, সরাসরি লেবেলগুলি সাধারণত সোজা হয়, কারণ আপনি লেবেল হিসাবে ব্যবহারের জন্য ইভেন্টের সময় ব্যবহারকারীর আচরণ লগ করতে পারেন৷ ইভেন্টগুলি লেবেল করার সময়, নিজেকে নিম্নলিখিত প্রশ্নগুলি জিজ্ঞাসা করুন:

  • কিভাবে আপনার লগ গঠন করা হয়?
  • আপনার লগগুলিতে কি একটি "ইভেন্ট" হিসাবে বিবেচিত হয়?

উদাহরণ স্বরূপ, সিস্টেমটি কি কোনো ব্যবহারকারীকে সার্চের ফলাফলে ক্লিক করলে বা কোনো ব্যবহারকারী সার্চ করার সময় লগ করে? যদি আপনার কাছে ক্লিক লগ থাকে, তাহলে বুঝতে হবে যে আপনি একটি ক্লিক ছাড়া কোনো ছাপ দেখতে পাবেন না। আপনার লগের প্রয়োজন হবে যেখানে ইভেন্টগুলি ইম্প্রেশন হয়, তাই আপনি সমস্ত ক্ষেত্রে কভার করেন যেখানে একজন ব্যবহারকারী একটি শীর্ষ অনুসন্ধান ফলাফল দেখেন।

গুণাবলীর জন্য সরাসরি লেবেল

ধরা যাক আপনার লেবেল হল, "বিজ্ঞাপনদাতা আগামী সপ্তাহে $X-এর বেশি খরচ করবে।" সাধারণত, আপনি পরবর্তী দিনগুলিতে কী ঘটবে তা অনুমান করতে আগের দিনের ডেটা ব্যবহার করবেন। উদাহরণ স্বরূপ, নিচের দৃষ্টান্তটি দশ দিনের প্রশিক্ষণের ডেটা দেখায় যা পরবর্তী সাত দিনের ভবিষ্যদ্বাণী করে:

ক্যালেন্ডার একটি 10-দিনের ব্লক হাইলাইট করে এবং অবিলম্বে 7-দিনের ব্লক অনুসরণ করে৷ মডেলটি 10-দিনের ব্লক থেকে 7-দিনের ব্লকে ভবিষ্যদ্বাণী করতে ডেটা ব্যবহার করে।

ঋতু বা চক্রাকার প্রভাব বিবেচনা করতে ভুলবেন না; উদাহরণস্বরূপ, বিজ্ঞাপনদাতারা সপ্তাহান্তে আরও বেশি ব্যয় করতে পারে। সেই কারণে, আপনি পরিবর্তে একটি 14-দিনের উইন্ডো ব্যবহার করতে পছন্দ করতে পারেন বা তারিখটিকে একটি বৈশিষ্ট্য হিসাবে ব্যবহার করতে পছন্দ করতে পারেন যাতে মডেলটি বার্ষিক প্রভাবগুলি শিখতে পারে।

প্রত্যক্ষ লেবেলগুলির অতীত আচরণের লগ প্রয়োজন৷

পূর্ববর্তী ক্ষেত্রে, লক্ষ্য করুন যে সত্য ফলাফল সম্পর্কে আমাদের ডেটা প্রয়োজন। বিজ্ঞাপনদাতারা কত খরচ করেছেন বা কোন ব্যবহারকারীরা টেলর সুইফ্ট ভিডিও দেখেছেন তা হোক না কেন, তত্ত্বাবধানে থাকা মেশিন লার্নিং ব্যবহার করার জন্য আমাদের ঐতিহাসিক ডেটার প্রয়োজন। মেশিন লার্নিং অতীতে যা ঘটেছে তার উপর ভিত্তি করে ভবিষ্যদ্বাণী করে, তাই যদি আপনার কাছে অতীতের লগ না থাকে, তাহলে আপনাকে সেগুলি পেতে হবে।

লগ করার জন্য আপনার কাছে ডেটা না থাকলে কী হবে?

সম্ভবত আপনার পণ্যটি এখনও বিদ্যমান নেই, তাই লগ করার জন্য আপনার কাছে কোনো ডেটা নেই। সেই ক্ষেত্রে, আপনি নিম্নলিখিত এক বা একাধিক পদক্ষেপ নিতে পারেন:

  • প্রথম লঞ্চের জন্য একটি হিউরিস্টিক ব্যবহার করুন, তারপরে লগ করা ডেটার উপর ভিত্তি করে একটি সিস্টেমকে প্রশিক্ষণ দিন।
  • আপনার সিস্টেম বুটস্ট্র্যাপ করতে অনুরূপ সমস্যা থেকে লগ ব্যবহার করুন।
  • কাজ শেষ করে ডেটা জেনারেট করতে হিউম্যান রেটার ব্যবহার করুন।

কেন মানব লেবেলযুক্ত ডেটা ব্যবহার করবেন?

মানব-লেবেলযুক্ত ডেটা ব্যবহার করার সুবিধা এবং অসুবিধা রয়েছে।

পেশাদার

  • হিউম্যান রেটাররা বিভিন্ন ধরনের কাজ করতে পারে।
  • ডেটা আপনাকে একটি পরিষ্কার সমস্যার সংজ্ঞা দিতে বাধ্য করে।

কনস

  • নির্দিষ্ট ডোমেনের জন্য ডেটা ব্যয়বহুল।
  • ভাল ডেটার জন্য সাধারণত একাধিক পুনরাবৃত্তির প্রয়োজন হয়।

গুণমান উন্নত করা

সর্বদা আপনার মানব রেটারদের কাজ পরীক্ষা করুন । উদাহরণস্বরূপ, নিজেকে 1000টি উদাহরণ লেবেল করুন, এবং দেখুন কিভাবে আপনার ফলাফল রেটারদের সাথে মেলে। (নিজেকে ডেটা লেবেল করাও আপনার ডেটা জানার জন্য একটি দুর্দান্ত ব্যায়াম৷) যদি অসঙ্গতি দেখা দেয় তবে ধরে নিবেন না যে আপনার রেটিংগুলি সঠিক, বিশেষ করে যদি কোনও মূল্য বিচার জড়িত থাকে৷ যদি মানব রেটাররা ত্রুটিগুলি প্রবর্তন করে থাকে, তাহলে তাদের সাহায্য করার জন্য নির্দেশাবলী যোগ করার কথা বিবেচনা করুন এবং আবার চেষ্টা করুন।

আপনি কীভাবে আপনার ডেটা পেয়েছেন তা নির্বিশেষে হাত দিয়ে আপনার ডেটা দেখা একটি ভাল অনুশীলন। আন্দ্রেজ কার্পাথি ইমেজনেটে ​​এটি করেছিলেন এবং অভিজ্ঞতা সম্পর্কে লিখেছেন