مجموعه داده ها: برچسب ها

این بخش بر روی برچسب‌ها تمرکز دارد.

برچسب‌های مستقیم در مقابل برچسب‌های پروکسی

دو نوع برچسب مختلف را در نظر بگیرید:

  • برچسب‌های مستقیم ، که برچسب‌هایی مشابه پیش‌بینی‌ای هستند که مدل شما سعی در انجام آن دارد. یعنی پیش‌بینی‌ای که مدل شما سعی در انجام آن دارد، دقیقاً به عنوان یک ستون در مجموعه داده شما وجود دارد. برای مثال، ستونی به نام bicycle owner ، یک برچسب مستقیم برای یک مدل طبقه‌بندی دودویی خواهد بود که پیش‌بینی می‌کند آیا شخصی صاحب دوچرخه است یا خیر.
  • برچسب‌های جایگزین ، که برچسب‌هایی مشابه - اما نه کاملاً یکسان - با پیش‌بینی‌ای هستند که مدل شما سعی در انجام آن دارد. به عنوان مثال، شخصی که مشترک مجله Bicycle Bizarre است، احتمالاً - اما نه قطعاً - صاحب یک دوچرخه است.

برچسب‌های مستقیم معمولاً بهتر از برچسب‌های جایگزین هستند. اگر مجموعه داده شما یک برچسب مستقیم احتمالی ارائه می‌دهد، احتمالاً باید از آن استفاده کنید. با این حال، اغلب اوقات، برچسب‌های مستقیم در دسترس نیستند.

برچسب‌های جانشین همیشه یک مصالحه هستند - یک تقریب ناقص از یک برچسب مستقیم. با این حال، برخی از برچسب‌های جانشین به اندازه کافی به تقریب نزدیک هستند که مفید باشند. مدل‌هایی که از برچسب‌های جانشین استفاده می‌کنند، فقط به اندازه ارتباط بین برچسب جانشین و پیش‌بینی مفید هستند.

به یاد داشته باشید که هر برچسب باید به صورت یک عدد اعشاری نمایش داده شود، مشابه بردار ویژگی (زیرا یادگیری ماشین اساساً فقط مجموعه‌ای از عملیات ریاضی است). گاهی اوقات، یک برچسب مستقیم وجود دارد اما نمی‌توان آن را به راحتی به صورت یک عدد اعشاری نمایش داد. در این حالت، از یک برچسب پروکسی استفاده کنید.

تمرین: درک خود را بسنجید

شرکت شما می‌خواهد موارد زیر را انجام دهد:

کوپن‌های پستی ("۱۵٪ تخفیف برای خرید کلاه ایمنی دوچرخه جدید").

بنابراین، مدل شما باید موارد زیر را انجام دهد:

پیش‌بینی کنید کدام افراد دوچرخه دارند.

متأسفانه، مجموعه داده‌ها شامل ستونی به نام bike owner نیست. با این حال، مجموعه داده‌ها شامل ستونی به نام « recently bought a bicycle است.

آیا recently bought a bicycle برچسب وکالتی خوبی برای این مدل است یا برچسب وکالتی بدی؟
برچسب پروکسی خوب
ستون recently bought a bicycle » یک برچسب جایگزین نسبتاً خوب است. به هر حال، اکثر افرادی که دوچرخه می‌خرند، اکنون خودشان دوچرخه دارند. با این وجود، مانند همه برچسب‌های جایگزین، حتی آنهایی که خیلی خوب هستند، recently bought a bicycle » ناقص است. به هر حال، شخصی که یک کالا را می‌خرد، همیشه کسی نیست که از آن کالا استفاده می‌کند (یا مالک آن است). به عنوان مثال، مردم گاهی اوقات دوچرخه را به عنوان هدیه می‌خرند.
برچسب پروکسی ضعیف
مانند تمام برچسب‌های جایگزین، recently bought a bicycle معیار ناقصی است (بعضی از دوچرخه‌ها به عنوان هدیه خریداری می‌شوند و به دیگران داده می‌شوند). با این حال، اینکه کسی recently bought a bicycle ، هنوز هم شاخص نسبتاً خوبی است که نشان می‌دهد کسی دوچرخه دارد.

داده‌های تولید شده توسط انسان

برخی از داده‌ها توسط انسان تولید می‌شوند ؛ یعنی یک یا چند انسان برخی اطلاعات را بررسی کرده و مقداری را ارائه می‌دهند، معمولاً برای برچسب. به عنوان مثال، یک یا چند هواشناس می‌توانند تصاویر آسمان را بررسی کرده و انواع ابرها را شناسایی کنند.

از طرف دیگر، برخی از داده‌ها به طور خودکار تولید می‌شوند . یعنی، نرم‌افزار (احتمالاً یک مدل یادگیری ماشین دیگر) مقدار را تعیین می‌کند. به عنوان مثال، یک مدل یادگیری ماشین می‌تواند تصاویر آسمان را بررسی کرده و به طور خودکار انواع ابرها را شناسایی کند.

این بخش به بررسی مزایا و معایب داده‌های تولید شده توسط انسان می‌پردازد.

مزایا

  • ارزیاب‌های انسانی می‌توانند طیف گسترده‌ای از وظایف را انجام دهند که حتی مدل‌های پیشرفته یادگیری ماشینی نیز ممکن است آنها را دشوار بدانند.
  • این فرآیند، صاحب مجموعه داده‌ها را مجبور می‌کند تا معیارهای واضح و ثابتی را تدوین کند.

معایب

  • شما معمولاً به ارزیاب‌های انسانی پول می‌دهید، بنابراین داده‌های تولید شده توسط انسان می‌توانند گران باشند.
  • خطا کردن کار انسان است. بنابراین، ممکن است چندین ارزیاب انسانی مجبور باشند داده‌های یکسانی را ارزیابی کنند.

برای تعیین نیازهایتان به این سوالات فکر کنید:

  • ارزیابان شما چقدر باید ماهر باشند؟ (برای مثال، آیا ارزیابان باید زبان خاصی را بدانند؟ آیا برای برنامه‌های گفتگو یا NLP به زبان‌شناس نیاز دارید؟)
  • به چند نمونه برچسب‌گذاری شده نیاز دارید؟ چه زمانی به آنها نیاز دارید؟
  • بودجه شما چقدر است؟

همیشه ارزیاب‌های انسانی خود را دوباره بررسی کنید . برای مثال، خودتان ۱۰۰۰ نمونه را برچسب‌گذاری کنید و ببینید که نتایج شما چگونه با نتایج ارزیاب‌های دیگر مطابقت دارد. اگر اختلافاتی مشاهده شد، فرض نکنید که رتبه‌بندی‌های شما درست هستند، به خصوص اگر قضاوت ارزشی در میان باشد. اگر ارزیاب‌های انسانی خطاهایی را ایجاد کرده‌اند، اضافه کردن دستورالعمل‌هایی برای کمک به آنها را در نظر بگیرید و دوباره امتحان کنید.