این بخش بر روی برچسب ها تمرکز دارد.
مستقیم در مقابل برچسب های پروکسی
دو نوع مختلف برچسب را در نظر بگیرید:
- برچسبهای مستقیم ، که برچسبهایی یکسان با پیشبینی مدل شما هستند. یعنی پیشبینی مدل شما دقیقاً بهعنوان یک ستون در مجموعه داده شما وجود دارد. به عنوان مثال، ستونی به نام
bicycle owner
یک برچسب مستقیم برای یک مدل طبقهبندی دودویی است که پیشبینی میکند آیا شخصی دوچرخه دارد یا خیر. - برچسبهای پروکسی ، که برچسبهایی هستند که شبیه به پیشبینی مدل شما هستند – اما یکسان نیستند. به عنوان مثال، شخصی که مشترک مجله Bicycle Bizarre می شود احتمالا – اما نه قطعاً – دوچرخه دارد.
برچسب های مستقیم به طور کلی بهتر از برچسب های پروکسی هستند. اگر مجموعه داده شما یک برچسب مستقیم احتمالی را ارائه می دهد، احتمالاً باید از آن استفاده کنید. با این حال، اغلب اوقات، برچسب های مستقیم در دسترس نیستند.
برچسب های پروکسی همیشه یک سازش هستند - تقریب ناقصی از یک برچسب مستقیم. با این حال، برخی از برچسب های پروکسی به اندازه کافی به تقریب نزدیک هستند که مفید باشند. مدل هایی که از برچسب های پراکسی استفاده می کنند، فقط به اندازه ارتباط بین برچسب پروکسی و پیش بینی مفید هستند.
به یاد بیاورید که هر برچسب باید به عنوان یک عدد ممیز شناور در بردار ویژگی نمایش داده شود (زیرا یادگیری ماشین اساساً فقط یک ملغمه عظیم از عملیات ریاضی است). گاهی اوقات، یک برچسب مستقیم وجود دارد، اما نمی توان به راحتی آن را به عنوان یک عدد ممیز شناور در بردار ویژگی نشان داد. در این مورد، از یک برچسب پروکسی استفاده کنید.
تمرین: درک خود را بررسی کنید
شرکت شما می خواهد کارهای زیر را انجام دهد:
کوپنهای پستی («دوچرخه قدیمی خود را با 15 درصد تخفیف برای دوچرخه جدید») به صاحبان دوچرخه ارسال کنید.
بنابراین، مدل شما باید موارد زیر را انجام دهد:
پیش بینی کنید چه افرادی دوچرخه دارند.
متأسفانه، مجموعه داده شامل ستونی به نام bike owner
نیست. با این حال، مجموعه داده حاوی ستونی است که recently bought a bicycle
.
recently bought a bicycle
یک برچسب پروکسی خوب است یا یک برچسب پروکسی ضعیف برای این مدل؟recently bought a bicycle
یک برچسب پروکسی نسبتاً خوب است. به هر حال، اکثر افرادی که دوچرخه می خرند، اکنون دوچرخه دارند. با این وجود، مانند همه برچسبهای پروکسی، حتی برچسبهای بسیار خوب، recently bought a bicycle
ناقص است. به هر حال، شخصی که یک کالا را میخرد، همیشه شخصی نیست که از آن کالا استفاده میکند (یا مالک) آن کالا را دارد. به عنوان مثال، مردم گاهی اوقات دوچرخه را به عنوان هدیه می خرند.recently bought a bicycle
ناقص است (بعضی از دوچرخهها به عنوان هدیه خریداری میشوند و به دیگران داده میشوند). با این حال، recently bought a bicycle
هنوز یک شاخص نسبتاً خوب است که کسی دوچرخه دارد. داده های تولید شده توسط انسان
برخی از داده ها توسط انسان تولید می شود. یعنی یک یا چند انسان برخی از اطلاعات را بررسی می کنند و مقداری را معمولاً برای برچسب ارائه می کنند. به عنوان مثال، یک یا چند هواشناس می توانند تصاویر آسمان را بررسی کرده و انواع ابرها را شناسایی کنند.
از طرف دیگر، برخی از داده ها به صورت خودکار تولید می شوند. یعنی نرم افزار (احتمالاً یک مدل یادگیری ماشین دیگر) مقدار را تعیین می کند. به عنوان مثال، یک مدل یادگیری ماشینی می تواند تصاویر آسمان را بررسی کند و به طور خودکار انواع ابر را شناسایی کند.
این بخش مزایا و معایب داده های تولید شده توسط انسان را بررسی می کند.
مزایا
- ارزیابهای انسانی میتوانند طیف گستردهای از وظایف را انجام دهند که حتی مدلهای یادگیری ماشینی پیچیده ممکن است برایشان مشکل باشد.
- این فرآیند صاحب مجموعه داده را مجبور می کند تا معیارهای واضح و سازگار را ایجاد کند.
معایب
- شما معمولاً به ارزیابهای انسانی پرداخت میکنید، بنابراین دادههای تولید شده توسط انسان میتواند گران باشد.
- اشتباه کردن انسان است. بنابراین، چندین ارزیابی کننده انسانی ممکن است مجبور باشند داده های مشابهی را ارزیابی کنند.
برای تعیین نیازهای خود به این سؤالات فکر کنید:
- ارزیاب های شما چقدر باید ماهر باشند؟ (به عنوان مثال، آیا ارزیاب ها باید زبان خاصی را بدانند؟ آیا برای برنامه های گفتگو یا NLP به زبان شناس نیاز دارید؟)
- به چند نمونه برچسب دار نیاز دارید؟ چقدر زود به آنها نیاز دارید؟
- بودجه شما چقدر است؟
همیشه رتبهدهندگان انسانی خود را دوباره بررسی کنید . به عنوان مثال، خودتان 1000 نمونه را برچسب بزنید و ببینید نتایج شما چگونه با نتایج ارزیابیکنندگان دیگر مطابقت دارد. اگر اختلافات ظاهر شد، فرض نکنید که رتبهبندیهای شما درست است، بهخصوص اگر قضاوت ارزشی در میان باشد. اگر ارزیابیکنندههای انسانی خطاهایی را معرفی کردهاند، دستورالعملهایی را برای کمک به آنها اضافه کنید و دوباره امتحان کنید.