مستقیم در مقابل برچسب های مشتق شده
وقتی برچسبهای شما به خوبی تعریف شده باشند، یادگیری ماشینی آسانتر است. بهترین برچسب یک برچسب مستقیم از آنچه می خواهید پیش بینی کنید است. به عنوان مثال، اگر می خواهید پیش بینی کنید که آیا یک کاربر طرفدار تیلور سویفت است یا خیر، یک برچسب مستقیم می تواند "کاربر طرفدار تیلور سویفت است".
یک آزمایش سادهتر برای علاقهمندی ممکن است این باشد که آیا کاربر ویدیوی تیلور سویفت را در YouTube تماشا کرده است یا خیر. برچسب "کاربر ویدیوی تیلور سویفت را در یوتیوب تماشا کرده است" یک برچسب مشتق شده است زیرا مستقیماً آنچه را که می خواهید پیش بینی کنید اندازه گیری نمی کند. آیا این برچسب مشتق شده نشانگر قابل اعتمادی است که کاربر تیلور سویفت را دوست دارد؟ مدل شما فقط به اندازه ارتباط بین برچسب مشتق شده و پیش بینی مورد نظر شما خوب خواهد بود.
به عنوان مثال،
منابع برچسب
خروجی مدل شما می تواند یک رویداد یا یک ویژگی باشد. این منجر به دو نوع برچسب زیر می شود:
- برچسب مستقیم برای رویدادها ، مانند "آیا کاربر روی نتیجه جستجوی برتر کلیک کرد؟"
- برچسب مستقیم برای ویژگیها ، مانند «آیا تبلیغکننده در هفته آینده بیش از X دلار هزینه خواهد کرد؟»
برچسب های مستقیم برای رویدادها
برای رویدادها، برچسبهای مستقیم معمولاً ساده هستند، زیرا میتوانید رفتار کاربر در طول رویداد را برای استفاده به عنوان برچسب ثبت کنید. هنگام برچسب گذاری رویدادها، سوالات زیر را از خود بپرسید:
- لاگ های شما چگونه ساختار یافته اند؟
- چه چیزی در گزارش های شما به عنوان "رویداد" در نظر گرفته می شود؟
به عنوان مثال، آیا سیستم کاربر را با کلیک روی یک نتیجه جستجو ثبت می کند یا زمانی که کاربر جستجو می کند؟ اگر گزارشهای کلیک دارید، بدانید که هیچوقت یک نمایش بدون کلیک نخواهید دید. شما به گزارشهایی نیاز دارید که رویدادها در آن برداشت هستند، بنابراین همه مواردی را که در آن کاربر یک نتیجه جستجوی برتر را میبیند، پوشش میدهید.
برچسب های مستقیم برای ویژگی ها
فرض کنید برچسب شما این است: "تبلیغ کننده بیش از X دلار در هفته آینده خرج خواهد کرد." به طور معمول، از دادههای روزهای قبل برای پیشبینی آنچه در روزهای بعد اتفاق میافتد استفاده میکنید. به عنوان مثال، تصویر زیر داده های ده روز آموزش را نشان می دهد که هفت روز بعدی را پیش بینی می کند:
به یاد داشته باشید که اثرات فصلی یا دوره ای را در نظر بگیرید. برای مثال، تبلیغکنندگان ممکن است در تعطیلات آخر هفته بیشتر هزینه کنند. به همین دلیل، ممکن است ترجیح دهید به جای آن از یک پنجره 14 روزه استفاده کنید یا از تاریخ به عنوان یک ویژگی استفاده کنید تا مدل بتواند جلوه های سالانه را یاد بگیرد.
برچسب های مستقیم به گزارش های رفتار گذشته نیاز دارند
در موارد قبلی، توجه داشته باشید که ما به اطلاعاتی در مورد نتیجه واقعی نیاز داشتیم. چه مبلغی که تبلیغکنندگان هزینه کردهاند یا چه کاربرانی ویدیوهای تیلور سویفت را تماشا کردهاند، برای استفاده از یادگیری ماشینی نظارتشده به دادههای تاریخی نیاز داشتیم. یادگیری ماشینی بر اساس آنچه در گذشته اتفاق افتاده است پیشبینی میکند، بنابراین اگر گزارشهایی برای گذشته ندارید، باید آنها را دریافت کنید.
اگر داده ای برای ورود به سیستم نداشته باشید چه می شود؟
شاید محصول شما هنوز وجود نداشته باشد، بنابراین شما هیچ داده ای برای ورود به سیستم ندارید. در این صورت، می توانید یک یا چند مورد از اقدامات زیر را انجام دهید:
- برای اولین راه اندازی از یک اکتشافی استفاده کنید، سپس یک سیستم را بر اساس داده های ثبت شده آموزش دهید.
- از گزارش های مربوط به یک مشکل مشابه برای بوت استرپ سیستم خود استفاده کنید.
- از ارزیاب های انسانی برای تولید داده با تکمیل وظایف استفاده کنید.
چرا از داده های برچسب انسانی استفاده کنیم؟
مزایا و معایبی برای استفاده از داده های برچسب گذاری شده توسط انسان وجود دارد.
طرفداران
- ارزیاب های انسانی می توانند طیف وسیعی از وظایف را انجام دهند.
- داده ها شما را مجبور می کند که یک تعریف واضح از مشکل داشته باشید.
منفی
- داده ها برای دامنه های خاص گران است.
- داده های خوب معمولاً به تکرارهای متعدد نیاز دارند.
بهبود کیفیت
همیشه کار رتبهدهندگان انسانی خود را بررسی کنید . به عنوان مثال، خودتان 1000 نمونه را برچسب بزنید و ببینید که چگونه نتایج شما با امتیازدهندگان مطابقت دارد. (برچسب زدن به دادهها نیز تمرینی عالی برای شناخت دادههایتان است.) اگر اختلافات ظاهر شد، رتبهبندیهای شما را درست فرض نکنید، بهویژه اگر قضاوت ارزشی در میان باشد. اگر ارزیابیکنندههای انسانی خطاهایی را معرفی کردهاند، دستورالعملهایی را برای کمک به آنها اضافه کنید و دوباره امتحان کنید.
نگاه کردن به داده های خود با دست صرف نظر از اینکه چگونه داده های خود را به دست آورده اید تمرین خوبی است. آندری کارپاتی این کار را در ImageNet انجام داد و در مورد این تجربه نوشت .