این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

مجموعه داده ها: برچسب ها

این بخش بر روی برچسب ها تمرکز دارد.

مستقیم در مقابل برچسب های پروکسی

دو نوع مختلف برچسب را در نظر بگیرید:

برچسب‌های مستقیم ، که برچسب‌هایی یکسان با پیش‌بینی مدل شما هستند. یعنی پیش‌بینی مدل شما دقیقاً به‌عنوان یک ستون در مجموعه داده شما وجود دارد. به عنوان مثال، ستونی به نام bicycle owner یک برچسب مستقیم برای یک مدل طبقه‌بندی دودویی است که پیش‌بینی می‌کند آیا شخصی دوچرخه دارد یا خیر.
برچسب‌های پروکسی ، که برچسب‌هایی هستند که شبیه به پیش‌بینی مدل شما هستند – اما یکسان نیستند. به عنوان مثال، شخصی که مشترک مجله Bicycle Bizarre می شود احتمالا – اما نه قطعاً – دوچرخه دارد.

برچسب های مستقیم به طور کلی بهتر از برچسب های پروکسی هستند. اگر مجموعه داده شما یک برچسب مستقیم احتمالی را ارائه می دهد، احتمالاً باید از آن استفاده کنید. با این حال، اغلب اوقات، برچسب های مستقیم در دسترس نیستند.

برچسب های پروکسی همیشه یک سازش هستند - تقریب ناقصی از یک برچسب مستقیم. با این حال، برخی از برچسب های پروکسی به اندازه کافی به تقریب نزدیک هستند که مفید باشند. مدل هایی که از برچسب های پراکسی استفاده می کنند، فقط به اندازه ارتباط بین برچسب پروکسی و پیش بینی مفید هستند.

به یاد بیاورید که هر برچسب باید به عنوان یک عدد ممیز شناور در بردار ویژگی نمایش داده شود (زیرا یادگیری ماشین اساساً فقط یک ملغمه عظیم از عملیات ریاضی است). گاهی اوقات، یک برچسب مستقیم وجود دارد، اما نمی توان به راحتی آن را به عنوان یک عدد ممیز شناور در بردار ویژگی نشان داد. در این مورد، از یک برچسب پروکسی استفاده کنید.

تمرین: درک خود را بررسی کنید

شرکت شما می خواهد کارهای زیر را انجام دهد:

کوپن‌های پستی («دوچرخه قدیمی خود را با 15 درصد تخفیف برای دوچرخه جدید») به صاحبان دوچرخه ارسال کنید.

بنابراین، مدل شما باید موارد زیر را انجام دهد:

پیش بینی کنید چه افرادی دوچرخه دارند.

متأسفانه، مجموعه داده شامل ستونی به نام bike owner نیست. با این حال، مجموعه داده حاوی ستونی است که recently bought a bicycle .

آیا recently bought a bicycle یک برچسب پروکسی خوب است یا یک برچسب پروکسی ضعیف برای این مدل؟

برچسب پروکسی خوب

ستونی recently bought a bicycle یک برچسب پروکسی نسبتاً خوب است. به هر حال، اکثر افرادی که دوچرخه می خرند، اکنون دوچرخه دارند. با این وجود، مانند همه برچسب‌های پروکسی، حتی برچسب‌های بسیار خوب، recently bought a bicycle ناقص است. به هر حال، شخصی که یک کالا را می‌خرد، همیشه شخصی نیست که از آن کالا استفاده می‌کند (یا مالک) آن کالا را دارد. به عنوان مثال، مردم گاهی اوقات دوچرخه را به عنوان هدیه می خرند.

برچسب پروکسی ضعیف

مانند همه برچسب‌های پروکسی، recently bought a bicycle ناقص است (بعضی از دوچرخه‌ها به عنوان هدیه خریداری می‌شوند و به دیگران داده می‌شوند). با این حال، recently bought a bicycle هنوز یک شاخص نسبتاً خوب است که کسی دوچرخه دارد.

داده های تولید شده توسط انسان

برخی از داده ها توسط انسان تولید می شود. یعنی یک یا چند انسان برخی از اطلاعات را بررسی می کنند و مقداری را معمولاً برای برچسب ارائه می کنند. به عنوان مثال، یک یا چند هواشناس می توانند تصاویر آسمان را بررسی کرده و انواع ابرها را شناسایی کنند.

از طرف دیگر، برخی از داده ها به صورت خودکار تولید می شوند. یعنی نرم افزار (احتمالاً یک مدل یادگیری ماشین دیگر) مقدار را تعیین می کند. به عنوان مثال، یک مدل یادگیری ماشینی می تواند تصاویر آسمان را بررسی کند و به طور خودکار انواع ابر را شناسایی کند.

این بخش مزایا و معایب داده های تولید شده توسط انسان را بررسی می کند.

مزایا

ارزیاب‌های انسانی می‌توانند طیف گسترده‌ای از وظایف را انجام دهند که حتی مدل‌های یادگیری ماشینی پیچیده ممکن است برایشان مشکل باشد.
این فرآیند صاحب مجموعه داده را مجبور می کند تا معیارهای واضح و سازگار را ایجاد کند.

معایب

شما معمولاً به ارزیاب‌های انسانی پرداخت می‌کنید، بنابراین داده‌های تولید شده توسط انسان می‌تواند گران باشد.
اشتباه کردن انسان است. بنابراین، چندین ارزیابی کننده انسانی ممکن است مجبور باشند داده های مشابهی را ارزیابی کنند.

برای تعیین نیازهای خود به این سؤالات فکر کنید:

ارزیاب های شما چقدر باید ماهر باشند؟ (به عنوان مثال، آیا ارزیاب ها باید زبان خاصی را بدانند؟ آیا برای برنامه های گفتگو یا NLP به زبان شناس نیاز دارید؟)
به چند نمونه برچسب دار نیاز دارید؟ چقدر زود به آنها نیاز دارید؟
بودجه شما چقدر است؟

همیشه رتبه‌دهندگان انسانی خود را دوباره بررسی کنید . به عنوان مثال، خودتان 1000 نمونه را برچسب بزنید و ببینید نتایج شما چگونه با نتایج ارزیابی‌کنندگان دیگر مطابقت دارد. اگر اختلافات ظاهر شد، فرض نکنید که رتبه‌بندی‌های شما درست است، به‌خصوص اگر قضاوت ارزشی در میان باشد. اگر ارزیابی‌کننده‌های انسانی خطاهایی را معرفی کرده‌اند، دستورالعمل‌هایی را برای کمک به آنها اضافه کنید و دوباره امتحان کنید.

برای اطلاعات بیشتر در مورد داده های تولید شده توسط انسان، روی نماد مثبت کلیک کنید.

نگاه کردن به داده های خود با دست صرف نظر از اینکه چگونه داده های خود را به دست آورده اید تمرین خوبی است. آندری کارپاتی این کار را در ImageNet انجام داد و در مورد این تجربه نوشت .

مدل ها می توانند بر روی ترکیبی از برچسب های خودکار و تولید شده توسط انسان آموزش ببینند. با این حال، برای اکثر مدل‌ها، مجموعه اضافی از برچسب‌های تولید شده توسط انسان (که ممکن است کهنه شوند) معمولاً ارزش پیچیدگی و نگهداری اضافی را ندارند. گفته می شود، گاهی اوقات برچسب های تولید شده توسط انسان می توانند اطلاعات اضافی را ارائه دهند که در برچسب های خودکار موجود نیست.

قبلی

مشخصات داده ها (10 دقیقه)

بعدی

مجموعه داده های نامتعادل (10 دقیقه)