مجموعه داده ها: برچسب ها
با مجموعهها، منظم بمانید
ذخیره و طبقهبندی محتوا براساس اولویتهای شما.
این بخش بر روی برچسب ها تمرکز دارد.
مستقیم در مقابل برچسب های پروکسی
دو نوع مختلف برچسب را در نظر بگیرید:
- برچسبهای مستقیم ، که برچسبهایی یکسان با پیشبینی مدل شما هستند. یعنی پیشبینی مدل شما دقیقاً بهعنوان یک ستون در مجموعه داده شما وجود دارد. به عنوان مثال، ستونی به نام
bicycle owner
یک برچسب مستقیم برای یک مدل طبقهبندی دودویی است که پیشبینی میکند آیا شخصی دوچرخه دارد یا خیر. - برچسبهای پروکسی ، که برچسبهایی هستند که شبیه به پیشبینی مدل شما هستند – اما یکسان نیستند. به عنوان مثال، شخصی که مشترک مجله Bicycle Bizarre می شود احتمالا – اما نه قطعاً – دوچرخه دارد.
برچسب های مستقیم به طور کلی بهتر از برچسب های پروکسی هستند. اگر مجموعه داده شما یک برچسب مستقیم احتمالی را ارائه می دهد، احتمالاً باید از آن استفاده کنید. با این حال، اغلب اوقات، برچسب های مستقیم در دسترس نیستند.
برچسب های پروکسی همیشه یک سازش هستند - تقریب ناقصی از یک برچسب مستقیم. با این حال، برخی از برچسب های پروکسی به اندازه کافی به تقریب نزدیک هستند که مفید باشند. مدل هایی که از برچسب های پراکسی استفاده می کنند، فقط به اندازه ارتباط بین برچسب پروکسی و پیش بینی مفید هستند.
به یاد بیاورید که هر برچسب باید به عنوان یک عدد ممیز شناور در بردار ویژگی نمایش داده شود (زیرا یادگیری ماشین اساساً فقط یک ملغمه عظیم از عملیات ریاضی است). گاهی اوقات، یک برچسب مستقیم وجود دارد، اما نمی توان به راحتی آن را به عنوان یک عدد ممیز شناور در بردار ویژگی نشان داد. در این مورد، از یک برچسب پروکسی استفاده کنید.
تمرین: درک خود را بررسی کنید
شرکت شما می خواهد کارهای زیر را انجام دهد:
کوپنهای پستی («دوچرخه قدیمی خود را با 15 درصد تخفیف برای دوچرخه جدید») به صاحبان دوچرخه ارسال کنید.
بنابراین، مدل شما باید موارد زیر را انجام دهد:
پیش بینی کنید چه افرادی دوچرخه دارند.
متأسفانه، مجموعه داده شامل ستونی به نام bike owner
نیست. با این حال، مجموعه داده حاوی ستونی است که recently bought a bicycle
.
آیا recently bought a bicycle
یک برچسب پروکسی خوب است یا یک برچسب پروکسی ضعیف برای این مدل؟
برچسب پروکسی خوب
ستونی recently bought a bicycle
یک برچسب پروکسی نسبتاً خوب است. به هر حال، اکثر افرادی که دوچرخه می خرند، اکنون دوچرخه دارند. با این وجود، مانند همه برچسبهای پروکسی، حتی برچسبهای بسیار خوب، recently bought a bicycle
ناقص است. به هر حال، شخصی که یک کالا را میخرد، همیشه شخصی نیست که از آن کالا استفاده میکند (یا مالک) آن کالا را دارد. به عنوان مثال، مردم گاهی اوقات دوچرخه را به عنوان هدیه می خرند.
برچسب پروکسی ضعیف
مانند همه برچسبهای پروکسی، recently bought a bicycle
ناقص است (بعضی از دوچرخهها به عنوان هدیه خریداری میشوند و به دیگران داده میشوند). با این حال، recently bought a bicycle
هنوز یک شاخص نسبتاً خوب است که کسی دوچرخه دارد.
داده های تولید شده توسط انسان
برخی از داده ها توسط انسان تولید می شود . یعنی یک یا چند انسان برخی از اطلاعات را بررسی می کنند و مقداری را معمولاً برای برچسب ارائه می کنند. به عنوان مثال، یک یا چند هواشناس می توانند تصاویر آسمان را بررسی کرده و انواع ابرها را شناسایی کنند.
از طرف دیگر، برخی از داده ها به صورت خودکار تولید می شوند. یعنی نرم افزار (احتمالاً یک مدل یادگیری ماشین دیگر) مقدار را تعیین می کند. به عنوان مثال، یک مدل یادگیری ماشینی می تواند تصاویر آسمان را بررسی کند و به طور خودکار انواع ابر را شناسایی کند.
این بخش مزایا و معایب داده های تولید شده توسط انسان را بررسی می کند.
مزایا
- ارزیابهای انسانی میتوانند طیف گستردهای از وظایف را انجام دهند که حتی مدلهای یادگیری ماشینی پیچیده ممکن است برایشان مشکل باشد.
- این فرآیند صاحب مجموعه داده را مجبور می کند تا معیارهای واضح و سازگار را ایجاد کند.
معایب
- شما معمولاً به ارزیابهای انسانی پرداخت میکنید، بنابراین دادههای تولید شده توسط انسان میتواند گران باشد.
- اشتباه کردن انسان است. بنابراین، چندین ارزیابی کننده انسانی ممکن است مجبور باشند داده های مشابهی را ارزیابی کنند.
برای تعیین نیازهای خود به این سؤالات فکر کنید:
- ارزیاب های شما چقدر باید ماهر باشند؟ (به عنوان مثال، آیا ارزیاب ها باید زبان خاصی را بدانند؟ آیا برای برنامه های گفتگو یا NLP به زبان شناس نیاز دارید؟)
- به چند نمونه برچسب دار نیاز دارید؟ چقدر زود به آنها نیاز دارید؟
- بودجه شما چقدر است؟
همیشه رتبهدهندگان انسانی خود را دوباره بررسی کنید . به عنوان مثال، خودتان 1000 نمونه را برچسب بزنید و ببینید نتایج شما چگونه با نتایج ارزیابیکنندگان دیگر مطابقت دارد. اگر اختلافات ظاهر شد، فرض نکنید که رتبهبندیهای شما درست است، بهخصوص اگر قضاوت ارزشی در میان باشد. اگر ارزیابیکنندههای انسانی خطاهایی را معرفی کردهاند، دستورالعملهایی را برای کمک به آنها اضافه کنید و دوباره امتحان کنید.
برای اطلاعات بیشتر در مورد داده های تولید شده توسط انسان، روی نماد مثبت کلیک کنید.
نگاه کردن به داده های خود با دست صرف نظر از اینکه چگونه داده های خود را به دست آورده اید تمرین خوبی است. آندری کارپاتی این کار را در ImageNet انجام داد و در مورد این تجربه نوشت .
مدل ها می توانند بر روی ترکیبی از برچسب های خودکار و تولید شده توسط انسان آموزش ببینند. با این حال، برای اکثر مدلها، مجموعه اضافی از برچسبهای تولید شده توسط انسان (که ممکن است کهنه شوند) معمولاً ارزش پیچیدگی و نگهداری اضافی را ندارند. گفته می شود، گاهی اوقات برچسب های تولید شده توسط انسان می توانند اطلاعات اضافی را ارائه دهند که در برچسب های خودکار موجود نیست.
جز در مواردی که غیر از این ذکر شده باشد،محتوای این صفحه تحت مجوز Creative Commons Attribution 4.0 License است. نمونه کدها نیز دارای مجوز Apache 2.0 License است. برای اطلاع از جزئیات، به خطمشیهای سایت Google Developers مراجعه کنید. جاوا علامت تجاری ثبتشده Oracle و/یا شرکتهای وابسته به آن است.
تاریخ آخرین بهروزرسانی 2025-02-26 بهوقت ساعت هماهنگ جهانی.
[null,null,["تاریخ آخرین بهروزرسانی 2025-02-26 بهوقت ساعت هماهنگ جهانی."],[[["\u003cp\u003eThis document explains the differences between direct and proxy labels for machine learning models, highlighting that direct labels are preferred but often unavailable.\u003c/p\u003e\n"],["\u003cp\u003eIt emphasizes the importance of carefully evaluating proxy labels to ensure they are a suitable approximation of the target prediction.\u003c/p\u003e\n"],["\u003cp\u003eHuman-generated data, while offering flexibility and nuanced understanding, can be expensive and prone to errors, requiring careful quality control.\u003c/p\u003e\n"],["\u003cp\u003eMachine learning models can utilize a combination of automated and human-generated labels, but the added complexity of maintaining human-generated labels often outweighs the benefits.\u003c/p\u003e\n"],["\u003cp\u003eRegardless of the label source, manual data inspection and comparison with human ratings are crucial for identifying potential issues and ensuring data quality.\u003c/p\u003e\n"]]],[],null,["# Datasets: Labels\n\nThis section focuses on [**labels**](/machine-learning/glossary#label).\n\nDirect versus proxy labels\n--------------------------\n\nConsider two different kinds of labels:\n\n- **Direct labels** , which are labels identical to the prediction your model is trying to make. That is, the prediction your model is trying to make is exactly present as a column in your dataset. For example, a column named `bicycle owner` would be a direct label for a binary classification model that predicts whether or not a person owns a bicycle.\n- **Proxy labels**, which are labels that are similar---but not identical---to the prediction your model is trying to make. For example, a person subscribing to Bicycle Bizarre magazine probably---but not definitely---owns a bicycle.\n\nDirect labels are generally better than proxy labels. If your dataset\nprovides a possible direct label, you should probably use it.\nOftentimes though, direct labels aren't available.\n\nProxy labels are always a compromise---an imperfect approximation of\na direct label. However, some proxy labels are close enough approximations\nto be useful. Models that use proxy labels are only as useful as the\nconnection between the proxy label and the prediction.\n\nRecall that every label must be represented as a floating-point number\nin the [**feature vector**](/machine-learning/glossary#feature-vector)\n(because machine learning is fundamentally just a huge amalgam of mathematical\noperations). Sometimes, a direct label exists but can't be easily represented as\na floating-point number in the feature vector. In this case, use a proxy label.\n\n### Exercise: Check your understanding\n\nYour company wants to do the following:\n\u003e Mail coupons (\"Trade in your old bicycle for\n\u003e 15% off a new bicycle\") to bicycle owners.\n\nSo, your model must do the following:\n\u003e Predict which people own a bicycle.\n\nUnfortunately, the dataset doesn't contain a column named `bike owner`.\nHowever, the dataset does contain a column named `recently bought a bicycle`. \nWould `recently bought a bicycle` be a good proxy label or a poor proxy label for this model? \nGood proxy label \nThe column `recently bought a bicycle` is a relatively good proxy label. After all, most of the people who buy bicycles now own bicycles. Nevertheless, like all proxy labels, even very good ones, `recently bought a\nbicycle` is imperfect. After all, the person buying an item isn't always the person using (or owning) that item. For example, people sometimes buy bicycles as a gift. \nPoor proxy label \nLike all proxy labels, `recently bought a bicycle` is imperfect (some bicycles are bought as gifts and given to others). However, `recently bought a bicycle` is still a relatively good indicator that someone owns a bicycle.\n\nHuman-generated data\n--------------------\n\nSome data is **human-generated**; that is, one or more humans examine some\ninformation and provide a value, usually for the label. For example,\none or more meteorologists could examine pictures of the sky and identify\ncloud types.\n\nAlternatively, some data is **automatically-generated**. That is, software\n(possibly, another machine learning model) determines the value. For example, a\nmachine learning model could examine sky pictures and automatically identify\ncloud types.\n\nThis section explores the advantages and disadvantages of human-generated data.\n\nAdvantages\n\n- Human raters can perform a wide range of tasks that even sophisticated machine learning models may find difficult.\n- The process forces the owner of the dataset to develop clear and consistent criteria.\n\nDisadvantages\n\n- You typically pay human raters, so human-generated data can be expensive.\n- To err is human. Therefore, multiple human raters might have to evaluate the same data.\n\nThink through these questions to determine your needs:\n\n- How skilled must your raters be? (For example, must the raters know a specific language? Do you need linguists for dialogue or NLP applications?)\n- How many labeled examples do you need? How soon do you need them?\n- What's your budget?\n\n**Always double-check your human raters**. For example, label 1000 examples\nyourself, and see how your results match other raters' results.\nIf discrepancies surface, don't assume your ratings are the correct ones,\nespecially if a value judgment is involved. If human raters have introduced\nerrors, consider adding instructions to help them and try again.\n\n#### Click the plus icon to learn more about human-generated data.\n\nLooking at your data by hand is a good exercise regardless of how you\nobtained your data. Andrej Karpathy did this on\n[ImageNet\nand wrote about the experience](http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet).\n\nModels can train on a mix of automated and human-generated labels. However,\nfor most models, an extra set of human-generated labels (which can become stale)\nare generally not worth the extra complexity and maintenance.\nThat said, sometimes the human-generated labels can provide extra\ninformation not available in the automated labels.\n\n*** ** * ** ***\n\n| **Key terms:**\n|\n| - [Label](/machine-learning/glossary#label)\n- [Feature vector](/machine-learning/glossary#feature-vector) \n[Help Center](https://support.google.com/machinelearningeducation)"]]