این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

داده های طبقه بندی شده: مسائل رایج

داده های عددی اغلب توسط ابزارهای علمی یا اندازه گیری های خودکار ثبت می شوند. از سوی دیگر، داده های طبقه بندی شده اغلب توسط انسان ها یا مدل های یادگیری ماشین (ML) دسته بندی می شوند. اینکه چه کسی در مورد دسته‌ها و برچسب‌ها تصمیم می‌گیرد و چگونه آن تصمیم‌ها را می‌گیرد، بر قابلیت اطمینان و سودمندی آن داده‌ها تأثیر می‌گذارد.

ارزیاب های انسانی

داده هایی که به صورت دستی توسط انسان ها برچسب گذاری می شوند اغلب به عنوان برچسب های طلایی شناخته می شوند و به دلیل کیفیت نسبتاً بهتر داده ها نسبت به داده های برچسب گذاری شده با ماشین برای مدل های آموزشی مطلوب تر در نظر گرفته می شوند.

این لزوما به این معنی نیست که هر مجموعه ای از داده های برچسب گذاری شده توسط انسان از کیفیت بالایی برخوردار است. خطاهای انسانی، سوگیری و سوء نیت را می توان در نقطه جمع آوری داده ها یا در حین پاکسازی و پردازش داده ها معرفی کرد. قبل از تمرین آنها را بررسی کنید.

هر دو انسان ممکن است به یک مثال برچسب متفاوتی بزنند. تفاوت بین تصمیم‌های ارزیابی‌کننده انسانی ، توافق بین ارزیابی‌کننده نامیده می‌شود. شما می توانید با استفاده از چندین ارزیاب در هر مثال و اندازه گیری توافق بین ارزیاب ها، حسی از اختلاف نظرات ارزیاب ها را دریافت کنید.

برای آشنایی با معیارهای توافق بین ارزیاب کلیک کنید

روش‌های زیر برای اندازه‌گیری توافق بین ارزیاب‌ها هستند:

کاپا کوهن و انواع آن
همبستگی درون طبقاتی (ICC)
آلفای کریپندورف

برای جزئیات بیشتر در مورد کاپا کوهن و همبستگی درون طبقاتی، به هالگرن 2012 مراجعه کنید. برای جزئیات بیشتر در مورد آلفای کریپندورف، به کریپندورف 2011 مراجعه کنید.

ارزیاب ماشین

داده‌های برچسب‌گذاری‌شده با ماشین، که در آن دسته‌ها به‌طور خودکار توسط یک یا چند مدل طبقه‌بندی تعیین می‌شوند، اغلب به عنوان برچسب‌های نقره‌ای شناخته می‌شوند. داده های برچسب گذاری شده با ماشین می توانند از نظر کیفیت بسیار متفاوت باشند. آن را نه تنها از نظر دقت و سوگیری، بلکه از نظر نقض عقل سلیم، واقعیت و نیت نیز بررسی کنید. برای مثال، اگر یک مدل بینایی کامپیوتری عکس چی‌هواهوا را به‌عنوان مافین یا عکس کلوچه را به‌عنوان چی‌هواهوا به اشتباه برچسب‌گذاری کند، مدل‌هایی که بر روی آن داده‌های برچسب‌گذاری شده آموزش دیده‌اند، کیفیت پایین‌تری خواهند داشت.

به طور مشابه، یک تحلیلگر احساسات که کلمات خنثی را به عنوان -0.25 نمره می دهد، در حالی که 0.0 مقدار خنثی است، ممکن است همه کلمات را با یک سوگیری منفی اضافی که در واقع در داده ها وجود ندارد، امتیاز دهد. یک آشکارساز سمیت بیش از حد حساس ممکن است به اشتباه بسیاری از عبارات خنثی را به عنوان سمی علامت گذاری کند. سعی کنید قبل از آموزش روی آن، کیفیت و سوگیری برچسب ها و حاشیه نویسی ماشین را در داده های خود درک کنید.

ابعاد بالا

داده های مقوله ای تمایل به تولید بردارهای ویژگی با ابعاد بالا دارند. یعنی بردارهای ویژگی دارای تعداد زیادی عنصر هستند. ابعاد بالا هزینه های آموزش را افزایش می دهد و آموزش را دشوارتر می کند. به این دلایل، کارشناسان ML اغلب به دنبال راه هایی برای کاهش تعداد ابعاد قبل از آموزش هستند.

برای داده های زبان طبیعی، روش اصلی کاهش ابعاد، تبدیل بردارهای ویژگی به بردارهای تعبیه شده است. این در ماژول Embeddings بعداً در این دوره مورد بحث قرار می گیرد.

قبلی

واژگان و رمزگذاری یکباره (10 دقیقه)

بعدی

ضربدرهای ویژه (5 دقیقه)

داده های طبقه بندی شده: مسائل رایج با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

ارزیاب های انسانی

ارزیاب ماشین

ابعاد بالا

داده های طبقه بندی شده: مسائل رایج