مجموعه داده ها: ویژگی های داده

مجموعه داده مجموعه ای از نمونه ها است.

بسیاری از مجموعه داده ها داده ها را در جداول (شبکه) ذخیره می کنند، به عنوان مثال، به عنوان مقادیر جدا شده با کاما (CSV) یا مستقیماً از صفحات گسترده یا جداول پایگاه داده. جداول یک قالب ورودی بصری برای مدل های یادگیری ماشین هستند. شما می توانید هر سطر از جدول را به عنوان مثال و هر ستون را به عنوان یک ویژگی یا برچسب بالقوه تصور کنید. گفته می شود، مجموعه داده ها همچنین ممکن است از فرمت های دیگر، از جمله فایل های گزارش و بافرهای پروتکل مشتق شوند.

صرف نظر از فرمت، مدل ML شما فقط به اندازه داده هایی است که روی آن آموزش می دهد. این بخش ویژگی های داده های کلیدی را بررسی می کند.

انواع داده ها

یک مجموعه داده می تواند شامل انواع مختلفی از انواع داده ها باشد، از جمله، اما مطمئناً به موارد زیر محدود نمی شود:

  • داده های عددی که در یک واحد جداگانه پوشش داده شده است
  • داده های طبقه بندی شده، که در یک واحد جداگانه پوشش داده شده است
  • زبان انسانی، از جمله کلمات و جملات جداگانه، تا کل اسناد متنی
  • چند رسانه ای (مانند تصاویر، فیلم ها و فایل های صوتی)
  • خروجی های سایر سیستم های ML
  • بردارهای تعبیه شده ، که در واحد بعدی پوشش داده می شوند

انواع داده های قبلی را می توان بسیار بیشتر تقسیم کرد. ماژول‌های بعدی در این دوره - برای مثال، ماژول داده‌های طبقه‌بندی - این نوع داده‌ها را به تفصیل و زیر دسته‌بندی می‌کنند.

مقدار داده ها

به عنوان یک قانون کلی، مدل شما باید حداقل بر اساس یک مرتبه بزرگی (یا دو) نمونه بیشتر از پارامترهای قابل آموزش تمرین کند. با این حال، مدل‌های خوب معمولاً بر روی نمونه‌های بسیار بیشتر از آن آموزش می‌بینند.

مدل‌هایی که روی مجموعه داده‌های بزرگ با ویژگی‌های کم آموزش داده می‌شوند، معمولاً از مدل‌هایی که بر روی مجموعه داده‌های کوچک با ویژگی‌های زیاد آموزش داده می‌شوند، بهتر عمل می‌کنند. گوگل در طول تاریخ موفقیت زیادی در آموزش مدل های ساده بر روی مجموعه داده های بزرگ داشته است.

مجموعه داده های مختلف برای برنامه های مختلف یادگیری ماشین ممکن است به مقادیر بسیار متفاوتی از مثال ها برای ساخت یک مدل مفید نیاز داشته باشد. برای برخی از مشکلات نسبتاً ساده، چند ده مثال ممکن است کافی باشد. برای مشکلات دیگر، یک تریلیون مثال ممکن است کافی نباشد.

اگر در حال تطبیق یک مدل موجود که قبلاً روی مقادیر زیادی داده از همان طرح آموزش دیده است، نتایج خوبی از یک مجموعه داده کوچک به دست آورید.

کیفیت و قابلیت اطمینان داده ها

همه کیفیت بالا را به کیفیت پایین ترجیح می دهند، اما کیفیت آنقدر مفهوم مبهم است که می توان آن را به روش های مختلف تعریف کرد. این دوره کیفیت را به صورت عملی تعریف می کند:

مجموعه داده با کیفیت بالا به مدل شما کمک می کند تا به هدف خود دست یابد. مجموعه داده با کیفیت پایین، مدل شما را از دستیابی به هدفش باز می دارد.

یک مجموعه داده با کیفیت بالا معمولاً قابل اعتماد است. قابلیت اطمینان به میزان اعتماد شما به داده های خود اشاره دارد. مدلی که بر روی یک مجموعه داده قابل اعتماد آموزش داده شده است، احتمال بیشتری دارد که پیش‌بینی‌های مفیدی را نسبت به مدلی که بر روی داده‌های غیرقابل اعتماد آموزش دیده است، ارائه دهد.

در اندازه گیری قابلیت اطمینان، باید تعیین کنید:

  • خطاهای برچسب چقدر رایج است؟ برای مثال، اگر داده‌های شما توسط انسان‌ها برچسب‌گذاری شده باشد، رتبه‌دهندگان انسانی شما چند بار مرتکب اشتباه می‌شوند؟
  • آیا ویژگی های شما نویز دارد ؟ یعنی آیا مقادیر موجود در ویژگی های شما دارای خطا هستند؟ واقع بین باشید - نمی توانید مجموعه داده های خود را از همه نویزها پاک کنید. مقداری صدا طبیعی است. به عنوان مثال، اندازه‌گیری‌های GPS در هر مکانی همیشه هفته به هفته کمی نوسان دارند.
  • آیا داده ها به درستی برای مشکل شما فیلتر شده اند؟ به عنوان مثال، آیا مجموعه داده شما باید شامل پرس و جوهای جستجو از ربات ها باشد؟ اگر در حال ساختن یک سیستم تشخیص هرزنامه هستید، احتمالاً پاسخ مثبت است. با این حال، اگر در تلاش برای بهبود نتایج جستجو برای انسان هستید، خیر.

موارد زیر دلایل رایج داده های غیر قابل اعتماد در مجموعه داده ها هستند:

  • مقادیر حذف شده به عنوان مثال، شخصی فراموش کرده است مقداری را برای سن خانه وارد کند.
  • نمونه های تکراری به عنوان مثال، یک سرور به اشتباه همان ورودی های گزارش را دو بار آپلود کرد.
  • مقادیر بد ویژگی به عنوان مثال، شخصی یک رقم اضافی تایپ کرده است، یا یک دماسنج در زیر نور خورشید باقی مانده است.
  • برچسب های بد به عنوان مثال، شخصی به اشتباه تصویر یک درخت بلوط را به عنوان درخت افرا برچسب گذاری کرده است.
  • بخش های بد داده ها به عنوان مثال، یک ویژگی خاص بسیار قابل اعتماد است، به جز روزی که شبکه مدام خراب می شود.

توصیه می کنیم از اتوماسیون برای پرچم گذاری داده های غیرقابل اعتماد استفاده کنید. به عنوان مثال، آزمون‌های واحدی که طرح‌واره داده‌های رسمی خارجی را تعریف می‌کنند یا به آن تکیه می‌کنند، می‌توانند مقادیری را که خارج از محدوده تعریف‌شده قرار می‌گیرند پرچم‌گذاری کنند.

نمونه های کامل در مقابل نمونه های ناقص

در یک دنیای کامل، هر نمونه کامل است. یعنی هر مثال حاوی یک مقدار برای هر ویژگی است.

شکل 1. یک مثال حاوی مقادیر برای هر پنج ویژگی آن.
شکل 1. یک مثال کامل.

متأسفانه، نمونه های دنیای واقعی اغلب ناقص هستند، به این معنی که حداقل یک مقدار ویژگی از دست رفته است.

شکل 2. مثالی حاوی مقادیر چهار مورد از پنج ویژگی آن. یکی از ویژگی‌ها گم شده است.
شکل 2. یک مثال ناقص.

مدل را بر روی نمونه های ناقص آموزش ندهید. در عوض، نمونه‌های ناقص را با انجام یکی از موارد زیر اصلاح یا حذف کنید:

  • نمونه های ناقص را حذف کنید.
  • مقادیر گمشده را درج کنید . یعنی با ارائه حدس های مستدل برای مقادیر گمشده، مثال ناقص را به یک مثال کامل تبدیل کنید.
شکل 3. یک مجموعه داده شامل سه مثال که دو تای آنها نمونه های ناقص هستند. شخصی این دو نمونه ناقص را از مجموعه داده حذف کرده است.
شکل 3. حذف نمونه های ناقص از مجموعه داده.

شکل 4. یک مجموعه داده شامل سه مثال، دو نمونه ناقص حاوی داده های از دست رفته بودند. برخی از موجودیت ها (یک انسان یا نرم افزار انتساب) مقادیری را که جایگزین داده های از دست رفته شده است، درج کرده است.
شکل 4. وارد کردن مقادیر گمشده برای مثال های ناقص.

اگر مجموعه داده حاوی نمونه های کامل کافی برای آموزش یک مدل مفید است، نمونه های ناقص را حذف کنید. به طور مشابه، اگر فقط یک ویژگی مقدار قابل توجهی از داده را از دست داده است و آن یک ویژگی احتمالاً نمی تواند کمک زیادی به مدل کند، آن ویژگی را از ورودی های مدل حذف کنید و ببینید با حذف آن چقدر کیفیت از بین می رود. اگر مدل بدون آن فقط یا تقریباً به خوبی کار کند، عالی است. برعکس، اگر نمونه‌های کامل کافی برای آموزش یک مدل مفید ندارید، ممکن است مقادیر گمشده را در نظر بگیرید.

حذف مثال های بی فایده یا زائد خوب است، اما حذف نمونه های مهم بد است. متأسفانه، تمایز بین نمونه های بی فایده و مفید می تواند دشوار باشد. اگر نمی‌توانید تصمیم بگیرید که حذف کنید یا انباشته کنید، ساخت دو مجموعه داده را در نظر بگیرید: یکی از حذف نمونه‌های ناقص و دیگری با برگزیدن. سپس، تعیین کنید که کدام مجموعه داده مدل بهتری را آموزش می دهد.


یکی از الگوریتم های متداول استفاده از میانگین یا میانه به عنوان مقدار نسبت داده شده است. در نتیجه، هنگامی که شما یک ویژگی عددی را با امتیازهای Z نشان می‌دهید، مقدار انباشته معمولاً 0 است (زیرا 0 معمولاً میانگین امتیاز Z است).

تمرین: درک خود را بررسی کنید

در اینجا دو ستون از یک مجموعه داده است که بر اساس Timestamp مرتب شده اند.

مهر زمان دما
8 ژوئن 2023 09:00 12
8 ژوئن 2023 ساعت 10:00 18
8 ژوئن 2023 ساعت 11:00 گم شده
8 ژوئن 2023 ساعت 12:00 24
8 ژوئن 2023 ساعت 13:00 38

کدام یک از موارد زیر یک مقدار معقول برای محاسبه مقدار از دست رفته دما است؟

23
احتمالا. 23 میانگین مقادیر مجاور (12، 18، 24 و 38) است. با این حال، ما بقیه مجموعه داده را نمی بینیم، بنابراین ممکن است که 23 برای ساعت 11:00 در روزهای دیگر پرت باشد.
31
بعید است. بخش محدودی از مجموعه داده که می‌توانیم ببینیم نشان می‌دهد که 31 برای دمای 11:00 بسیار زیاد است. با این حال، ما نمی‌توانیم بدون استناد به تعداد بیشتری از مثال‌ها مطمئن باشیم.
51
بسیار بعید است. 51 بسیار بالاتر از هر یک از مقادیر نمایش داده شده است (و بنابراین، بسیار بالاتر از میانگین).