تصادفی سازی

ملاحظات عملی

خط لوله تولید داده خود را قابل تکرار کنید. فرض کنید می‌خواهید یک ویژگی اضافه کنید تا ببینید چگونه بر کیفیت مدل تأثیر می‌گذارد. برای یک آزمایش منصفانه، مجموعه داده های شما باید به جز این ویژگی جدید یکسان باشد. اگر اجراهای تولید داده شما قابل تکرار نیستند، نمی توانید این مجموعه داده ها را بسازید.

با این روح، مطمئن شوید که هر گونه تصادفی سازی در تولید داده را می توان قطعی کرد:

  • مولدهای اعداد تصادفی (RNG) خود را بکارید. Seding تضمین می‌کند که RNG هر بار که آن را اجرا می‌کنید مقادیر یکسانی را با همان ترتیب خروجی می‌دهد و مجموعه داده شما را دوباره ایجاد می‌کند.
  • از کلیدهای هش ثابت استفاده کنید. هش کردن یک روش متداول برای تقسیم یا نمونه برداری از داده ها است. می توانید هر مثال را هش کنید و از عدد صحیح به دست آمده برای تصمیم گیری در مورد تقسیم مثال استفاده کنید. هر بار که برنامه تولید داده را اجرا می کنید، ورودی های تابع هش شما نباید تغییر کند. برای مثال، اگر می‌خواهید هش‌های خود را در صورت تقاضا دوباره ایجاد کنید، از زمان فعلی یا یک عدد تصادفی در هش خود استفاده نکنید.

رویکردهای قبلی هم برای نمونه گیری و هم برای تقسیم داده های شما اعمال می شود.

ملاحظاتی برای هش کردن

دوباره تصور کنید که در حال جمع‌آوری عبارت‌های جستجو و استفاده از هش برای گنجاندن یا حذف عبارت‌ها هستید. اگر کلید هش فقط از پرس و جو استفاده می کرد، در طول چند روز داده، یا همیشه آن عبارت را درج می کنید یا همیشه آن را حذف می کنید. همیشه شامل کردن یا حذف کردن یک پرس و جو بد است زیرا:

  • مجموعه آموزشی شما مجموعه ای از پرس و جوهای متنوع کمتری را مشاهده می کند.
  • مجموعه های ارزیابی شما به طور مصنوعی سخت خواهند بود، زیرا با داده های آموزشی شما همپوشانی ندارند. در واقع، در زمان ارائه خدمات، مقداری از ترافیک زنده را در داده های آموزشی خود مشاهده خواهید کرد، بنابراین ارزیابی شما باید منعکس کننده آن باشد.

درعوض، می‌توانید در Query + date هش کنید، که منجر به هش متفاوتی در هر روز می‌شود.

تجسم متحرک نشان می دهد که چگونه هش کردن صرفاً روی پرس و جو باعث می شود داده ها هر روز به یک سطل بروند، اما هش کردن روی پرس و جو به اضافه زمان پرس و جو باعث می شود داده ها هر روز به سطل های مختلف بروند. سه سطل عبارتند از: آموزش، ارزیابی و نادیده گرفته شده.