ملاحظات عملی
خط لوله تولید داده خود را قابل تکرار کنید. فرض کنید میخواهید یک ویژگی اضافه کنید تا ببینید چگونه بر کیفیت مدل تأثیر میگذارد. برای یک آزمایش منصفانه، مجموعه داده های شما باید به جز این ویژگی جدید یکسان باشد. اگر اجراهای تولید داده شما قابل تکرار نیستند، نمی توانید این مجموعه داده ها را بسازید.
با این روح، مطمئن شوید که هر گونه تصادفی سازی در تولید داده را می توان قطعی کرد:
- مولدهای اعداد تصادفی (RNG) خود را بکارید. Seding تضمین میکند که RNG هر بار که آن را اجرا میکنید مقادیر یکسانی را با همان ترتیب خروجی میدهد و مجموعه داده شما را دوباره ایجاد میکند.
- از کلیدهای هش ثابت استفاده کنید. هش کردن یک روش متداول برای تقسیم یا نمونه برداری از داده ها است. می توانید هر مثال را هش کنید و از عدد صحیح به دست آمده برای تصمیم گیری در مورد تقسیم مثال استفاده کنید. هر بار که برنامه تولید داده را اجرا می کنید، ورودی های تابع هش شما نباید تغییر کند. برای مثال، اگر میخواهید هشهای خود را در صورت تقاضا دوباره ایجاد کنید، از زمان فعلی یا یک عدد تصادفی در هش خود استفاده نکنید.
رویکردهای قبلی هم برای نمونه گیری و هم برای تقسیم داده های شما اعمال می شود.
ملاحظاتی برای هش کردن
دوباره تصور کنید که در حال جمعآوری عبارتهای جستجو و استفاده از هش برای گنجاندن یا حذف عبارتها هستید. اگر کلید هش فقط از پرس و جو استفاده می کرد، در طول چند روز داده، یا همیشه آن عبارت را درج می کنید یا همیشه آن را حذف می کنید. همیشه شامل کردن یا حذف کردن یک پرس و جو بد است زیرا:
- مجموعه آموزشی شما مجموعه ای از پرس و جوهای متنوع کمتری را مشاهده می کند.
- مجموعه های ارزیابی شما به طور مصنوعی سخت خواهند بود، زیرا با داده های آموزشی شما همپوشانی ندارند. در واقع، در زمان ارائه خدمات، مقداری از ترافیک زنده را در داده های آموزشی خود مشاهده خواهید کرد، بنابراین ارزیابی شما باید منعکس کننده آن باشد.
درعوض، میتوانید در Query + date هش کنید، که منجر به هش متفاوتی در هر روز میشود.