隨機

實務注意事項

打造可重現資料管道的管道。假設您想新增功能,說明該功能對模型品質的影響。針對公平實驗,您的資料集應相同。如果無法執行資料產生作業,則可製作這些資料集。

基於這個精神,請確保資料產生作業中的任何隨機性能產生確定性:

  • 播映隨機數字產生器 (RNG)。傳播內容可確保 RNG 在每次執行時以相同的順序輸出相同的值,並重新建立資料集。
  • 使用不變式雜湊鍵。「雜湊」是分割或取樣資料的常見方法。您可對每個範例進行雜湊處理,並使用產生的整數決定分割的放置位置。每次執行資料產生程式時,雜湊函式的輸入內容不應變更。請不要使用雜湊中的目前時間或隨機數字,例如如果您想要視需求重新建立雜湊,

上述方法適用於取樣和分割資料。

雜湊處理注意事項

想像一下,如果您收集的是搜尋查詢,並使用雜湊來納入或排除查詢。如果雜湊鍵僅使用查詢,則在這兩天中,資料會「一律」包含該查詢或「一律」排除該查詢。一律包含或一律排除查詢不佳,原因如下:

  • 您的訓練集查詢組合較少。
  • 您的評估集會以人工方式進行,因為這些模型不會與訓練資料重疊。實際上,您是在提供資料時看到訓練資料中的部分即時流量,因此您的評估結果應該能夠反映這一點。

您可改為對查詢 + 日期進行雜湊處理,導致每天使用不同的雜湊。

 

動畫視覺化圖表顯示查詢的雜湊方式如何導致資料每天進入相同的值區,但針對查詢進行雜湊和查詢時間也會導致資料每天進入不同的值區。三個值區分別為「訓練」、「評估」和「忽略」。