取樣與分割:瞭解知識

針對以下問題,按一下想要的箭頭即可查看答案:

假設您有一個正負為 1:1000 的資料集。遺憾的是,您的模型一律會預測絕大多數的類別。下列哪一項技巧可以解決這個問題?請注意,您希望模型報告已校正的機率。
只要將負範例移除。
這是個不錯的開始,但您將修改模型的基本費率,因此不會再經過校正。
將負範例 (大部分類別) 減少。然後,以相同的因子將下取樣類別調高。
這能有效處理不同步的資料,但仍能實際分配標籤。請注意,無論模型是否回報已校正的機率,都十分重要。如果不需要校正,則無須擔心變更基本費率。
哪些技巧會使資料集末尾遺失資料?可複選。
PII 篩選
從資料中濾除 PII,可能會導致消費者在隱私權方面受到負面影響,因而影響分佈情形。
加權
加權示例會改變不同範例的重要性,但不會失去資訊。事實上,在尾部樣本中新增權重有助於模型瞭解您的尾巴行為。
降低取樣
特徵分佈的末尾會減少取樣。不過,由於我們通常會對多數類別進行取樣,因此這通常不會造成太大的問題。
正規化
正規化處理個別範例,因此不會造成取樣偏誤。
您正在處理分類問題,這會隨機將資料劃分為訓練、評估和測試集。您的分類器看起來很完美!在實際工作環境中,分類器是完全失敗的錯誤。之後您發現問題是隨機分割所導致。此問題適合哪些類型的資料?
時間序列資料
隨機分割功能會將每個叢集分割於測試/訓練分割項目,進而為模型提供無法在實際工作環境中使用的模型「預覽」。
資料不會隨時間變化
如果資料變化不大,隨機分組的機率較高。例如,您可能會想識別相片中的狗品種,或是根據生物特徵辨識資料預測患者患有心臟病的風險。在這兩種情況下,資料通常不會隨時間變化,因此隨機分割應該不會導致問題。
資料分組
測試集一律與訓練集過於相似,因為相似的資料叢集將同時出現在兩個集合中。看來模型的預測能力會比之前更高。
資料爆發 (在間歇性讀寫中 (而非連續串流) 的資料
訓練與測試中會顯示相似資料的叢集 (爆發)。模型會在測試中獲得比新資料更好的預測。