一般化

「一般化」是指模型與用來建立模型的相同分佈比例,可正確適應之前從未見過的新資料。

一般化

經期、預測、取樣、探索真實分配、取樣更多
  • 目標:預測 (而非隱藏) 新分佈資料所產生的錯誤。
  • 問題:我們沒有發現真相。
    • 我們只會從該檔案中取樣。
經期、預測、取樣、探索真實分配、取樣更多
  • 目標:預測 (而非隱藏) 新分佈資料所產生的錯誤。
  • 問題:我們沒有發現真相。
    • 我們只會從該檔案中取樣。
  • 如果 h 模型符合目前的樣本,我該如何相信它能對其他新樣本建立良好預測?
  • 理論上:
    • 有趣欄位:一般理論
    • 以測量模型的簡單 / 複雜度為靈感
  • 直覺:奧克罕的正規化準則
    • 模型的複雜度越高,越能發揮考慮性的結果,這種情況不只是因為我們樣本的特性所致
  • 選擇性:
    • 提問:我們的模型是否能對新資料樣本進行良好處置?
    • 評估:取得新的資料呼叫範例,稱為測試集
    • 測試集表現良好,對新資料一般成效來說十分實用。
      • 如果測試集夠大
      • 如果不反覆使用測試集,就會作弊

以上這三項基本假設:

  1. 系統從分佈中隨機挑選一個獨立且完全相同 (即 i.i.d.) 的範例
  2. 分佈狀態是靜態:不會隨時間變化
  3. 我們一律會從相同的發行版本提取資料,包括訓練集、驗證集和測試集