真實世界中的機器學習系統:文學

在本課程中,你必須對與 18 世紀文學相關的實際機器學習問題進行偵錯*。

實際範例:18 世紀世紀文學

  • 18 世紀世紀文學的教授想根據作者的「心智交誼方」來預測作者的政治立場。
舊書籍
  • 18 世紀世紀文學的教授想根據作者的「心智交誼方」來預測作者的政治立場。
  • 研究人員團隊建立了大量作者資料集,並附有眾多作者&#39、作品、逐句語句,並分成火車/驗證/測試集。
舊書籍
  • 18 世紀世紀文學的教授想根據作者的「心智交誼方」來預測作者的政治立場。
  • 研究人員團隊建立了大量作者資料集,並附有眾多作者&#39、作品、逐句語句,並分成火車/驗證/測試集。
  • 訓練模型幾乎在測試資料上幾乎完美完成,但研究人員認為結果的執行結果相當可疑。問題可能出在哪裡?
舊書籍

您為何認為測試準確率很高?確認是否可以找出問題,然後按一下下方的 [播放] 按鈕 ▶ 確認是否正確無誤。

  • 資料分割 A:研究人員將部分作者的樣本集中在訓練集中,而其中部分模型屬於驗證集,另一組則位於測試集。
Richardson' 的所有範例可能都位於訓練集中,而 Swift' 的所有範例可能位於驗證集。
這張圖表顯示訓練集、驗證集和測試集的作者範例詳細資料。每幅作者的三個作者皆代表每個組合。
  • 資料分割 B:研究人員將每個作者的所有範例集中存放在一組集中。
這張圖表顯示訓練集、驗證集和測試集的作者範例詳細資料。訓練集僅含有 Swift 的範例,驗證集僅包含 Blake 的範例,測試集僅包含 Defoe 的範例。
  • 資料分割 A:研究人員將部分作者的樣本集中在訓練集中,而其中部分模型屬於驗證集,另一組則位於測試集。
  • 資料分割 B:研究人員將每個作者的所有範例集中存放在一組集中。
  • 結果:在資料分割 A 中訓練的模型準確率高於在資料 B 上訓練的模型。

道德:請審慎考慮您分隔範例的方式。

瞭解資料代表的意義。

* 這個模組以概略的結構 (在過程中做出一些修改) 為基礎,請參閱「指標含義與挖礦:對人類在資料採礦中隱含假設的影響」的說明。Sculley 和 Pasanek 的做法。