在本課程中,你必須對與 18 世紀文學相關的實際機器學習問題進行偵錯*。
實際範例:18 世紀世紀文學
實際範例:18 世紀世紀文學
- 18 世紀世紀文學的教授想根據作者的「心智交誼方」來預測作者的政治立場。
實際範例:18 世紀世紀文學
- 18 世紀世紀文學的教授想根據作者的「心智交誼方」來預測作者的政治立場。
- 研究人員團隊建立了大量作者資料集,並附有眾多作者'、作品、逐句語句,並分成火車/驗證/測試集。
實際範例:18 世紀世紀文學
- 18 世紀世紀文學的教授想根據作者的「心智交誼方」來預測作者的政治立場。
- 研究人員團隊建立了大量作者資料集,並附有眾多作者'、作品、逐句語句,並分成火車/驗證/測試集。
- 訓練模型幾乎在測試資料上幾乎完美完成,但研究人員認為結果的執行結果相當可疑。問題可能出在哪裡?
實際範例:18 世紀世紀文學
您為何認為測試準確率很高?確認是否可以找出問題,然後按一下下方的 [播放] 按鈕 ▶ 確認是否正確無誤。
實際範例:18 世紀世紀文學
- 資料分割 A:研究人員將部分作者的樣本集中在訓練集中,而其中部分模型屬於驗證集,另一組則位於測試集。
Richardson' 的所有範例可能都位於訓練集中,而 Swift' 的所有範例可能位於驗證集。
實際範例:18 世紀世紀文學
- 資料分割 B:研究人員將每個作者的所有範例集中存放在一組集中。
實際範例:18 世紀世紀文學
- 資料分割 A:研究人員將部分作者的樣本集中在訓練集中,而其中部分模型屬於驗證集,另一組則位於測試集。
- 資料分割 B:研究人員將每個作者的所有範例集中存放在一組集中。
- 結果:在資料分割 A 中訓練的模型準確率高於在資料 B 上訓練的模型。
實際範例:18 世紀世紀文學
道德:請審慎考慮您分隔範例的方式。
瞭解資料代表的意義。
* 這個模組以概略的結構 (在過程中做出一些修改) 為基礎,請參閱「指標含義與挖礦:對人類在資料採礦中隱含假設的影響」的說明。Sculley 和 Pasanek 的做法。