2024 年 8 月に、機械学習集中講座の改良された新しいバージョンがリリースされます。今後の情報にご注目ください。
このレッスンでは、18 世紀の文献に関連する実際の ML の問題* をデバッグします。
実世界の例: 18 世紀の文学
実世界の例: 18 世紀の文学
- 18 世紀文学の教授は、「心のメタファー」に基づいて、著者の政治的思想を予測したいと考えていました。この著者が使用しました。
実世界の例: 18 世紀の文学
- 18 世紀文学の教授は、「心のメタファー」に基づいて、著者の政治的思想を予測したいと考えていました。この著者が使用しました。
- 研究者のチームは、多くの著者とともに大きなラベル付きデータセットを作成し、作業、文ごとの文、およびトレーニング/検証/テストセットへの分割を行いました。
実世界の例: 18 世紀の文学
- 18 世紀文学の教授は、「心のメタファー」に基づいて、著者の政治的思想を予測したいと考えていました。この著者が使用しました。
- 研究者のチームは、多くの著者とともに大きなラベル付きデータセットを作成し、作業、文ごとの文、およびトレーニング/検証/テストセットへの分割を行いました。
- トレーニングされたモデルはテストデータでほぼ完璧に動作しましたが、研究者は結果が疑わしいと感じていました。どのような問題が考えられますか。
実世界の例: 18 世紀の文学
テストの精度に不審な点はあると思いますか?問題を確認してから、下の再生ボタン ▶ をクリックして、正しいかどうかをご確認ください。
実世界の例: 18 世紀の文学
- データ分割 A: 各作成者の例をトレーニング セット、検証セット、テストセットにそれぞれ配置します。
Richardson のすべての例がトレーニング セットにあるのに対し、Swift の例はすべて検証セットに含まれている可能性があります。
実世界の例: 18 世紀の文学
- データ分割 B: 研究者は各著者の全サンプルを 1 つのセットにまとめます。
実世界の例: 18 世紀の文学
- データ分割 A: 各作成者の例をトレーニング セット、検証セット、テストセットにそれぞれ配置します。
- データ分割 B: 研究者は各著者の全サンプルを 1 つのセットにまとめます。
- 結果: データ分割 A でトレーニングされたモデルは、データ分割 B でトレーニングされたモデルよりもはるかに高い精度でした。
実世界の例: 18 世紀の文学
倫理観: サンプルを分割する方法は慎重に検討してください。
データの内容を理解する
* このモジュールは、「The Meaning and Mining: Impact in Immplact in Data Mining for the Humanities」と「Sculley and Pasanek」による「Meaning and Mining: Implicit assumptions Impact」により、かなり緩やかに(その間に変更を加えました)。