機器學習技術可協助我們找出資料模式,也就是我們用來預測新資料點的模式。為取得正確的預測結果,我們必須建構資料集和轉換資料。本課程將說明以下兩個關鍵步驟。我們也會看到訓練/放送注意事項的執行步驟。
必要條件
本課程假設了:
- 已完成機器學習密集課程
為什麼要瞭解資料準備與功能工程?
您可以將特徵工程視為協助模型理解資料集的方式。學習者通常會參加以模型建構為主的機器學習課程,但有時可能會花費更多時間專注於資料。
針對以下問題,按一下該箭頭以檢查答案:
如果需要優先改善您在機器學習專案中的一項領域,下列哪一項最有幫助?
資料的品質和大小
數據全都在手上。更新學習演算法或模型架構確實可讓您瞭解不同類型的模式,但如果資料不易,最後就會打造出錯的函式。相較於您使用的演算法,資料集的品質和大小更為重要。
使用最新的最佳化演算法
推送最佳化工具確實會為您帶來某些優勢,但這並不會對您的模型產生其他影響。
更深層的網路
一般網路雖然能夠改善模型品質,但影響程度不受這份清單中的其他項目影響。
更聰明的損失函式
很接近,優質的失真函式可以為您提供大獲成功,但這個商品仍然是這份清單上的其他項目。
為什麼收集「重要資料集」很重要?
Google 翻譯
「...由於類神經機器翻譯已識別出使用的最佳訓練資料子集,因此影響力最大的之一
- Google 翻譯軟體工程師
Google 翻譯團隊使用的訓練資料超過所能使用的量。
團隊不調整模型,而是運用資料中的最佳功能贏得更多獎勵。
「...在我嘗試手動對有趣的錯誤錯誤進行偵錯時,系統可能會追溯到訓練資料的問題。」
- Google 翻譯軟體工程師
「有趣外觀」錯誤通常是由資料所造成。無論你嘗試哪種模擬技巧,錯誤資料可能會導致模型學習錯誤的模式。
大腦糖尿病計畫
Google Brain 的糖尿病視網膜病變專案採用類神經網路架構 (稱為 Inception),透過將圖片分類來偵測疾病。團隊並未調整模型。而是成功建立一組資料集,內含 120,000 個由眼科醫師加上標籤的資料集。(詳情請參閱 https://research.google.com/pubs/pub43022.html)。