資料集建立簡介

建立資料集的步驟

如要建構資料集 (並在執行資料轉換前),您應:

  1. 收集原始資料。
  2. 識別功能和標籤來源。
  3. 選取取樣策略。
  4. 將資料分組。

這些步驟主要取決於如何建構機器學習問題。請使用下方的自行檢查功能來重新整理記憶體相關問題的記憶體,以及檢查資料收集的假設。

自行檢查問題頁框和資料收集概念

針對以下問題,按一下想要的箭頭即可查看答案:

你正在使用全新的機器學習專案,打算選取第一個功能。需要選擇多少特徵?
請選取 1 至 3 項看似強大的預測能力。
建議您只從一或兩項功能開始收集資料。這有助於確認機器學習模型是否正常運作。 此外,當您從幾項功能建構基準時, 您會覺得自己正在進步!
挑選 4 到 6 項看似強大的預測能力。
您最後可能會使用很多這類功能,不過最好是先減少一些設定,再這麼做。較少的特徵通常代表不需要小工具。
盡可能選取更多功能,以便開始觀測哪些功能最強大的預測能力。
從小開始。每項新功能都會為您的訓練資料資料集新增維度。維度增加時,空間的音量會變得太快,使得可用的訓練資料稀少。剖析器會剖析資料,讓模型越容易瞭解實際的重要特徵和標籤之間的關係。這種現象稱為「維度的解答」。
您的好友 Sam,對於自己的統計資料分析的初始結果感到相當興奮。他表示資料顯示,應用程式下載次數和應用程式評論曝光次數都呈現正相關。但不確定他是否會在不查看評論的情況下,決定是否下載。請問小山誰最有幫助?
您可以進行實驗,比較未看到評論的使用者以及類似的使用者行為。
正確!如果志明發現看到正面評論的使用者較可能下載應用程式,比沒看過應用程式的人更很多,
信任資料。明確的評論就是使用者下載應用程式的原因。
不正確。這個回應不會讓 Sam 以正確的方向方向。您無法只根據觀察資料判斷歸因。Sam 看到關聯性 (也就是數字之間的統計相依性) 不一定代表原因。不要讓分析結果加入錯誤關聯的排名。