數值資料:第一步

建立特徵向量前,建議您先研究 兩種方式:

  • 透過圖表或圖形將資料視覺化。
  • 取得您資料的相關統計資料。

資料視覺化

圖表可協助你找出隱藏在資料中的異常狀況或模式。 因此,在深入分析前 請先看看 透過圖形化的資料 (散佈圖或直方圖)。檢視非圖表 也是資料管道的起點 轉換。視覺化功能可協助您持續檢視自己的假設。

建議使用 pandas 進行視覺化:

請注意,部分視覺化工具已針對特定資料格式進行最佳化處理。 幫助您評估通訊協定緩衝區的視覺化工具,不一定 協助您評估 CSV 資料

以統計方式評估資料

除了視覺化分析之外,我們也建議評估潛在特徵和 處理標籤,收集基本統計資料,例如:

  • 平均值和中位數
  • 標準差
  • 四分位數除以前 0 次 百分位數。第 0 個百分位數是這一欄的最小值;這個 這一欄的最大值是第 100 個百分位數。(第 50 個百分位數) 為中位數)。
,瞭解如何調查及移除這項存取權。

查看離群值

離群值為「遠離」的值 從特徵或標籤中大部分其他值中擷取。異常值往往會造成問題 因此找出離群值很重要

第 0 和第 25 個百分位數的差異出現顯著差異時 偏重於第 75 和第 100 個百分位數之間的差距 包含離群值。

離群值可分為下列任一類別:

  • 離群值是錯誤所致。 舉例來說,如果實驗者不小心輸入了額外的 0 也可能是收集資料故障的工具 您通常會刪除包含錯誤離群值的範例。
  • 離群值是合法的資料點,但不是錯誤。 在這種情況下,訓練好的模型 您最終需要針對這些離群值推測良好的預測結果嗎?
    • 如果是,請保留在訓練集中的這些離群值。畢竟,離群值低 有時候,某些特徵會反映標籤中的離群值 離群值其實可以「協助」模型做出更好的預測。 請注意,極度離群值仍可能損害您的模型。
    • 如果答案為否,請刪除離群值,或套用更多侵入式特徵工程 例如裁剪技術。
,瞭解如何調查及移除這項存取權。