轉換資料:進行隨堂測驗

針對以下問題,按一下想要的箭頭即可查看答案:

您正在預先處理迴歸模型的資料。需要哪些轉換作業?可複選。
將所有非數字特徵轉換成數字特徵。
答對了,這是必要的轉換作業。您無法將字串轉換為數字數字,因為您無法對字串執行矩陣乘法。
正規化數字資料。
正規化數字資料或許能幫上忙,但這項說明為選用的品質轉換。

 

請參考下方圖表。一開始,哪些資料轉型技巧可能最有效率?原因為何?假設您的目標是在 RoomPerPerson 和房價之間找到線性關係。
Z 分數
如果離群值並非極端情況,Z 分數就是不錯的選擇。但是,離群值極端。
剪輯
剪輯是很好的選擇,因為資料集包含極端離群值。應先修正極端離群值,再套用其他正規化。
記錄檔資源調度
如果資料會確定使用者符合電源用量分配方式,建議採用記錄檔資源調度。不過,本資料符合一般發行原則,而非權力法分配。
具有分位數邊界的特徵分塊 (特徵分塊)
分位數特徵分塊是偏移資料的絕佳方法,但在這種情況下,這會導致部分極端離群值發生誤差。此外,您希望模型學習線性關係。因此,您應保留 roomPerPerson 數字,而不是將其轉換為類別,這就是值區特徵。請改用正規化技巧。

這張圖表顯示不同 RoomsPerPerson 的相對頻率,其中 RoomsPerPerson 是住宅區的會議室數量除以該居民的人數。大部分資料分佈在 0 到 5 之間,浮點值介於 5 到 55 之間。

 

請參考下方圖表。一開始,哪些資料轉型技巧可能最有效率?原因為何?
Z 分數
如果離群值並非極端且需要剪輯,就很適合使用 Z 分數。但事實並非如此。資料偏差應是提示。
剪輯
如果有極端離群值,裁剪功能是不錯的選擇。然而,這張圖表顯示了強力法分佈情形,而有其他正規化技巧可以有效幫助大家解決。
記錄檔資源調度
資料擴充是這裡的理想選擇,因為資料符合電源法分配情形。
具有分位數邊界的特徵分塊 (特徵分塊)
分位數資料分區是偏移資料的絕佳方法。不過,您正在尋找模型學習線性線性關係。因此,您應保留資料數字,並將資料放入值區。建議您改用正規化技巧。

長條圖在長條末端高度集中於低點。第一長條的規模為 1,200,第二個長條的規模為 460,第三個長條的規模則為 300。第 15 列時,規模會降到約 30 度。長尾的尾巴具有連續 90 個長條,長度則永遠不會超過 10 個。

 

請參考下方圖表。線性模型對壓縮比率和城市 mpg 之間的關係有良好的預測結果嗎?如果沒有,您可以如何轉換資料才能更好地訓練模型?
是,模型可能會找出線性關係,並產生相當準確的預測結果。
儘管模型會找出線性關係,但模型無法做出非常準確的預測。您可以嘗試在資料模擬練習中訓練這個資料集,進一步瞭解原因。
否。這個模型在縮放後可能更為準確。
您可以套用線性縮放,但壓縮比率與城市 mpg 之間的關係之間的關係也應相同。這樣不但能讓您看到兩條獨立的坡度,一種用於較低壓縮比例的點叢集,另一種則是較高的坡度。
否。發生了兩種行為。您可以在中間設定門檻,並使用值區化功能,進一步瞭解上述兩個區塊的運作情形。
答對了,請務必清楚說明原因,以及設定邊界的原因。在資料模擬練習中,您將進一步瞭解這項做法如何協助您建立更優質的模型。

顯示壓縮速率與壓縮比率的散佈圖。壓縮比例軸的兩端會有兩個不同的資料區塊,比另一個區塊大很多。大的籠罩會壓縮壓縮比例的範圍為 7 到 12;較小長寬比的壓縮長寬比為 21 到 23。高速公路的 mpg 通常比較大裁剪的略低。

 

對等團隊會說明他們的機器學習專案進度。他們計算了一個詞彙並離線訓練模型。不過,他們希望避免發生過時問題,所以他們現在打算在線上訓練其他模型。後續情形
模型會在新資料送達時保持最新狀態。其他團隊必須持續監控輸入資料。
雖然避免過時程度是動態訓練的主要優點,但搭配使用詞彙和離線訓練的模型會導致問題。
他們可能會發現,所使用的索引並未對應至詞彙。
答對了,向同事說明訓練/提供偏差造成的威脅,並建議他們參加 Google 的機器學習準備資料準備和功能工程課程。