全新改良版機器學習密集課程將於 2024 年 8 月推出。請密切留意相關消息！

本頁面由 Cloud Translation API 翻譯而成。

代表權

機器學習模型無法直接查看、聆聽或解讀輸入範例，相反地，您必須建立資料的「表示法」，為模型提供資料的重點特質。也就是說，如要訓練模型，必須選擇最適合代表資料的一組特徵。

代表權

從原始資料到功能

做法是將左側向量的每個部分對應至右側的地圖項目向量。

原始資料會透過稱為特徵工程的程序對應至特徵向量。

從原始資料到功能

直接從原始資料複製的功能示例

從原始資料到功能

無法直接從原始資料複製的字串功能 (街道名稱) 示例

從原始資料到功能

對應字串值 (

字典將每個街道名稱對應至 {0, ...,V-1} 的整數
現在，以 <i> 表示上述單熱向量

優質地圖項目的屬性

特徵值在資料集內顯示的次數應多於零次。

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

優質地圖項目的屬性

功能應具有明確、明顯的意義。

user_age:23

user_age:123456789

優質地圖項目的屬性

特徵不應採用「魔術」的值

(改用 Watch_time_is_defined 等其他布林值功能)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

優質地圖項目的屬性

功能的定義不會隨時間改變。

(請注意依賴其他機器學習系統！)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

優質地圖項目的屬性

分佈不應含有極端離群值

理想情況下，所有特徵都轉換到相近的範圍，例如 (-1、1) 或 (0, 5)。

發布離群值和發布值 (有上限) 的分佈情形

命運特技

這張圖表顯示分佈情形，並按照地點呈現適配曲線

命運特技

這張圖表顯示分佈情形，並按照地點呈現適配曲線

建立多個布林值特徵，每個片段會對應至新的專屬地圖項目
讓模型為每個特徵分塊儲存不同的值

良好習慣

瞭解您的資料

視覺化：繪製直方圖，由高至低排序。
偵錯：例子重複嗎？缺少值嗎？離群值？資料與資訊主頁一致嗎？訓練和驗證資料是否類似？
監控：特徵分位數，一段時間內有哪些範例？

節目規劃練習

除非另有註明，否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權，程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。

上次更新時間：2023-12-02 (世界標準時間)。