組合訓練集時,有時您必須彙整多個資料來源。
記錄類型
您可以採用以下任何類型的輸入資料:
- 交易記錄檔
- 屬性資料
- 匯總統計資料
交易記錄會記錄特定事件。舉例來說,交易記錄可能會記錄查詢的 IP 位址,以及執行查詢的日期和時間。交易事件會對應至特定事件。
屬性資料包含資訊的快照。例如:
- 使用者客層
- 查詢當下的搜尋記錄
屬性資料並非事件或重要時刻,但對於預測時相當實用。針對與特定事件無關的預測工作 (例如預測使用者流失,這會涉及一段時間而非個別時刻),屬性資料可能是唯一的資料類型。
屬性資料和交易記錄相關,舉例來說,您可以匯總數個交易記錄來建立匯總屬性類型,藉此建立匯總統計資料。在這種情況下,您可以透過許多交易記錄檔為使用者建立單一屬性。
匯總統計資料會透過多個交易記錄建立屬性。例如:
- 使用者查詢的頻率
- 特定廣告的平均點擊率
合併記錄檔來源
每種記錄類型都可能位於不同的位置。收集機器學習模型的資料時,您必須彙整不同的來源以建立資料集。以下提供一些例子:
- 在交易記錄中利用使用者的 ID 和時間戳記,在事件發生時查詢使用者屬性。
- 使用交易時間戳記來查詢查詢時的搜尋記錄。
預測資料來源:線上與離線
在機器學習密集課程中,您瞭解了線上與離線供應的相關知識。您的選擇會影響系統收集資料的方式:
- 線上延遲,延遲時間是很重要的,因此您的系統必須快速產生輸入內容。
- 離線 - 你可能沒有運算限制,因此可以類似訓練資料的產生方式。
例如,屬性資料經常需要從其他系統查詢,這可能會導致延遲問題。同樣地,匯總統計資料也可能需要耗費大量資金才能即時計算。如果延遲情況很嚴重,或許就是預先計算這些統計資料。