合併資料記錄檔

組合訓練集時,有時您必須彙整多個資料來源。

記錄類型

您可以採用以下任何類型的輸入資料:

  • 交易記錄檔
  • 屬性資料
  • 匯總統計資料

交易記錄會記錄特定事件。舉例來說,交易記錄可能會記錄查詢的 IP 位址,以及執行查詢的日期和時間。交易事件會對應至特定事件。

屬性資料包含資訊的快照。例如:

  • 使用者客層
  • 查詢當下的搜尋記錄

屬性資料並非事件或重要時刻,但對於預測時相當實用。針對與特定事件無關的預測工作 (例如預測使用者流失,這會涉及一段時間而非個別時刻),屬性資料可能是唯一的資料類型。

屬性資料和交易記錄相關,舉例來說,您可以匯總數個交易記錄來建立匯總屬性類型,藉此建立匯總統計資料。在這種情況下,您可以透過許多交易記錄檔為使用者建立單一屬性。

匯總統計資料會透過多個交易記錄建立屬性。例如:

  • 使用者查詢的頻率
  • 特定廣告的平均點擊率

合併記錄檔來源

每種記錄類型都可能位於不同的位置。收集機器學習模型的資料時,您必須彙整不同的來源以建立資料集。以下提供一些例子:

  • 在交易記錄中利用使用者的 ID 和時間戳記,在事件發生時查詢使用者屬性。
  • 使用交易時間戳記來查詢查詢時的搜尋記錄。

預測資料來源:線上與離線

機器學習密集課程中,您瞭解了線上與離線供應的相關知識。您的選擇會影響系統收集資料的方式:

  • 線上延遲,延遲時間是很重要的,因此您的系統必須快速產生輸入內容。
  • 離線 - 你可能沒有運算限制,因此可以類似訓練資料的產生方式。

例如,屬性資料經常需要從其他系統查詢,這可能會導致延遲問題。同樣地,匯總統計資料也可能需要耗費大量資金才能即時計算。如果延遲情況很嚴重,或許就是預先計算這些統計資料。