Bergabung ke Log Data

Saat merakit set pelatihan, terkadang Anda harus menggabungkan beberapa sumber data.

Jenis Log

Anda mungkin menggunakan salah satu jenis data input berikut:

  • log transaksi
  • data atribut
  • statistik gabungan

Log transaksi mencatat peristiwa tertentu. Misalnya, log transaksi dapat mencatat alamat IP yang membuat kueri serta tanggal dan waktu kueri dibuat. Peristiwa transaksional terkait dengan peristiwa tertentu.

Data atribut berisi ringkasan informasi. Contoh:

  • demografi pengguna
  • histori penelusuran saat kueri

Data atribut tidak spesifik untuk peristiwa atau momen tertentu, tetapi masih dapat berguna untuk membuat prediksi. Untuk tugas prediksi yang tidak terkait dengan peristiwa tertentu (misalnya, memprediksi churn pengguna, yang melibatkan rentang waktu, bukan momen individual), data atribut mungkin menjadi satu-satunya jenis data.

Data atribut dan log transaksi berkaitan. Misalnya, Anda dapat membuat jenis data atribut dengan menggabungkan beberapa log transaksional, yang akan membuat statistik gabungan. Dalam hal ini, Anda dapat melihat banyak log transaksional untuk membuat satu atribut bagi pengguna.

Statistik agregat membuat atribut dari beberapa log transaksional. Contoh:

  • frekuensi kueri pengguna
  • rasio klik rata-rata pada iklan tertentu

Bergabung ke Sumber Log

Setiap jenis log cenderung berada di lokasi yang berbeda. Saat mengumpulkan data untuk model machine learning, Anda harus menggabungkan berbagai sumber untuk membuat set data. Beberapa contohnya:

  • Manfaatkan ID dan stempel waktu pengguna di log transaksional untuk mencari atribut pengguna pada waktu peristiwa.
  • Gunakan stempel waktu transaksi untuk memilih histori penelusuran pada waktu kueri.

Sumber Data Prediksi — Online vs. Offline

Dalam Kursus Crash Machine Learning, Anda mempelajari penayangan online vs. offline. Pilihan tersebut memengaruhi cara sistem Anda mengumpulkan data sebagai berikut:

  • online—Latensi adalah masalah, sehingga sistem Anda harus menghasilkan input dengan cepat.
  • offline—Anda kemungkinan tidak memiliki batasan komputasi, sehingga dapat melakukan operasi yang sama kompleksnya seperti pembuatan data pelatihan.

Misalnya, data atribut sering kali perlu dicari dari beberapa sistem lain, yang dapat menimbulkan masalah latensi. Demikian pula, statistik gabungan dapat menjadi mahal untuk dihitung dengan cepat. Jika latensi adalah pemblokir, salah satu kemungkinannya adalah melakukan prakomputasi statistik ini.