การรวมบันทึกข้อมูล

เมื่อประกอบชุดการฝึก บางครั้งคุณต้องผนวกรวมแหล่งข้อมูลหลายๆ แหล่ง

ประเภทของบันทึก

คุณอาจทํางานกับข้อมูลอินพุตประเภทต่อไปนี้

  • บันทึกธุรกรรม
  • ข้อมูลแอตทริบิวต์
  • สถิติโดยรวม

บันทึกธุรกรรมจะบันทึกเหตุการณ์ที่เฉพาะเจาะจง ตัวอย่างเช่น บันทึกธุรกรรมอาจบันทึกที่อยู่ IP ที่ทําการสืบค้นข้อมูล รวมทั้งวันที่และเวลาที่สืบค้น เหตุการณ์เกี่ยวกับธุรกรรมจะสอดคล้องกับเหตุการณ์หนึ่ง

ข้อมูลแอตทริบิวต์มีสแนปชอตข้อมูล เช่น

  • ข้อมูลประชากรผู้ใช้
  • ประวัติการค้นหาขณะค้นหา

ข้อมูลแอตทริบิวต์ไม่ได้เจาะจงเฉพาะเหตุการณ์หรือช่วงเวลาหนึ่งๆ แต่อาจมีประโยชน์ในการคาดการณ์ สําหรับงานการคาดการณ์ที่ไม่เกี่ยวข้องกับเหตุการณ์ใดเหตุการณ์หนึ่ง (เช่น การคาดการณ์การเลิกใช้งานของผู้ใช้ซึ่งเกี่ยวข้องกับช่วงเวลามากกว่าช่วงเวลาหนึ่งๆ) ข้อมูลแอตทริบิวต์อาจเป็นข้อมูลประเภทเดียว

ข้อมูลแอตทริบิวต์และบันทึกธุรกรรมมีความเกี่ยวข้อง ตัวอย่างเช่น คุณอาจสร้างประเภทของข้อมูลแอตทริบิวต์โดยการรวมบันทึกธุรกรรมหลายรายการเพื่อสร้างสถิติรวม ในกรณีนี้ คุณจะดูบันทึกธุรกรรมจํานวนมากเพื่อสร้างแอตทริบิวต์เดียวให้กับผู้ใช้ได้

สถิติโดยรวมจะสร้างแอตทริบิวต์จากบันทึกธุรกรรมหลายรายการ เช่น

  • ความถี่ของข้อความค้นหาของผู้ใช้
  • อัตราการคลิกเฉลี่ยในโฆษณาหนึ่ง

การเข้าร่วมแหล่งที่มาของบันทึก

บันทึกแต่ละประเภทมักจะอยู่ในตําแหน่งที่แตกต่างกัน เมื่อรวบรวมข้อมูลสําหรับโมเดลแมชชีนเลิร์นนิง คุณต้องรวมแหล่งที่มาต่างๆ เข้าด้วยกันเพื่อสร้างชุดข้อมูล ตัวอย่างมีดังต่อไปนี้

  • ใช้ประโยชน์จากรหัสและการประทับเวลาของผู้ใช้ในบันทึกธุรกรรมเพื่อค้นหาแอตทริบิวต์ของผู้ใช้ในเวลาเกิดเหตุการณ์
  • ใช้การประทับเวลาของธุรกรรมเพื่อเลือกประวัติการค้นหาในเวลาที่ค้นหา

แหล่งข้อมูลการคาดการณ์ — ออนไลน์เทียบกับออฟไลน์

ในหลักสูตรข้อขัดข้องของแมชชีนเลิร์นนิง คุณได้เรียนรู้เกี่ยวกับการให้บริการออนไลน์และออฟไลน์ ตัวเลือกนี้มีผลต่อวิธีที่ระบบรวบรวมข้อมูลของคุณดังต่อไปนี้

  • ออนไลน์ - เวลาในการตอบสนองคือความกังวล ระบบจึงต้องป้อนข้อมูลอย่างรวดเร็ว
  • ออฟไลน์ - คุณอาจไม่มีข้อจํากัดในการคํานวณ ทําให้ดําเนินการที่ซับซ้อนได้คล้ายกับการสร้างข้อมูลการฝึกอบรม

เช่น ต้องค้นหาข้อมูลแอตทริบิวต์จากระบบอื่นบ่อยๆ ซึ่งอาจทําให้เกิดปัญหาเกี่ยวกับเวลาในการตอบสนอง ในทํานองเดียวกัน สถิติที่รวบรวมไว้อาจมีค่าใช้จ่ายสูงในการคํานวณได้ทันที หากเวลาในการตอบสนองคือตัวบล็อก สาเหตุหนึ่งที่เป็นไปได้คือการคํานวณสถิติเหล่านี้ล่วงหน้า