Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

การวิเคราะห์ข้อมูลที่ดี

ผู้เขียน: Patrick Riley

ขอขอบคุณเป็นพิเศษสำหรับ Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook และ Barry Rosenberg

ประวัติ

การอัปเดตสำคัญครั้งล่าสุด: มิ.ย. 2019
เวอร์ชันก่อนหน้าของสื่อบางส่วนปรากฏบน บล็อก Google Data Science อย่างไม่เป็นทางการ: ต.ค. 2016

ภาพรวม

การหาความจริงและข้อมูลเชิงลึกจากกองข้อมูลเป็นงานที่มีประสิทธิภาพแต่มักเกิดข้อผิดพลาด นักวิเคราะห์ข้อมูลและวิศวกรที่ให้ความสำคัญกับข้อมูลดีที่สุดจะมีชื่อเสียงจาก การสร้างคำบอกเล่าที่น่าเชื่อถือจากข้อมูล แต่อะไรที่พวกเขาทำเพื่อให้ พวกเขามีความน่าเชื่อถือ ฉันมักได้ยินคำคุณศัพท์ เช่น ระมัดระวังและมีระเบียบ แต่นักวิเคราะห์ที่มีความละเอียดและรอบคอบที่สุดทำอะไรบ้าง

นี่ไม่ใช่คำถามธรรมดา โดยเฉพาะเมื่อพิจารณาจากประเภทข้อมูลที่เราเก็บรวบรวมเป็นประจำที่ Google เรามักจะทำงานกับชุดข้อมูลขนาดใหญ่มาก แต่ชุดข้อมูลเหล่านั้นเต็มไปด้วยข้อมูลมากมาย กล่าวคือ ข้อมูลแต่ละแถว มักจะมีแอตทริบิวต์จำนวนมาก เมื่อรวมเข้ากับลำดับเหตุการณ์ชั่วคราวของผู้ใช้รายหนึ่งๆ คุณจะสามารถดูข้อมูลได้เป็นจำนวนมาก ตรงข้ามกับการทดลองทางจิตวิทยาเชิงวิชาการโดยทั่วไปที่นักวิจัยจะต้องมองจุดข้อมูลแต่ละจุดเป็นเรื่องจำเป็น ปัญหาที่เกิดจากชุดข้อมูลที่มีขนาดใหญ่และมีมิติแตกต่างจากปัญหาที่พบมากในประวัติศาสตร์การทำงานทางวิทยาศาสตร์ส่วนใหญ่

เอกสารนี้จะสรุปแนวคิดและเทคนิคที่นักวิเคราะห์ที่มีระเบียบวิธีและระมัดระวังใช้กับชุดข้อมูลที่มีขนาดใหญ่และมีมิติ แม้ว่าเอกสารนี้จะเน้นที่ข้อมูลจากบันทึกและการวิเคราะห์ทดลอง แต่เทคนิคจำนวนมากเหล่านี้ใช้ได้อย่างกว้างขวางมากกว่า

ส่วนที่เหลือของเอกสารประกอบด้วย 3 ส่วนซึ่งครอบคลุมแง่มุมต่างๆ ของการวิเคราะห์ข้อมูล ได้แก่

เทคนิค: แนวคิดและเทคนิคในการควบคุมและตรวจสอบข้อมูล
กระบวนการ: คำแนะนำเกี่ยวกับวิธีการจัดการข้อมูล คำถามที่ควรถาม และสิ่งที่ควรตรวจสอบ
แนวคิด: วิธีทำงานร่วมกับผู้อื่นและสื่อสารข้อมูลเชิงลึก

ด้านเทคนิค

เราลองมาดูเทคนิคบางอย่างในการตรวจสอบข้อมูลของคุณกัน

ดูการกระจายข้อมูล

ผู้ปฏิบัติงานส่วนใหญ่ใช้เมตริกสรุป (เช่น ค่าเฉลี่ย ค่ามัธยฐาน ค่าเบี่ยงเบนมาตรฐาน และอื่นๆ) ในการสื่อสารเกี่ยวกับการแจกแจง อย่างไรก็ตาม คุณควรตรวจสอบตัวแทนการกระจายที่สมบูรณ์ยิ่งขึ้นด้วยการสร้างฮิสโตแกรม ฟังก์ชันการกระจายสะสม (CDF) แผนภาพควอนไทล์ (Q-Q) และอื่นๆ การแสดงข้อมูลที่สมบูรณ์ยิ่งขึ้นเหล่านี้ช่วยให้คุณตรวจหาฟีเจอร์สําคัญของข้อมูลได้ เช่น พฤติกรรมในหลายโมดัลหรือคลาสของค่าผิดปกติ

พิจารณาค่าผิดปกติ

ตรวจสอบค่าผิดปกติต่างๆ อย่างรอบคอบ เนื่องจากค่าเหล่านี้อาจเป็นนกคีบในเหมืองถ่านหิน ที่ระบุปัญหาพื้นฐานอื่นๆ ในการวิเคราะห์ของคุณ คุณสามารถยกเว้นค่าที่ผิดปกติจากข้อมูลหรือรวมไว้ด้วยกันเป็นหมวดหมู่ "ผิดปกติ" ก็ได้ แต่คุณควรแน่ใจว่าคุณทราบสาเหตุที่ข้อมูลถูกจัดอยู่ในหมวดหมู่ดังกล่าว

ตัวอย่างเช่น การดูคำค้นหาที่มีจำนวนคลิกต่ำสุดอาจแสดงการคลิกองค์ประกอบที่คุณไม่ได้นับ การดูคำค้นหาที่มีจำนวนคลิกสูงสุดอาจเผยให้เห็นการคลิกที่คุณไม่ควรนับ ในทางกลับกัน อาจมีค่าผิดปกติบางอย่างที่คุณไม่สามารถอธิบายได้ คุณจึงต้องระวังว่าใช้เวลาไปกับงานนี้มากน้อยเพียงใด

พิจารณาสัญญาณรบกวน

ความสุ่มเสี่ยงมีอยู่และจะทำให้เราเข้าใจผิด บางคนอาจคิดว่า "Google มีข้อมูลมากมายเหลือเกิน เสียงรบกวนจะหายไปได้" ซึ่งไม่เป็นความจริงเลย ตัวเลขทุกจำนวนหรือข้อมูลสรุปทั้งหมดที่คุณสร้างควรมีข้อมูลประกอบเกี่ยวกับความเชื่อมั่นของคุณในค่าประมาณนี้ (ผ่านการวัด เช่น ช่วงความเชื่อมั่นและ p-values)

ดูตัวอย่าง

ทุกครั้งที่คุณสร้างโค้ดการวิเคราะห์ใหม่ คุณต้องดูตัวอย่างจากข้อมูลที่สำคัญ และวิธีที่โค้ดตีความตัวอย่างเหล่านั้น การสร้างโค้ดที่ซับซ้อนขึ้นแทบจะเป็นไปไม่ได้เลย หากไม่ได้ทำตามขั้นตอนนี้ การวิเคราะห์ของคุณแยกรายละเอียดมากมายออกจากข้อมูลพื้นฐานเพื่อสร้างข้อมูลสรุปที่มีประโยชน์ เมื่อดูความซับซ้อนทั้งหมดของตัวอย่างแต่ละรายการ คุณจะมั่นใจได้ว่าการสรุปของคุณสมเหตุสมผล

วิธีที่คุณนำตัวอย่างเหล่านี้มาพิจารณานั้นมีความสำคัญ

หากคุณกำลังแยกประเภทข้อมูลพื้นฐาน ให้ดูตัวอย่างของแต่ละคลาส
หากเป็นชั้นเรียนขนาดใหญ่ ให้ดูตัวอย่างเพิ่มเติม
หากคุณกำลังคำนวณจำนวน (เช่น เวลาในการโหลดหน้าเว็บ) ให้ดูตัวอย่างที่อยู่เหนือสุด (อาจเป็น 5% เร็วที่สุดและช้าที่สุด คุณรู้ว่าการกระจายของคุณมีลักษณะเป็นอย่างไรใช่ไหม) และจุดต่างๆ ทั่วทั้งการวัด

ส่วนแบ่งข้อมูลของคุณ

การแบ่งส่วนหมายถึงการแยกข้อมูลออกเป็นกลุ่มย่อยและดูค่าเมตริกสำหรับกลุ่มย่อยแต่ละกลุ่มแยกกัน เรามักจะแบ่งมิติข้อมูลต่างๆ เช่น เบราว์เซอร์ ภาษา โดเมน ประเภทอุปกรณ์ และอื่นๆ หากปรากฏการณ์ที่เกิดขึ้นอยู่มีแนวโน้มที่จะทำงานแตกต่างกันในกลุ่มย่อย คุณต้องแบ่งข้อมูลออกเป็นส่วนๆ เพื่อยืนยันว่าเป็นกรณีนี้จริงหรือไม่ แม้คุณจะไม่ได้คาดหวังว่าการแบ่งส่วนจะให้ผลลัพธ์ที่แตกต่างกัน แต่การดูชิ้นส่วนเล็กๆ น้อยๆ เพื่อความสอดคล้องภายในจะช่วยให้คุณมั่นใจได้มากขึ้นว่าคุณกำลังวัดผลสิ่งที่ถูกต้อง ในบางกรณี ส่วนใดส่วนหนึ่งอาจมีข้อมูลที่ไม่ดี มีการโต้ตอบของผู้ใช้ที่ไม่ต่อเนื่อง หรือแตกต่างกันโดยพื้นฐาน

เมื่อใดก็ตามที่คุณแบ่งข้อมูลเพื่อเปรียบเทียบ 2 กลุ่ม (เช่น กลุ่มทดสอบเทียบกับกลุ่มควบคุม หรือ "เวลา A" เทียบกับ "เวลา B") คุณก็จำเป็นต้องตระหนักถึงการเปลี่ยนแปลงแบบผสมผสาน Mix Shift คือเมื่อปริมาณข้อมูลในแต่ละส่วนของแต่ละกลุ่มแตกต่างกัน ความผิดพลาดของ Simpson และความสับสนวุ่นวายอื่นๆ ก็อาจเกิดขึ้นได้ โดยทั่วไปแล้ว หากจำนวนสัมพัทธ์ในแต่ละส่วนเท่ากันในทั้ง 2 กลุ่ม คุณก็จะทำการเปรียบเทียบได้อย่างปลอดภัย

พิจารณานัยสำคัญทางปฏิบัติ

เมื่อมีข้อมูลปริมาณมาก คุณอาจอยากโฟกัสที่นัยสำคัญทางสถิติเพียงอย่างเดียวหรือมุ่งเน้นไปที่รายละเอียดของข้อมูลทุกๆ ส่วน แต่คุณต้องถามตัวเองว่า "แม้ว่าจะมีค่า X มากกว่าค่า Y ถึง 0.1% ก็ตาม" ซึ่งมีความสำคัญอย่างยิ่งหากคุณไม่เข้าใจ/จัดหมวดหมู่ข้อมูลบางส่วน หากคุณเข้าใจสตริง User Agent บางสตริงในบันทึกไม่ได้ การพิจารณาว่าสตริงดังกล่าวเป็นข้อมูล 0.1% หรือ 10% ก็หมายความว่าคุณควรตรวจสอบกรณีเหล่านั้นมากแค่ไหน

หรือบางครั้งอาจมีข้อมูลปริมาณน้อย การเปลี่ยนแปลงหลายๆ รายการอาจดูไม่มีนัยสำคัญทางสถิติ แต่ต่างจากการอ้างว่าการเปลี่ยนแปลงเหล่านี้ "เป็นกลาง" คุณต้องถามตัวเองว่า "มีโอกาสมากน้อยเพียงใดที่จะยังมีการเปลี่ยนแปลงอย่างมีนัยสำคัญ"

ตรวจสอบความสอดคล้องเมื่อเวลาผ่านไป

คุณควรลองแบ่งข้อมูลตามหน่วยเวลาแทบทุกครั้ง เพราะข้อมูลที่สำคัญจะรบกวนการทำงานหลายครั้ง เนื่องจากระบบของเรามีการพัฒนาเมื่อเวลาผ่านไป (เรามักจะใช้เวลาหลายวัน แต่หน่วยเวลาอื่นๆ ก็อาจมีประโยชน์เช่นกัน) ระหว่างการเปิดตัวฟีเจอร์หรือการรวบรวมข้อมูลใหม่ครั้งแรก ผู้ปฏิบัติงานมักจะตรวจสอบอย่างละเอียดว่าทุกอย่างทำงานตามที่คาดไว้ อย่างไรก็ตาม ความเสียหายหรือพฤติกรรมที่ไม่คาดคิดจำนวนมากอาจเกิดขึ้นเมื่อเวลาผ่านไป

การที่วันหรือชุดวันหนึ่งๆ มีค่าผิดปกติไม่ได้หมายความว่าคุณควรทิ้งข้อมูลที่เกี่ยวข้อง ใช้ข้อมูลเป็นฮุก เพื่อหาสาเหตุโดยทั่วไปที่เปลี่ยนวันหรือวันนั้นก่อนที่คุณจะทิ้งไป

นอกจากนี้ การดูข้อมูลแบบวันต่อวันยังช่วยให้คุณเห็นภาพถึงความแปรผันของข้อมูลซึ่งจะนำไปสู่ช่วงความเชื่อมั่นหรือการอ้างนัยสำคัญทางสถิติในท้ายที่สุด โดยทั่วไป การเปลี่ยนแปลงนี้ไม่ควรแทนที่การคำนวณช่วงความเชื่อมั่นที่เข้มงวด แต่บ่อยครั้งที่การเปลี่ยนแปลงใหญ่ๆ ที่คุณเห็นว่าจะมีนัยสำคัญทางสถิติจากกราฟแบบวันต่อวันเท่านั้น

รับทราบและนับการกรองของคุณ

การวิเคราะห์ข้อมูลขนาดใหญ่เกือบทุกครั้งเริ่มต้นด้วยการกรองข้อมูลในขั้นตอนต่างๆ คุณอาจต้องพิจารณาเฉพาะผู้ใช้ในสหรัฐอเมริกา การค้นเว็บ หรือการค้นหาด้วยโฆษณา ไม่ว่าจะเป็นกรณีใด คุณต้องทำดังนี้

รับทราบและระบุอย่างชัดเจนว่าคุณกำลังกรองอะไรอยู่
นับปริมาณข้อมูลที่กรองในแต่ละขั้นตอน

วิธีที่ดีที่สุดก็คือการคำนวณเมตริกทั้งหมด แม้กระทั่งกับประชากรที่คุณยกเว้น จากนั้นคุณจะดูข้อมูลดังกล่าวเพื่อตอบคำถามต่างๆ เช่น "การกรองสแปมนำออกได้กี่ส่วนในคำค้นหา" (การวิเคราะห์ประเภทนั้นอาจไม่สามารถทำได้เสมอไป ทั้งนี้ขึ้นอยู่กับเหตุผลที่คุณกรอง)

อัตราส่วนควรมีตัวเศษและตัวส่วนที่ชัดเจน

เมตริกที่น่าสนใจที่สุดคืออัตราส่วนของการวัดผลที่สำคัญ บ่อยครั้งที่การกรองที่น่าสนใจหรือตัวเลือกข้อมูลอื่นๆ จะซ่อนอยู่ในคำนิยามที่แน่นอนของตัวเศษและตัวส่วน เช่น ข้อใดต่อไปนี้ "การค้นหา / ผู้ใช้" หมายถึง

คำค้นหา / ผู้ใช้ที่มีคำค้นหา
คำค้นหา / ผู้ใช้ที่เข้าชม Google วันนี้
คำค้นหา / ผู้ใช้ที่มีบัญชีที่ใช้งานอยู่ (ใช่ ฉันต้องกำหนด ใช้งานอยู่)

การชี้แจงให้ชัดเจนในที่นี้จะช่วยป้องกันความสับสนสำหรับตัวคุณเองและผู้อื่น

กรณีพิเศษอีกกรณีหนึ่งคือเมตริกที่คํานวณได้จากข้อมูลบางอย่างเท่านั้น เช่น "เวลาในการคลิก" มักจะหมายถึง "เวลาที่ใช้ในการคลิกเมื่อมีการคลิก" ทุกครั้งที่คุณดูเมตริกแบบนี้ คุณต้องตระหนักว่าการกรองและมองหาการเปลี่ยนแปลงในการกรองระหว่างกลุ่มที่คุณกำลังเปรียบเทียบ

ขั้นตอน

ส่วนนี้ประกอบด้วยคำแนะนำเกี่ยวกับวิธีจัดการข้อมูล คำถามที่คุณควรถามเกี่ยวกับข้อมูล และสิ่งที่ควรตรวจสอบ

แยกการตรวจสอบ คำอธิบาย และการประเมิน

ผมคิดว่าการวิเคราะห์ข้อมูลมี 3 ขั้นที่มีความเกี่ยวพันกัน ได้แก่

การตรวจสอบความถูกต้อง¹: ฉันเชื่อว่าข้อมูลมีความสอดคล้องกันในตัวเอง มีการรวบรวมอย่างถูกต้อง และข้อมูลแสดงถึงสิ่งที่ฉันคิดว่าเป็นของตัวเองหรือไม่
คำอธิบาย: การตีความวัตถุประสงค์ของข้อมูลนี้คืออะไร ตัวอย่างเช่น "ผู้ใช้สร้างคำค้นหาที่จัดประเภทเป็น X น้อยลง" "ในกลุ่มการทดสอบ เวลาระหว่าง X ถึง Y มีค่ามากกว่า 1%" และ "ผู้ใช้จำนวนน้อยไปที่หน้าผลลัพธ์ถัดไป"
การประเมิน: จากคำอธิบาย ข้อมูลบอกเราว่า มีเรื่องดีๆ เกิดขึ้นกับผู้ใช้ กับ Google หรือคนทั้งโลก

การแยกระยะเหล่านี้จะทำให้คุณบรรลุข้อตกลงกับผู้อื่นได้ง่ายขึ้น คำอธิบายควรเป็นข้อมูลที่ทุกคนสามารถตกลงกันในเรื่องข้อมูลได้ การประเมินมักจะกระตุ้นให้เกิดการอภิปรายมากขึ้น หากไม่ได้แยก "คำอธิบาย" และ "การประเมิน" ไว้ คุณมักจะเห็นเพียงการตีความข้อมูล ที่คุณคาดหวังว่าจะเห็นเท่านั้น นอกจากนี้ การประเมินยังมีแนวโน้มที่จะยากขึ้นมาก เนื่องจากการสร้างมูลค่าเชิงบรรทัดฐานของเมตริกซึ่งมักทำผ่านการเปรียบเทียบที่เข้มงวดกับฟีเจอร์และเมตริกอื่นๆ จะทำให้ต้องใช้การลงทุนอย่างมาก

ขั้นตอนเหล่านี้จะไม่ดำเนินเป็นเชิงเส้น ขณะสำรวจข้อมูล คุณสามารถกลับไปกลับมาระหว่างขั้นตอนได้ แต่เมื่อใดก็ตามที่คุณชัดแจ้งว่าคุณกำลังอยู่ในขั้นตอนใด

ยืนยันการตั้งค่าการทดสอบและการเก็บรวบรวมข้อมูล

ก่อนที่จะดูข้อมูล คุณควรทำความเข้าใจบริบทที่มีการรวบรวมข้อมูล หากข้อมูลมาจากการทดสอบ ให้ดูที่ การกำหนดค่าของการทดสอบ หากมาจากการใช้เครื่องมือของลูกค้าใหม่ อย่างน้อยคุณควรมีความเข้าใจอย่างคร่าวๆ เกี่ยวกับวิธีการรวบรวมข้อมูล คุณอาจพบการกำหนดค่าหรือข้อจำกัดด้านประชากรที่ผิดปกติ/ไม่ถูกต้อง (เช่น ข้อมูลที่ถูกต้องสำหรับ Chrome เท่านั้น) สิ่งสำคัญที่นี่อาจช่วยให้คุณ สร้างและยืนยันทฤษฎีต่างๆ ได้ในภายหลัง โปรดคำนึงถึงสิ่งต่อไปนี้

หากกำลังทำการทดสอบอยู่ ให้ลองดำเนินการด้วยตัวคุณเอง หากทำไม่ได้ ให้ตรวจสอบภาพหน้าจอ/คำอธิบายลักษณะการทำงานเป็นอย่างน้อย
ตรวจสอบว่ามีสิ่งใดผิดปกติเกี่ยวกับช่วงเวลาที่การทดสอบดำเนินไปหรือไม่ (วันหยุด การเปิดตัวครั้งใหญ่ ฯลฯ)
ระบุกลุ่มประชากรผู้ใช้ที่ได้รับผลกระทบสำหรับการทดลอง

ตรวจสอบสิ่งที่ไม่ควรเปลี่ยนแปลง

ในขั้นตอน "การตรวจสอบความถูกต้อง" ก่อนที่จะตอบคำถามที่คุณสนใจจริงๆ (เช่น "การเพิ่มภาพใบหน้าเพิ่มหรือลดจำนวนคลิก") ให้ตัดความแปรปรวนอื่นๆ ในข้อมูลที่อาจส่งผลต่อการทดสอบ เช่น

จำนวนผู้ใช้มีการเปลี่ยนแปลงไหม
จำนวนคำค้นหาที่ได้รับผลกระทบจำนวนที่เหมาะสมแสดงในกลุ่มย่อยทั้งหมดของฉันไหม
อัตราข้อผิดพลาดมีการเปลี่ยนแปลงไหม

คำถามเหล่านี้มีเหตุผลสำหรับการเปรียบเทียบการทดสอบ/การควบคุม และเมื่อตรวจสอบแนวโน้มเมื่อเวลาผ่านไป

ลำดับที่ 1 แบบมาตรฐาน รูปแบบที่ 2 ที่กำหนดเอง

เมื่อดูฟีเจอร์ใหม่และข้อมูลใหม่ๆ เราอยากจะเน้นไปยังเมตริกใหม่หรือแบบพิเศษสำหรับฟีเจอร์ใหม่นี้ อย่างไรก็ตาม คุณควรดูเมตริกมาตรฐานก่อนเสมอ แม้ว่าเมตริกนั้นจะมีการเปลี่ยนแปลงก็ตาม เช่น เมื่อเพิ่มการบล็อกสากลใหม่ในหน้าเว็บ ให้ทำความเข้าใจผลกระทบต่อเมตริกมาตรฐาน เช่น "การคลิกผลการค้นหาบนเว็บ" ก่อนที่จะเจาะลึกไปที่เมตริกที่กำหนดเองเกี่ยวกับผลการค้นหาใหม่นี้

เมตริกมาตรฐานจะได้รับการตรวจสอบที่ดีกว่ามากและมีแนวโน้มที่จะถูกต้องมากกว่าเมตริกที่กำหนดเอง ถ้าเมตริกที่กำหนดเองไม่สอดคล้องกับเมตริกมาตรฐาน อาจเป็นไปได้ว่าเมตริกที่กำหนดเองไม่ถูกต้อง

วัด 2 ครั้งขึ้นไป

โดยเฉพาะอย่างยิ่ง หากคุณกำลังพยายามจับปรากฏการณ์ใหม่ ให้ลองวัดสิ่งพื้นฐานเดียวกันด้วยวิธีต่างๆ จากนั้น พิจารณาว่าการวัดผลหลายๆ อย่างเหล่านี้ สอดคล้องกันหรือไม่ การใช้การวัดหลายครั้งจะช่วยให้คุณระบุข้อบกพร่องในการวัดหรือโค้ดการบันทึก ฟีเจอร์ที่ไม่คาดคิดของข้อมูลสําคัญ หรือขั้นตอนการกรองที่สำคัญได้ ยิ่งไปกว่านั้นหากใช้แหล่งข้อมูลที่แตกต่างกันสำหรับการวัดผล

ตรวจหาการทำซ้ำ

ทั้งการแบ่งส่วนและความสม่ำเสมอในช่วงเวลาต่างๆ เป็นตัวอย่างเฉพาะของการตรวจสอบความสามารถในการทำซ้ำ หากปรากฏการณ์มีความสำคัญและมีความหมาย คุณควรเห็นเหตุการณ์นั้นในประชากรผู้ใช้และเวลาต่างๆ แต่การยืนยันความสามารถในการสร้างซ้ำหมายถึงมากกว่าการตรวจสอบทั้ง 2 แบบนี้ หากคุณกำลังสร้างโมเดลข้อมูล โมเดลเหล่านั้นต้องการให้มีความเสถียรในการเปลี่ยนแปลงเล็กๆ น้อยๆ ในข้อมูลพื้นฐาน การใช้ช่วงเวลาที่แตกต่างกันหรือตัวอย่างข้อมูลแบบสุ่มจะช่วยให้ทราบว่าโมเดลนี้เชื่อถือได้/ทำงานซ้ำได้มากน้อยเพียงใด

หากโมเดลไม่สามารถทำซ้ำได้ อาจเป็นเพราะคุณไม่ได้บันทึกข้อมูลพื้นฐานเกี่ยวกับกระบวนการพื้นฐานที่ทำให้เกิดข้อมูลขึ้นมา

ตรวจสอบความสอดคล้องกับการวัดผลที่ผ่านมา

บ่อยครั้งที่จะมีการคำนวณเมตริกที่คล้ายกับสิ่งที่เคยนับในอดีต คุณควรเปรียบเทียบเมตริกกับเมตริกที่รายงานในอดีต แม้ว่าการวัดผลเหล่านี้จะอยู่ในกลุ่มประชากรผู้ใช้ที่ต่างกันก็ตาม

ตัวอย่างเช่น ถ้าคุณดูการเข้าชมจากข้อความค้นหาในกลุ่มประชากรพิเศษ และพบว่าเวลาในการโหลดหน้าเว็บเฉลี่ยคือ 5 วินาที แต่การวิเคราะห์ผู้ใช้ทั้งหมดที่ผ่านมาใช้เวลาในการโหลดหน้าเว็บเฉลี่ยอยู่ที่ 2 วินาที คุณก็ต้องตรวจสอบดู ตัวเลขของคุณอาจเหมาะกับประชากรกลุ่มนี้ แต่ตอนนี้คุณต้องดำเนินการเพิ่มเติมเพื่อตรวจสอบ

คุณไม่จำเป็นต้องบรรลุข้อตกลงที่ชัดเจน แต่ควรอยู่ในสนามเบสบอลแห่งเดียวกัน แต่หากไม่เป็นเช่นนั้น ให้ถือว่าคุณตอบผิดจนกว่าจะสามารถทำความเข้าใจได้ ข้อมูลที่น่าประหลาดใจส่วนใหญ่จะกลายเป็นข้อผิดพลาด ไม่ใช่ข้อมูลเชิงลึกใหม่ที่ไม่น่าพอใจ

ควรใช้เมตริกใหม่กับข้อมูล/ฟีเจอร์เก่าก่อน

หากคุณสร้างเมตริกใหม่ (โดยการรวบรวมแหล่งข้อมูลใหม่) และพยายามเรียนรู้สิ่งใหม่ๆ คุณจะไม่ทราบว่าเมตริกใหม่ถูกต้องหรือไม่ แต่สำหรับเมตริกใหม่ คุณควรนำเมตริกดังกล่าวไปใช้กับฟีเจอร์หรือข้อมูลที่รู้จักก่อน ตัวอย่างเช่น ถ้าคุณมีเมตริกใหม่เกี่ยวกับความพึงพอใจของผู้ใช้ คุณควรตรวจสอบว่าเมตริกนั้นบอกข้อมูลเกี่ยวกับความพึงพอใจของผู้ใช้ได้ดีที่สุด หากคุณมีเมตริกใหม่ที่บอกว่าผู้ใช้ดึงดูดความสนใจมายังหน้าเว็บ ณ จุดใด อย่าลืมตรวจสอบว่าค่าดังกล่าวตรงกับสิ่งที่เราทราบจากการดูที่การติดตามสายตาหรือการศึกษาจากผู้ตรวจสอบว่ารูปภาพส่งผลต่อความสนใจในหน้าเว็บอย่างไร การทำเช่นนี้ช่วยให้มีการตรวจสอบ เมื่อคุณเรียนรู้สิ่งใหม่ๆ

ตั้งสมมติฐานและมองหาหลักฐาน

โดยทั่วไปแล้ว การวิเคราะห์ข้อมูลสําหรับปัญหาที่ซับซ้อนจะเกิดขึ้นซ้ำๆ² คุณจะค้นพบความผิดปกติ แนวโน้ม หรือฟีเจอร์อื่นๆ ของข้อมูล โดยปกติแล้ว คุณจะมีทฤษฎีเพื่ออธิบายข้อมูลนี้ อย่าแค่พัฒนาทฤษฎีและประกาศให้เป็นความจริง มองหาหลักฐาน (จากภายในหรือภายนอกข้อมูล) เพื่อยืนยัน/ปฏิเสธทฤษฎีนี้ เช่น

ถ้าคุณเห็นอะไรที่คล้ายกับเทรนด์การเรียนรู้ ให้ดูว่า ข้อมูลนั้นมีผลกับผู้ใช้ความถี่สูงมากที่สุดหรือไม่
หากคุณเชื่อว่าความผิดปกติเกิดจากการเปิดตัวฟีเจอร์บางอย่าง โปรดตรวจสอบให้แน่ใจว่าประชากรที่มีการเปิดตัวฟีเจอร์เป็นเพียงกลุ่มเดียวที่ได้รับผลกระทบจากความผิดปกติดังกล่าว หรือ คุณต้องตรวจสอบว่าขนาดของการเปลี่ยนแปลงสอดคล้องกับความคาดหวังในการเปิดตัว
หากคุณเห็นอัตราการเติบโตของผู้ใช้ในภาษาหนึ่งๆ ให้ลองค้นหาแหล่งข้อมูลภายนอกที่ตรวจสอบอัตราการเปลี่ยนแปลงของประชากรผู้ใช้ดังกล่าว

การวิเคราะห์ข้อมูลที่ดีจะมีเรื่องราวให้เล่าขาน เพื่อให้แน่ใจว่าเรื่องราวถูกต้อง คุณต้องเล่าเรื่องราวให้ตัวเองฟัง จากนั้นมองหาหลักฐานว่าเรื่องราวไม่ถูกต้อง วิธีหนึ่งในการทำเช่นนี้คือการถามตัวเองว่า "ฉันจะทำการทดสอบใด ที่จะตรวจสอบความถูกต้องของเรื่องราวที่เล่าไป/เป็นโมฆะ" ถึงแม้ว่าคุณจะทำการทดลองเหล่านี้ไม่ได้/ทำไม่ได้ แต่ก็อาจทำให้คุณมีไอเดียเกี่ยวกับวิธีตรวจสอบความถูกต้องด้วยข้อมูลที่คุณมีอยู่

ข่าวดีก็คือทฤษฎีและการทดลองที่เป็นไปได้เหล่านี้อาจนำไปสู่การตั้งคำถามใหม่ๆ ที่ก้าวข้ามการพยายามเรียนรู้เกี่ยวกับคุณลักษณะหรือข้อมูลใดๆ โดยเฉพาะ จากนั้นคุณจะเข้าสู่ขอบเขตของการทำความเข้าใจไม่ใช่เพียงข้อมูลนี้ แต่ทำให้เกิดเมตริกและเทคนิคใหม่ๆ สำหรับการวิเคราะห์ในอนาคตทุกประเภท

ประโยชน์จากการวิเคราะห์เชิงสำรวจจากการทำซ้ำตั้งแต่ต้นจนจบ

เมื่อทำการวิเคราะห์เชิงสำรวจ ให้ทำการวิเคราะห์ซ้ำหลายครั้งที่สุดเท่าที่จะเป็นไปได้ โดยทั่วไปแล้วคุณจะต้องมีขั้นตอนหลายขั้นตอนในการรวบรวม ประมวลผล ประมาณสัญญาณ ฯลฯ หากใช้เวลาช่วงแรกนานเกินไปเพื่อให้สัญญาณเริ่มต้นสมบูรณ์แบบ คุณจะเสียโอกาสในการทำซ้ำมากขึ้นโดยใช้เวลาเท่าเดิม ยิ่งไปกว่านั้น เมื่อลองดูข้อมูลในตอนท้ายสุด คุณอาจจะค้นพบที่เปลี่ยนทิศทางของคุณ ดังนั้น การโฟกัสเบื้องต้นไม่ควรเน้นที่ความสมบูรณ์แบบ แต่ให้ทำอะไรบางอย่างที่สมเหตุสมผลตลอดเส้นทาง เขียนหมายเหตุถึงตัวเองและรับทราบถึงสิ่งต่างๆ เช่น ขั้นตอนการกรองและคำขอที่แยกวิเคราะห์ไม่ได้หรือผิดปกติ แต่อย่าเสียเวลาพยายามลบทุกอย่างออกตั้งแต่เริ่มต้นการวิเคราะห์เชิงสำรวจ

คอยฟังความคิดเห็น

เรามักกำหนดเมตริกต่างๆ เกี่ยวกับความสำเร็จของผู้ใช้ เช่น ผู้ใช้คลิกผลการค้นหาไหม ถ้าคุณป้อนข้อมูลกลับไปที่ระบบ (ซึ่งจริงๆ แล้วเราทำในหลายที่) ก็สร้างโอกาสจำนวนมากสำหรับความสับสนในการประเมิน

คุณไม่สามารถใช้เมตริกที่ส่งกลับไปยังระบบเป็นฐานในการประเมินการเปลี่ยนแปลงได้ หากคุณแสดงโฆษณาจำนวนมากขึ้นที่ได้คลิกมากขึ้น คุณไม่สามารถใช้ "คลิกมากขึ้น" เป็นรากฐานในการตัดสินว่าผู้ใช้จะมีความพึงพอใจมากขึ้น แม้ว่า "จำนวนคลิกที่มากขึ้น" มักจะหมายถึง "ความพอใจมากขึ้น" นอกจากนี้ ไม่ควรตัดตัวแปรที่คุณฟีดกลับไปและทำการแก้ไข เนื่องจากจะส่งผลให้เกิดการเปลี่ยนแปลงแบบผสมซึ่งยากหรือไม่เข้าใจเลย

ความคิด

ส่วนนี้จะอธิบายวิธีทำงานร่วมกับผู้อื่นและสื่อสารข้อมูลเชิงลึก

การวิเคราะห์ข้อมูลเริ่มต้นด้วยคำถาม ไม่ใช่ข้อมูลหรือเทคนิค

มีแรงจูงใจในการวิเคราะห์ข้อมูลอยู่เสมอ การสร้างความต้องการของคุณออกมาเป็นคำถามหรือสมมติฐานจะช่วยให้แน่ใจว่าคุณกำลังรวบรวมข้อมูลที่คุณควรรวบรวม และคุณกำลังคิดถึงช่องว่างที่เป็นไปได้ในข้อมูล แน่นอนว่า คำถามที่คุณถามควรค่อยๆ เปลี่ยนไป เมื่อคุณดูข้อมูล อย่างไรก็ตาม การวิเคราะห์โดยไม่มีคำถามนั้น จะจบลงอย่างไร้ประโยชน์

หลีกเลี่ยงกับดักในการหาเทคนิคที่ชอบ แล้วค้นหาเฉพาะส่วนของโจทย์ที่เทคนิคนี้ใช้เท่านั้น ขอย้ำอีกครั้งว่าการสร้างคำถามที่ชัดเจนจะช่วยให้คุณหลีกเลี่ยงกับดักนี้ได้

ช่างระแวงและคว้าชัยชนะ

ขณะทำงานกับข้อมูล คุณต้องเป็นทั้งผู้สนับสนุนข้อมูลเชิงลึกที่ได้รับและสงสัยในข้อมูลเชิงลึกเหล่านั้น คุณจะพบปรากฏการณ์ที่น่าสนใจ ในข้อมูลที่คุณมอง เมื่อคุณตรวจพบปรากฏการณ์ที่น่าสนใจ ให้ถามตัวเองด้วยคำถามต่อไปนี้

ฉันจะรวบรวมข้อมูลอื่นๆ ใดได้บ้างเพื่อแสดงให้เห็นว่าฟีเจอร์นี้ยอดเยี่ยมเพียงใด
ฉันจะหาอะไรที่จะทำให้สิ่งนี้ไม่ถูกต้องได้บ้าง"

โดยเฉพาะอย่างยิ่ง ในกรณีที่คุณกำลังทำการวิเคราะห์สำหรับผู้ที่ต้องการคำตอบหนึ่งๆ จริงๆ (เช่น "ฟีเจอร์ของฉันยอดเยี่ยม") คุณต้องทำตามข้อสงสัยเพื่อหลีกเลี่ยงข้อผิดพลาด

ความสัมพันธ์ != เหตุผล

เมื่อเขียนทฤษฎีเกี่ยวกับข้อมูล เรามักจะต้องการยืนยันว่า "X ทำให้เกิด Y" เช่น "หน้าเว็บทำงานช้าลงทำให้ผู้ใช้คลิกน้อยลง" แม้กระทั่ง xkcd ก็ทราบดีว่าคุณ ไม่สามารถทำให้เกิดความเป็นเหตุเป็นผลได้เพราะความสัมพันธ์กัน เมื่อคำนึงถึงวิธีตรวจสอบทฤษฎีเกี่ยวกับสาเหตุทั่วไปแล้ว คุณจะเข้าใจได้ว่าทฤษฎีโดยทั่วไปมีความน่าเชื่อถือเพียงใด

บางครั้งผู้คนพยายามยึดถือความสัมพันธ์อันมีความหมายโดยยืนยันว่าแม้จะไม่มีความสัมพันธ์เชิงเหตุผลระหว่าง ก กับ ข แต่ก็ต้องมีความบังเอิญร่วมด้วยเพื่อให้สัญญาณหนึ่งเป็นตัวบ่งชี้ที่ดีหรือเป็นตัวแทนที่ดีของอีกสัญญาณหนึ่งได้ พื้นที่นี้เป็นอันตรายต่อปัญหาการทดสอบสมมติฐานหลายข้อ เนื่องจาก xkcd ก็ทราบดี หากมีการทดสอบมากพอและมีมิติข้อมูลที่เพียงพอ สัญญาณบางส่วนก็จะสอดคล้องกับการทดสอบหนึ่งๆ ซึ่งไม่ได้หมายความว่าในอนาคตจะมีสัญญาณเดียวกัน ดังนั้น คุณจึงมีภาระหน้าที่เดียวกันในการพิจารณาทฤษฎีโดยทั่วไป เช่น "มีผลกระทบ C ที่ซ่อนอยู่และทำให้เกิดทั้ง A และ B" เพื่อให้คุณสามารถตรวจสอบว่าเรื่องนี้สมเหตุสมผลเพียงใด

นักวิเคราะห์ข้อมูลมักจะต้องตอบคำถามอย่างกว้างๆ เหล่านี้สำหรับผู้ที่ต้องการใช้ข้อมูล คุณควรสื่อสารกับผู้บริโภคเหล่านั้นอย่างชัดเจน ถึงสิ่งที่คุณสามารถและไม่สามารถพูดเกี่ยวกับความสัมพันธ์ระหว่างเหตุและผล

แชร์กับเพื่อนๆ ก่อน แล้วตามด้วยผู้บริโภคภายนอก

ประเด็นก่อนหน้านี้แนะนำวิธีที่จะช่วยให้คุณ ตรวจสอบความถูกต้องและตรวจสอบความดังที่เหมาะสม แต่การแชร์กับเพื่อน เป็นวิธีที่ดีที่สุดที่จะบังคับตัวเองให้ทำสิ่งต่างๆ ทั้งหมดนี้ เพื่อนที่มีทักษะสามารถให้ความคิดเห็นที่แตกต่างในเชิงคุณภาพกับผู้บริโภคข้อมูลของคุณ โดยเฉพาะอย่างยิ่งเนื่องจากโดยทั่วไปผู้บริโภคมีกำหนดการ เพื่อนร่วมงาน มีประโยชน์ในหลายจุดผ่านการวิเคราะห์ ตั้งแต่เนิ่นๆ คุณจะทราบเรื่อง Gotcha ที่เพื่อนรู้ คำแนะนำว่าจะวัดผลอะไร และเคยทำการวิจัยในด้านนี้ เมื่อใกล้จบ เพื่อนๆ นักเรียนจะชี้ให้เห็นถึงความแปลก ความไม่สอดคล้อง หรือความสับสนอื่นๆ ได้เป็นอย่างดี

ตามหลักการ คุณควรได้รับความคิดเห็นจากเพื่อนที่รู้เรื่องข้อมูลที่คุณกำลังดู แต่แม้แต่เพื่อนที่มีประสบการณ์การวิเคราะห์ข้อมูลทั่วไปก็ถือว่ามีประโยชน์มาก

คาดหวังและยอมรับความไม่รู้และความผิดพลาด

สิ่งที่เราเรียนรู้จากข้อมูลได้นั้นมีขีดจำกัดมากมาย Nate Silver สร้างประเด็นที่ชัดเจนใน The Signal and the Noise ว่าเราเพียงยอมรับขีดจำกัดความแน่นอนของเราเท่านั้นที่จะพัฒนาการคาดการณ์ให้ดีขึ้นได้ การยอมรับความไม่รู้เป็นความแข็งแกร่งที่มักจะไม่ได้รับรางวัลในทันที อาจรู้สึกแย่ในเวลานั้น แต่ก็เป็นประโยชน์อย่างยิ่งสำหรับคุณและทีมของคุณ ในระยะยาว การทำผิดจะแย่ลงไปอีกหากคุณทำผิดพลาดและค้นพบในภายหลัง (หรือสายเกินไป) แต่การรับมือกับข้อผิดพลาดที่เกิดขึ้นเองจะช่วยให้คุณเคารพซึ่งกันและกัน ความเคารพเช่นนี้ทำให้เกิด ความน่าเชื่อถือและผลกระทบ

สรุป

การดำเนินการส่วนใหญ่เพื่อการวิเคราะห์ข้อมูลที่ดีจึงไม่ได้เป็นประโยชน์ต่อผู้บริโภคด้านการวิเคราะห์ข้อมูลในทันที การที่คุณตรวจสอบขนาดประชากรอย่างละเอียดและยืนยันว่าผลกระทบนั้นสอดคล้องกันในเบราว์เซอร์ต่างๆ อาจจะไม่รับรู้ถึงผู้ที่พยายามจะตัดสินจากข้อมูลนี้ ข้อมูลนี้ยังอธิบายเหตุผลที่การวิเคราะห์ข้อมูลที่ดีใช้เวลานานกว่าที่คนส่วนใหญ่ควรทราบด้วย (โดยเฉพาะเมื่อผู้ใช้เห็นเฉพาะผลลัพธ์สุดท้าย) งานหนึ่งของเราในฐานะนักวิเคราะห์คือการค่อยๆ ให้ความรู้แก่ผู้บริโภคเกี่ยวกับข้อมูลเชิงลึกที่ได้จากข้อมูลต่างๆ ว่าขั้นตอนเหล่านี้คืออะไรและเหตุใดจึงสำคัญ

ความต้องการในการปรับแต่งและการสำรวจข้อมูลเหล่านี้ทั้งหมดยังกำหนดข้อกำหนดสำหรับภาษาและสภาพแวดล้อมสำหรับการวิเคราะห์ข้อมูลที่ดีด้วย เรามีเครื่องมือมากมายที่ใช้ตรวจสอบข้อมูลได้ เครื่องมือและภาษาต่างๆ เหมาะกับเทคนิคต่างๆ ที่กล่าวถึงข้างต้นมากกว่า การเลือกเครื่องมือที่เหมาะสมเป็นทักษะสำคัญสำหรับนักวิเคราะห์ คุณไม่ควรถูกจำกัดโดยความสามารถของเครื่องมือที่คุณชอบใช้มากที่สุด หน้าที่ของคุณคือการให้ข้อมูลเชิงลึกที่แท้จริง ไม่ใช่แค่การใช้เครื่องมือใดๆ

บางครั้งเรียกว่า "การวิเคราะห์ข้อมูลพื้นฐาน" โปรดดู บทความของ Wikipedia เกี่ยวกับการวิเคราะห์ข้อมูล ↩
ในทางเทคนิค ควรทำซ้ำก็ต่อเมื่อคุณทำการวิเคราะห์เชิงสำรวจ ไม่ใช่การวิเคราะห์ยืนยัน↩