การวิเคราะห์ข้อมูลที่ดี

ผู้สร้าง: Patrick Riley

ขอขอบคุณเป็นพิเศษสำหรับ: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook และ Barry Rosenberg

ประวัติ

ภาพรวม

การเสาะหาความจริงและข้อมูลเชิงลึกจากกองข้อมูลเป็นงานที่มีประสิทธิภาพแต่ก็มีแนวโน้มที่จะเกิดข้อผิดพลาดได้ นักวิเคราะห์ข้อมูลและวิศวกรที่ให้ความสำคัญกับข้อมูลดีที่สุดจะพัฒนาชื่อเสียง จากการสร้างคำประกาศที่น่าเชื่อถือจากข้อมูล แต่อะไรที่พวกเขาทำ ทำให้พวกเขามีความน่าเชื่อถือ ฉันมักได้ยินคำคุณศัพท์ เช่น careful และ methodical แต่นักวิเคราะห์ที่มีระเบียบและรอบคอบที่สุดทำหน้าที่อะไร

นี่ไม่ใช่คำถามเล็กๆ น้อยๆ โดยเฉพาะเมื่อพิจารณาจากประเภทข้อมูลที่เราเก็บรวบรวมเป็นประจำที่ Google ปกติแล้ว เราไม่เพียงทำงานร่วมกับชุดข้อมูล ที่มีขนาดใหญ่มากเท่านั้น แต่ชุดข้อมูลเหล่านั้นยังมีข้อมูลที่สมบูรณ์มากอีกด้วย กล่าวคือ ข้อมูลแต่ละแถวมักจะมีแอตทริบิวต์จำนวนมาก เมื่อรวมข้อมูลนี้กับลำดับเหตุการณ์ชั่วคราวของผู้ใช้ที่กำหนด ก็จะมีวิธีดูข้อมูลจำนวนมหาศาล ตรงข้ามกับการทดลองทางจิตวิทยาเชิงวิชาการทั่วไปที่ผู้วิจัยศึกษาจุดข้อมูลทุกจุดเป็นเรื่องเล็กน้อย ปัญหาของชุดข้อมูลที่มีขนาดใหญ่และมีมิติแตกต่างจากปัญหาที่พบมากในประวัติศาสตร์การทำงานทางวิทยาศาสตร์ส่วนใหญ่

เอกสารนี้จะสรุปแนวคิดและเทคนิคที่นักวิเคราะห์อย่างรอบคอบและมีระเบียบปฏิบัติกับชุดข้อมูลขนาดใหญ่และมีมิติมาก แม้ว่าเอกสารนี้จะเน้นที่ข้อมูลจากบันทึกและการวิเคราะห์ทดลอง แต่เทคนิคส่วนใหญ่เหล่านี้นำมาใช้ได้อย่างกว้างขวางมากกว่า

ส่วนที่เหลือของเอกสารประกอบด้วย 3 ส่วนซึ่งครอบคลุมแง่มุมต่างๆ ของการวิเคราะห์ข้อมูล

  • ด้านเทคนิค: แนวคิดและเทคนิคในการควบคุมและตรวจสอบข้อมูลของคุณ
  • กระบวนการ: คำแนะนำเกี่ยวกับวิธีจัดการข้อมูล คำถามที่ควรถาม และสิ่งที่ควรตรวจสอบ
  • ทัศนคติ: วิธีทำงานร่วมกับผู้อื่นและสื่อสารข้อมูลเชิงลึก

ด้านเทคนิค

ลองมาดูเทคนิคบางอย่างสำหรับการตรวจสอบข้อมูลของคุณกัน

ดูการกระจายของคุณ

ผู้ประกอบวิชาชีพส่วนใหญ่ใช้เมตริกสรุป (เช่น ค่าเฉลี่ย ค่ามัธยฐาน ค่าเบี่ยงเบนมาตรฐาน และอื่นๆ) ในการสื่อสารเกี่ยวกับการกระจาย อย่างไรก็ตาม คุณควรตรวจสอบตัวแทนการกระจายที่สมบูรณ์ยิ่งขึ้นด้วยการสร้างฮิสโตแกรม ฟังก์ชันการกระจายสะสม (CDF) พล็อตควอนไทล์ (Q-Q) และอื่นๆ การแสดงข้อมูลที่สมบูรณ์ยิ่งขึ้นเหล่านี้ช่วยให้คุณตรวจหาฟีเจอร์สําคัญของข้อมูลได้ เช่น พฤติกรรมในหลายโมดัลหรือคลาสของค่าผิดปกติ

พิจารณาค่าผิดปกติ

ตรวจสอบค่าผิดปกติอย่างรอบคอบเนื่องจากอาจเป็นนกคีรีบูนในเหมืองถ่านหินที่ระบุปัญหาพื้นฐานอื่นๆ ในการวิเคราะห์ของคุณ คุณสามารถยกเว้นค่าผิดปกติออกจากข้อมูลของคุณ หรือรวมค่าเหล่านี้เข้าด้วยกันเป็นหมวดหมู่ "ผิดปกติ" ก็ได้ แต่คุณควรจะแน่ใจว่าคุณทราบว่าเหตุใดข้อมูลจึงถูกรวมอยู่ในหมวดหมู่นั้น

เช่น การดูคำค้นหาที่มีจำนวนคลิกต่ำสุดอาจแสดงการคลิกในองค์ประกอบที่คุณไม่ได้นับ การดูข้อความค้นหาที่มีจำนวนคลิกสูงสุดอาจเปิดเผยการคลิกที่คุณไม่ควรนับได้ ในทางกลับกัน อาจมีค่าที่ผิดปกติซึ่งคุณไม่สามารถอธิบายได้ คุณจึงต้องระมัดระวังเกี่ยวกับระยะเวลาที่ใช้ทำงานนี้

คำนึงถึงสัญญาณรบกวน

ความไม่ซ้ำแบบใครจะเกิดขึ้นและทำให้เราหลงเชื่อ บางคนคิดว่า "Google มีข้อมูลมากมาย แต่เสียงรบกวนจะหายไปได้" ซึ่งไม่เป็นความจริงเลย ทุกจำนวนหรือข้อมูลสรุปทั้งหมดที่คุณสร้างควรมีข้อมูลประกอบเกี่ยวกับความเชื่อมั่นของคุณในค่าประมาณนี้ (ผ่านมาตรการต่างๆ เช่น ช่วงความเชื่อมั่นและp-values)

ดูตัวอย่าง

ทุกครั้งที่คุณสร้างโค้ดการวิเคราะห์ใหม่ คุณต้องดูตัวอย่างจากข้อมูลที่สำคัญและวิธีที่โค้ดตีความตัวอย่างเหล่านั้น การสร้างโค้ดที่ซับซ้อนขึ้นแทบจะเป็นไปไม่ได้เลย หากไม่ได้ทำตามขั้นตอนนี้ การวิเคราะห์ของคุณตัดรายละเอียดจำนวนมากจากข้อมูลพื้นฐานมา เพื่อให้ได้สรุปที่เป็นประโยชน์ การดูความซับซ้อนทั้งหมดของตัวอย่างแต่ละรายการจะทำให้คุณมั่นใจว่าการสรุปของคุณสมเหตุสมผล

วิธีที่คุณใช้ตัวอย่างเหล่านี้เป็นสิ่งสำคัญ

  • หากคุณกำลังจำแนกประเภทข้อมูล ให้ดูตัวอย่างของแต่ละคลาส
  • หากเป็นชั้นเรียนที่ใหญ่กว่า ให้ดูตัวอย่างเพิ่มเติม
  • หากคุณกำลังคำนวณตัวเลข (เช่น เวลาในการโหลดหน้าเว็บ) ให้ดูตัวอย่างสุดโต่ง (5% ที่เร็วและช้าที่สุด คุณอาจรู้แล้วว่าการกระจายของคุณมีลักษณะเป็นอย่างไร) รวมถึงจุดต่างๆ ทั่วทั้งพื้นที่ของการวัดผล

แบ่งข้อมูลของคุณ

การแบ่งข้อมูลหมายถึงการแยกข้อมูลออกเป็นกลุ่มย่อยและดูค่าเมตริกของแต่ละกลุ่มย่อยแยกกัน เรามักจะแบ่งมิติข้อมูลตาม เบราว์เซอร์, ภาษา, โดเมน, ประเภทอุปกรณ์ และอื่นๆ หากปรากฏการณ์ที่สําคัญมีแนวโน้มที่จะทํางานแตกต่างกันในกลุ่มย่อย คุณต้องแบ่งข้อมูลออกเป็นส่วนๆ เพื่อยืนยันว่าเป็นกรณีนี้จริง แม้ว่าคุณอาจไม่ได้คาดหวังว่าการแบ่งส่วนจะให้ผลลัพธ์ที่แตกต่างกัน แต่การพิจารณาส่วนแบ่งบางส่วนเพื่อดูความสอดคล้องภายในจะช่วยให้คุณมั่นใจมากขึ้นว่าคุณกำลังวัดผลได้ถูกต้อง ในบางกรณี ส่วนใดส่วนหนึ่งอาจมีข้อมูลที่ไม่ดี การโต้ตอบของผู้ใช้ที่ไม่ราบรื่น หรือโดยพื้นฐานบางอย่างแตกต่างกัน

เมื่อใดก็ตามที่คุณแบ่งข้อมูลออกเป็น 2 กลุ่ม (เช่น กลุ่มทดสอบเทียบกับกลุ่มควบคุม หรือ "เวลา A" กับ "เวลา B") คุณก็จำเป็นต้องตระหนักถึงความแตกต่างที่เกิดขึ้น Mix Shift คือกรณีที่จำนวนข้อมูลในส่วนแบ่งของแต่ละกลุ่มแตกต่างกัน สิ่งที่ทำให้ Simpson's Paradox และความสับสนอื่นๆ อาจเกิดขึ้นได้ โดยทั่วไป หากจำนวนสัมพัทธ์ของข้อมูลในส่วนแบ่งหนึ่ง เท่ากันในทั้ง 2 กลุ่ม คุณจะทำการเปรียบเทียบได้อย่างปลอดภัย

พิจารณาความสำคัญในทางปฏิบัติ

ข้อมูลที่มีปริมาณมากอาจทำให้อยากเน้นแค่นัยสำคัญทางสถิติเพียงอย่างเดียวหรือเน้นดูรายละเอียดของข้อมูลทุกๆ บิตก็ได้ แต่คุณต้องถามตัวเองว่า "ทั้งที่จริงๆ แล้วค่า X มากกว่าค่า Y อยู่ 0.1% จริงไหม" ซึ่งอาจเป็นเรื่องที่สำคัญมากหากคุณไม่เข้าใจ/จัดหมวดหมู่ข้อมูลบางส่วน หากคุณทำความเข้าใจสตริง User Agent บางรายการในบันทึกไม่ได้ การที่ข้อมูลนั้นเป็น 0.1% หรือ 10% ก็จะมีผลอย่างมากว่าคุณควรตรวจสอบกรณีเหล่านั้นมากน้อยเพียงใด

หรือในบางครั้งคุณมีข้อมูลปริมาณน้อย การเปลี่ยนแปลงหลายอย่างดูไม่มีนัยสำคัญทางสถิติ แต่แตกต่างจากการอ้างว่าการเปลี่ยนแปลงเหล่านี้เป็นแบบ "เป็นกลาง" คุณต้องถามตัวเองว่า "มีความเป็นไปได้เพียงใดที่จะยังมีการเปลี่ยนแปลงที่สำคัญในทางปฏิบัติ"

ตรวจสอบความสอดคล้องเมื่อเวลาผ่านไป

คุณควรลองแบ่งข้อมูลตามหน่วยเวลาแทบทุกครั้ง เพราะการรบกวนข้อมูลสำคัญอาจเกิดขึ้นเมื่อระบบมีการพัฒนาอยู่เรื่อยๆ (เรามักจะใช้เวลาหลายวัน แต่หน่วยเวลาอื่นๆ ก็อาจเป็นประโยชน์เช่นกัน) ในช่วงที่เปิดตัวฟีเจอร์หรือการรวบรวมข้อมูลใหม่เป็นครั้งแรก ผู้ชำนาญการมักจะตรวจสอบอย่างละเอียดรอบคอบว่าทุกอย่างทำงานได้ตามที่คาดไว้ อย่างไรก็ตาม ความเสียหายหรือลักษณะการทำงานที่ไม่คาดคิดอาจเกิดขึ้นเมื่อเวลาผ่านไป

การที่วันหรือชุดวันหนึ่งๆ มีค่าผิดปกติไม่ได้หมายความว่าคุณควรทิ้งข้อมูลที่เกี่ยวข้อง ใช้ข้อมูลเป็นเบ็ดเตล็ดในการ พิจารณาหาเหตุผลว่าทำไมวันนั้นหรือวันนั้นจึงแตกต่างกัน

การดูข้อมูลแบบวันต่อวันยังช่วยให้คุณเห็นภาพความแปรผันของข้อมูลซึ่งจะนำไปสู่ช่วงความเชื่อมั่นหรือการกล่าวอ้างนัยสำคัญทางสถิติในที่สุด โดยทั่วไปแล้ว วิธีนี้ไม่ควรมาแทนที่การคำนวณช่วงความเชื่อมั่นแบบเข้มงวด แต่บ่อยครั้งที่การเปลี่ยนแปลงใหญ่ๆ คุณจะเห็นได้ว่าการเปลี่ยนแปลงจะมีนัยสำคัญทางสถิติจากกราฟวันต่อวันเท่านั้น

รับทราบและนับการกรองของคุณ

การวิเคราะห์ข้อมูลขนาดใหญ่เกือบทุกครั้งจะเริ่มต้นด้วยการกรองข้อมูลในขั้นตอนต่างๆ หรือคุณอาจต้องการพิจารณาเฉพาะผู้ใช้ในสหรัฐอเมริกา การค้นเว็บ หรือการค้นหาด้วยโฆษณา ไม่ว่าจะเป็นกรณีใด คุณต้องดำเนินการดังนี้

  • รับทราบและระบุอย่างชัดเจนว่าคุณกำลังกรองอะไรอยู่
  • นับจำนวนข้อมูลที่กรองในแต่ละขั้นตอน

วิธีที่ดีที่สุดที่จะทำอย่างหลังคือการคำนวณเมตริกทั้งหมด แม้จะเป็นประชากรที่คุณยกเว้นก็ตาม คุณสามารถดูข้อมูลดังกล่าวเพื่อตอบคำถาม เช่น "การกรองสแปมลบข้อความค้นหาเป็นส่วนใด" (การวิเคราะห์ประเภทนั้นอาจไม่สามารถทำได้เสมอไป ทั้งนี้ขึ้นอยู่กับเหตุผลที่คุณกรอง)

อัตราส่วนควรมีตัวเศษและตัวส่วนที่ชัดเจน

เมตริกที่น่าสนใจส่วนใหญ่คืออัตราส่วนของการวัดที่สำคัญ บ่อยครั้งที่การกรองที่น่าสนใจหรือตัวเลือกข้อมูลอื่นๆ ซ่อนอยู่ในคำจำกัดความที่แน่นอนของตัวเศษและตัวส่วน ตัวอย่างเช่น ข้อใดต่อไปนี้ ที่หมายถึง "ข้อความค้นหา / ผู้ใช้"

  • การค้นหา / ผู้ใช้ที่มีคำค้นหา
  • ข้อความค้นหา / ผู้ใช้ที่เข้าชม Google วันนี้
  • คำค้นหา / ผู้ใช้ที่มีบัญชีที่ใช้งานอยู่ (ใช่ครับ ผมจะต้อง กำหนดคำว่าใช้งานอยู่)

การอธิบายให้ชัดเจนเช่นนี้มักไม่ให้คุณและผู้อื่นสับสน

กรณีพิเศษอีกกรณีหนึ่งคือเมตริกที่คํานวณได้เฉพาะในข้อมูลบางอย่างเท่านั้น ตัวอย่างเช่น "เวลาในการคลิก" มักจะหมายถึง "เวลาที่จะคลิกเนื่องจากมีการคลิก" ทุกครั้งที่คุณดูเมตริกเช่นนี้ คุณต้องตระหนักว่าการกรองและมองหาการเปลี่ยนแปลงในการกรองระหว่างกลุ่มที่คุณกำลังเปรียบเทียบ

กระบวนการ

ส่วนนี้ประกอบด้วยคำแนะนำเกี่ยวกับวิธีจัดการข้อมูล คำถามที่คุณควรถามเกี่ยวกับข้อมูล และสิ่งที่ควรตรวจสอบ

แยกการตรวจสอบความถูกต้อง คำอธิบาย และการประเมินออกจากกัน

ผมคิดว่าการวิเคราะห์ข้อมูลมี 3 ขั้นตอนที่เกี่ยวข้องกัน ดังนี้

  1. การตรวจสอบความถูกต้อง1: ฉันเชื่อว่าข้อมูลมีความสอดคล้องในตัวเอง รวบรวมอย่างถูกต้อง และแสดงถึงสิ่งที่ฉันคิดว่าเป็น
  2. คำอธิบาย: การตีความวัตถุประสงค์ของข้อมูลนี้คืออะไร ตัวอย่างเช่น "ผู้ใช้สร้างคำค้นหาน้อยลงในการจัดประเภทเป็น X" "ในกลุ่มการทดสอบ เวลาระหว่าง X ถึง Y ใหญ่กว่า 1%" และ "ผู้ใช้น้อยลงไปยังหน้าผลลัพธ์ถัดไป"
  3. การประเมิน: จากคำอธิบาย ข้อมูลบอกเราว่า เกิดสิ่งดีต่อผู้ใช้ สำหรับ Google หรือต่อโลก

การแยกระยะเหล่านี้จะทำให้คุณบรรลุข้อตกลงกับผู้อื่นได้ง่ายขึ้น คำอธิบายควรเป็นสิ่งที่ทุกคนเห็นพ้องตรงกันเกี่ยวกับข้อมูล การประเมินมักจะกระตุ้นให้เกิดการอภิปรายมากขึ้น หากไม่แยกคำอธิบาย และการประเมิน คุณมักจะเห็นการตีความ จากข้อมูลที่คุณคาดหวังว่าจะได้เห็นเท่านั้น ยิ่งไปกว่านั้น การประเมินยังมีแนวโน้มที่จะยากกว่านั้นมาก เนื่องจากการสร้างมูลค่าเชิงบรรทัดฐานของเมตริกซึ่งปกติจะทำผ่านการเปรียบเทียบที่เข้มงวดกับฟีเจอร์และเมตริกอื่นๆ จะต้องใช้การลงทุนจำนวนมาก

ระยะเหล่านี้จะไม่ดำเนินไปในลักษณะเชิงเส้น ขณะสำรวจข้อมูล คุณอาจเลื่อนไปมาระหว่างขั้นตอนแต่ละขั้น แต่เมื่อใดคุณควรทราบชัดเจนว่าอยู่ในขั้นตอนใด

ยืนยันการตั้งค่าการทดสอบและการรวบรวมข้อมูล

ก่อนที่จะดูข้อมูลใดๆ และทำความเข้าใจบริบทที่มีการรวบรวมข้อมูล หากข้อมูลมาจากการทดสอบ ให้ดูที่การกำหนดค่าของการทดสอบ หากมาจากการใช้เครื่องมือของลูกค้าใหม่ อย่างน้อยคุณต้องเข้าใจวิธีการเก็บรวบรวมข้อมูลอย่างคร่าวๆ คุณอาจพบการกำหนดค่าที่ผิดปกติ/ไม่ถูกต้องหรือข้อจำกัดด้านประชากร (เช่น ข้อมูลที่ถูกต้องสำหรับ Chrome เท่านั้น) อะไรที่เห็นได้ชัดที่นี่อาจช่วยคุณ สร้างและยืนยันทฤษฎีในภายหลังได้ สิ่งที่ควรพิจารณามีดังนี้

  • หากคุณกำลังทำการทดสอบอยู่ คุณสามารถดำเนินการทดลองด้วยตัวเองได้ หากทำไม่ได้ ให้ตรวจสอบภาพหน้าจอ/คำอธิบายลักษณะการทำงานเป็นอย่างน้อย
  • ตรวจสอบว่ามีสิ่งผิดปกติเกี่ยวกับช่วงเวลาที่การทดสอบดำเนินไปหรือไม่ (วันหยุด การเปิดตัวครั้งใหญ่ ฯลฯ)
  • ระบุกลุ่มประชากรผู้ใช้ที่จะเข้าร่วมในการทดสอบ

ตรวจสอบสิ่งที่ไม่ควรเปลี่ยนแปลง

ในขั้นตอน "การตรวจสอบ" ก่อนที่จะตอบคำถามที่คุณสนใจจริงๆ (เช่น "การเพิ่มรูปใบหน้าเพิ่มหรือลดจำนวนคลิก") ให้ตัดความแปรปรวนอื่นๆ ในข้อมูลที่อาจส่งผลต่อการทดสอบออกไป เช่น

  • จำนวนผู้ใช้มีการเปลี่ยนแปลงไหม
  • จำนวนคำค้นหาที่ได้รับผลกระทบปรากฏในกลุ่มย่อยทั้งหมดของฉันหรือไม่
  • อัตราข้อผิดพลาดเปลี่ยนแปลงไหม

คำถามเหล่านี้ให้คำตอบทั้งสำหรับการเปรียบเทียบการทดสอบ/การควบคุม และเมื่อตรวจสอบแนวโน้มเมื่อเวลาผ่านไป

ลำดับที่ 1 แบบมาตรฐาน ที่กำหนดเองลำดับที่ 2

เมื่อดูฟีเจอร์ใหม่และข้อมูลใหม่ๆ คุณอาจอยากดูเมตริกใหม่หรือข้อมูลพิเศษสำหรับฟีเจอร์ใหม่นี้เป็นพิเศษ อย่างไรก็ตาม คุณควรดูเมตริกมาตรฐานก่อนเสมอ แม้ว่าคาดว่าการเปลี่ยนแปลงจะมีการเปลี่ยนแปลงก็ตาม ตัวอย่างเช่น เมื่อเพิ่มการบล็อกแบบเหมารวมใหม่ในหน้าเว็บ ให้ทำความเข้าใจผลกระทบต่อเมตริกมาตรฐาน เช่น "การคลิกผลการค้นหาบนเว็บ" ก่อนที่จะเจาะลึกเกี่ยวกับเมตริกที่กำหนดเองเกี่ยวกับผลการค้นหาใหม่นี้

เมตริกมาตรฐานจะได้รับการตรวจสอบดีกว่ามากและมีแนวโน้มที่จะถูกต้องมากกว่าเมตริกที่กำหนดเอง หากเมตริกที่กำหนดเองไม่เหมาะกับเมตริกมาตรฐาน ก็อาจเป็นไปได้ว่าเมตริกที่กำหนดเองไม่ถูกต้อง

วัด 2 ครั้งขึ้นไป

โดยเฉพาะอย่างยิ่งหากคุณพยายามที่จะจับภาพเหตุการณ์ใหม่ๆ ให้พยายามวัด สิ่งพื้นฐานเดียวกันด้วยวิธีต่างๆ จากนั้น มาดูว่าการวัด หลายรายการเหล่านี้สอดคล้องกันหรือไม่ เมื่อใช้การวัดหลายครั้ง คุณจะระบุข้อบกพร่องในโค้ดการวัดหรือการบันทึก ฟีเจอร์ที่ไม่คาดคิดของข้อมูลที่สำคัญ หรือขั้นตอนการกรองที่สำคัญได้ และยิ่งไปกว่านั้น คุณสามารถใช้แหล่งข้อมูลที่แตกต่างกันสำหรับการวัดค่าได้

ตรวจสอบความสามารถในการทำซ้ำ

ทั้งการแบ่งส่วนและความสอดคล้องกันเมื่อเวลาผ่านไปเป็นตัวอย่างเฉพาะในการตรวจสอบความสามารถในการทำซ้ำ หากปรากฏการณ์ใดมีความสำคัญและมีความหมาย คุณควรเห็นปรากฏการณ์นั้นในกลุ่มผู้ใช้และเวลาที่แตกต่างกัน แต่การยืนยันความสามารถในการทำซ้ำนั้นสำคัญกว่าการตรวจสอบทั้ง 2 อย่างนี้ หากคุณกำลังสร้างโมเดลของข้อมูล ก็อยากให้โมเดลเหล่านั้นมีความคงที่ในการเปลี่ยนแปลงเล็กๆ น้อยๆ ในข้อมูลพื้นฐาน การใช้ช่วงเวลาที่แตกต่างกันหรือตัวอย่างข้อมูลย่อยแบบสุ่มจะบอกด้วยว่าโมเดลนี้เชื่อถือได้/ทำซ้ำมากน้อยเพียงใด

หากโมเดลไม่สามารถทำซ้ำได้ อาจเป็นเพราะคุณไม่ได้บันทึกข้อมูลพื้นฐานเกี่ยวกับกระบวนการพื้นฐานที่ทำให้เกิดข้อมูลดังกล่าว

ตรวจสอบความสอดคล้องกับการวัดผลที่ผ่านมา

บ่อยครั้งที่คุณต้องคำนวณเมตริกที่คล้ายกับสิ่งที่เคยนับในอดีต คุณควรเปรียบเทียบเมตริกของคุณกับเมตริกที่รายงานในอดีต แม้ว่าการวัดผลเหล่านี้จะอยู่ในกลุ่มประชากรผู้ใช้ที่แตกต่างกันก็ตาม

ตัวอย่างเช่น หากคุณกำลังดูการเข้าชมที่มาจากข้อความค้นหาของประชากรพิเศษ แล้ววัดว่าเวลาในการโหลดหน้าเว็บเฉลี่ยคือ 5 วินาที แต่ที่ผ่านมาการวิเคราะห์ผู้ใช้ทั้งหมดให้เวลาในการโหลดหน้าเว็บเฉลี่ย 2 วินาที คุณจะต้องตรวจสอบ ตัวเลขของคุณอาจเหมาะกับประชากรกลุ่มนี้ แต่ตอนนี้คุณต้องดำเนินการเพิ่มเติมเพื่อตรวจสอบ

คุณไม่จำเป็นต้องทำข้อตกลงที่แท้จริง แต่คุณควรอยู่ในสนามแห่งเดียวกัน แต่หากยังไม่ได้ทำเช่นนั้น ให้ถือว่าคุณตอบผิดจนกว่าจะมีความเชื่อมั่นในตัวเองอย่างเต็มที่ ข้อมูลที่น่าประหลาดใจที่สุดกลับกลายเป็นข้อผิดพลาด ไม่ใช่ข้อมูลเชิงลึกใหม่ที่ยอดเยี่ยม

ควรใช้เมตริกใหม่กับข้อมูล/ฟีเจอร์เก่าก่อน

หากคุณสร้างเมตริกใหม่ (อาจโดยการรวบรวมแหล่งข้อมูลใหม่) และพยายามเรียนรู้สิ่งใหม่ๆ คุณจะไม่ทราบว่าเมตริกใหม่ถูกต้องหรือไม่ แต่สำหรับเมตริกใหม่ คุณควรนำเมตริกเหล่านั้นไปใช้กับฟีเจอร์หรือข้อมูลที่รู้จักก่อน ตัวอย่างเช่น หากคุณมีเมตริกใหม่เกี่ยวกับความพึงพอใจของผู้ใช้ คุณควรตรวจสอบว่าเมตริกดังกล่าวบอกให้คุณทราบว่าฟีเจอร์ใดช่วยทำให้เกิดความพึงพอใจได้ดีที่สุด หากคุณมีเมตริกใหม่ที่ระบุว่าผู้ใช้ดึงดูดความสนใจมายังหน้าเว็บ ณ จุดใด ให้ตรวจสอบว่าเมตริกนี้ตรงกับสิ่งที่เรารู้จากการดูที่การติดตามสายตาหรือการศึกษาจากผู้ตรวจวัดว่ารูปภาพส่งผลต่อความสนใจในหน้าเว็บอย่างไร การทำเช่นนี้ช่วยสร้างการตรวจสอบเมื่อคุณเริ่มเรียนรู้สิ่งใหม่ๆ

ตั้งสมมติฐานและมองหาหลักฐาน

โดยปกติแล้ว การวิเคราะห์ข้อมูลสําหรับปัญหาที่ซับซ้อนจะเกิดขึ้นซ้ำๆ2 คุณจะค้นพบความผิดปกติ แนวโน้ม หรือฟีเจอร์อื่นๆ ของข้อมูล โดยปกติแล้ว คุณจะพัฒนาทฤษฎีเพื่ออธิบายข้อมูลนี้ อย่าเพียงแค่พัฒนาทฤษฎีและประกาศว่าเป็นจริง มองหาหลักฐาน (ภายในหรือภายนอกข้อมูล) เพื่อยืนยัน/ปฏิเสธทฤษฎีนี้ เช่น

  • ถ้าคุณเห็นสิ่งที่ดูเหมือนเทรนด์การเรียนรู้ ให้ดูว่า ข้อมูลนั้นเกี่ยวข้องสูงสุดกับผู้ใช้ที่มีความถี่สูงหรือไม่
  • หากคุณเชื่อว่าความผิดปกติเกิดจากการเปิดตัวฟีเจอร์บางอย่าง ให้ตรวจสอบว่าประชากรที่เปิดตัวฟีเจอร์นี้เป็นเพียงประชากรเดียวที่ได้รับผลกระทบจากความผิดปกติดังกล่าว หรือตรวจสอบว่าความสำคัญของการเปลี่ยนแปลงสอดคล้องกับความคาดหวังในการเปิดตัว
  • หากคุณเห็นอัตราการเติบโตของผู้ใช้ในภาษาเปลี่ยนไป ให้ลองค้นหาแหล่งที่มาภายนอกที่ตรวจสอบอัตราการเปลี่ยนแปลงของข้อมูลผู้ใช้

การวิเคราะห์ข้อมูลที่ดีจะมีเรื่องราวให้บอกเล่า เพื่อให้แน่ใจว่าเรื่องราวนั้น ถูกต้อง คุณต้องเล่าเรื่องนั้นกับตัวเอง จากนั้นหาหลักฐานที่บอกว่าเรื่องนั้นผิด วิธีหนึ่งในการทำเช่นนั้นคือ ถามตัวเองว่า "ฉันจะทำการทดสอบใดเพื่อตรวจสอบความถูกต้อง/ทำให้เรื่องราวที่เล่าไปไม่ถูกต้อง" แม้ว่าคุณจะทำการทดลองเหล่านี้ไม่ได้/ทำไม่ได้ แต่ก็อาจทำให้คุณเห็นแนวคิดเกี่ยวกับวิธีตรวจสอบความถูกต้องด้วยข้อมูลที่มีอยู่

ข่าวดีก็คือทฤษฎีและการทดลองที่เป็นไปได้เหล่านี้อาจนำไปสู่การตั้งคำถามใหม่ๆ ที่ข้ามผ่านการเรียนรู้เกี่ยวกับคุณลักษณะหรือข้อมูลบางอย่าง จากนั้นคุณจะเข้าสู่ขอบเขตของการทำความเข้าใจไม่ใช่เพียงข้อมูลนี้เท่านั้น แต่เป็นการเสาะหาเมตริกและเทคนิคใหม่ๆ สำหรับการวิเคราะห์ในอนาคตทุกประเภทด้วย

ผลจากการวิเคราะห์เชิงสำรวจจากการทำซ้ำตั้งแต่ต้นจนจบ

เมื่อทำการวิเคราะห์เชิงสำรวจ ให้ทำการวิเคราะห์ซ้ำหลายครั้งที่สุดเท่าที่จะทำได้ โดยทั่วไปแล้ว คุณจะต้องรวบรวมสัญญาณ ประมวลผล สร้างโมเดล ฯลฯ หลายขั้นตอน หากใช้เวลาขั้นตอนแรกสุดที่สัญญาณแรกเริ่มสมบูรณ์แบบที่สุด คุณก็จะพลาดโอกาสในการทำซ้ำเพิ่มเติมโดยใช้เวลาเท่าเดิม ยิ่งไปกว่านั้น เมื่อคุณดูข้อมูลของตัวเองในขั้นตอนสุดท้าย คุณอาจพบข้อมูลที่เปลี่ยนแนวทางของคุณได้ ดังนั้น การมุ่งความสนใจเริ่มแรกของคุณไม่ควรอยู่ที่ความสมบูรณ์แบบ แต่เป็นการทำให้ส่งมอบบางสิ่งที่สมเหตุสมผลโดยตลอด เขียนหมายเหตุไว้ให้ตัวเองและรับทราบสิ่งต่างๆ เช่น ขั้นตอนการกรองและคำขอที่แยกวิเคราะห์ไม่ได้หรือผิดปกติ แต่อย่าเสียเวลาในการพยายามกำจัดข้อมูลทั้งหมดตั้งแต่ตอนเริ่มต้นการวิเคราะห์

คอยฟังความคิดเห็น

เรามักจะกำหนดเมตริกต่างๆ เกี่ยวกับความสำเร็จของผู้ใช้ เช่น ผู้ใช้คลิกผลการค้นหาหรือไม่ จากนั้นถ้าคุณป้อนข้อมูลกลับไปยังระบบ (ซึ่งเราทำในหลายที่) ก็สร้างโอกาสจำนวนมากสำหรับความสับสนในการประเมิน

คุณจะใช้เมตริกที่ส่งกลับไปยังระบบเป็นเกณฑ์ในการประเมินการเปลี่ยนแปลงไม่ได้ หากคุณแสดงโฆษณาจำนวนมากที่ได้รับจำนวนคลิกมากกว่า คุณจะไม่สามารถใช้ "จำนวนคลิกเพิ่มขึ้น" เป็นเกณฑ์ในการตัดสินว่าผู้ใช้พึงพอใจมากกว่า แม้ว่า "จำนวนคลิกที่มากขึ้น" มักจะหมายถึง "มีความสุขมากขึ้น" ก็ตาม นอกจากนี้ คุณไม่ควรแบ่งตัวแปรที่คุณฟีดกลับไปและทำการแก้ไข เนื่องจากจะทำให้เกิดการเปลี่ยนแปลงต่างๆ ที่ยากหรือเข้าใจไม่ได้

แนวคิด

ส่วนนี้จะอธิบายวิธีการทำงานกับผู้อื่นและแจ้งข้อมูลเชิงลึก

การวิเคราะห์ข้อมูลเริ่มจากคำถาม ไม่ใช่ข้อมูลหรือเทคนิค

มีแรงผลักดันเสมอในการวิเคราะห์ข้อมูล การสร้างความต้องการเป็นคำถามหรือสมมติฐานจะช่วยให้มั่นใจได้ว่าคุณกำลังรวบรวมข้อมูลที่ควรรวบรวม และคุณกำลังคำนึงถึงช่องว่างที่เป็นไปได้ในข้อมูล แน่นอนว่า คำถามที่คุณถาม ควรเปลี่ยนแปลงไปเมื่อคุณดูข้อมูล อย่างไรก็ตาม การวิเคราะห์โดยไม่มีคำถาม จะจบลงอย่างไร้เป้าหมาย

หลีกเลี่ยงกับดักที่พบเทคนิคที่ชอบ แล้วค้นหาเฉพาะส่วนของโจทย์ที่เทคนิคนี้ใช้เท่านั้น ขอย้ำอีกครั้งว่าการสร้างคำถามที่ชัดเจนจะช่วยให้คุณหลีกเลี่ยงกับดักนี้ได้

ทั้งช่างสงสัยและเพื่อเป็นแชมป์

ในขณะที่ทำงานกับข้อมูล คุณต้องเป็นทั้งผู้นำในข้อมูลเชิงลึกที่ได้รับและเกิดความสงสัย และหวังว่าคุณจะพบปรากฏการณ์ที่น่าสนใจบางอย่างในข้อมูลที่คุณพิจารณา เมื่อคุณตรวจพบปรากฏการณ์ที่น่าสนใจ ให้ถามตัวเองด้วยคำถามต่อไปนี้

  • ฉันจะรวบรวมข้อมูลอื่นใดได้อีกบ้างเพื่อแสดงให้เห็นว่านี่น่าสนใจแค่ไหน
  • ฉันจะหาอะไรที่จะทำให้เรื่องนี้เป็นโมฆะได้บ้าง"

โดยเฉพาะอย่างยิ่ง ในกรณีที่คุณกำลังวิเคราะห์ผู้ที่ ต้องการคำตอบแบบเฉพาะเจาะจงจริงๆ (เช่น "คุณลักษณะของฉันยอดเยี่ยมมาก") คุณต้องเล่นกับช่างสงสัยเพื่อไม่ให้เกิดข้อผิดพลาด

ความสัมพันธ์ != เหตุผล

เมื่อสร้างทฤษฎีเกี่ยวกับข้อมูล เรามักต้องการยืนยันว่า "X ทำให้เกิด Y" เช่น "หน้าเว็บทำงานช้าลงทำให้ผู้ใช้คลิกน้อยลง" แม้กระทั่ง xkcd ก็ยังรู้ว่า คุณสร้างเหตุผลง่ายๆ ไม่ได้เพราะความสัมพันธ์ เมื่อคำนึงถึงวิธีการที่คุณจะตรวจสอบทฤษฎีเหตุผลที่ทำให้เกิดความกระจ่าง คุณก็จะสามารถรู้ได้ว่าทฤษฎีเชิงเหตุผลนั้นน่าเชื่อถือเพียงใด

บางครั้งผู้คนจะพยายามรักษาความสัมพันธ์นั้นไว้ว่ามีความหมาย โดยยืนยันว่าแม้จะไม่มีความสัมพันธ์เชิงเหตุผลระหว่าง ก กับ ข แต่ก็ต้องมีบางอย่างเบื้องหลังความบังเอิญดังกล่าวเพื่อให้สัญญาณหนึ่งเป็นตัวบ่งชี้ที่ดีหรือเป็นตัวแทนที่ดีของอีกสัญญาณหนึ่งได้ พื้นที่นี้เป็นอันตรายต่อปัญหาการทดสอบสมมติฐานหลายข้อ ตามที่ xkcd ทราบเช่นกัน หากมีการทดสอบที่เพียงพอและมีมิติข้อมูลที่เพียงพอ สัญญาณบางส่วนก็จะสอดคล้องกับการทดสอบหนึ่งๆ ซึ่งไม่ได้กล่าวเป็นนัยว่าสัญญาณเดียวกันจะสอดคล้องกันในอนาคต คุณจึงมีภาระหน้าที่ที่จะต้องพิจารณาทฤษฎีเชิงเหตุผลเหมือนกัน เช่น "มีผลกระทบ C ซ่อนเร้นอยู่ที่ทำให้เกิดทั้ง ก และ ข" เพื่อที่คุณจะสามารถพยายามตรวจสอบได้ว่าเหตุการณ์ดังกล่าวสมเหตุสมผลเพียงใด

นักวิเคราะห์ข้อมูลมักจะต้องตอบคำถามทั่วไปเหล่านี้สำหรับผู้ที่ต้องการใช้ข้อมูล คุณควรอธิบายกับผู้บริโภคให้ชัดเจนว่าอะไรได้บ้างเกี่ยวกับความสัมพันธ์ระหว่างเหตุและผล

แชร์กับเพื่อนก่อน แบ่งผู้บริโภคภายนอกเป็นลำดับที่ 2

ประเด็นก่อนหน้านี้แนะนำวิธีที่จะทำให้คุณได้ตรวจสอบ และตรวจสอบความถูกต้องอย่างเหมาะสม แต่การแชร์กับเพื่อน เป็นหนึ่งในวิธีที่ดีที่สุดที่จะบังคับให้ตัวเองทำสิ่งเหล่านี้ บุคลากรที่มีทักษะจะให้ความคิดเห็นที่แตกต่างกันในเชิงคุณภาพ จากข้อมูลที่ผู้บริโภคของคุณทำได้ โดยเฉพาะอย่างยิ่งเนื่องจากผู้บริโภคมีกำหนดการ เพื่อนหลายคนมีประโยชน์ในหลายๆ จุดผ่านการวิเคราะห์ ในช่วงต้น คุณจะทราบเรื่อง Gotcha ที่เพื่อนคุณรู้จัก คำแนะนำสิ่งที่ควรวัด และการวิจัยที่ผ่านมาในด้านนี้ เมื่อใกล้จบการทดสอบ เพื่อนนักเรียนจะสามารถระบุสิ่งแปลกๆ ความไม่สอดคล้อง หรือความสับสนอื่นๆ ได้เป็นอย่างดี

ตามหลักการแล้วคุณควรได้รับความคิดเห็นจากเพื่อนที่รู้เรื่องข้อมูลที่คุณกำลังดู แต่แม้แต่เพื่อนที่มีประสบการณ์การวิเคราะห์ข้อมูลทั่วไปก็มีคุณค่าอย่างยิ่ง

คาดหวังและยอมรับในความเพิกเฉยและข้อผิดพลาด

สิ่งที่เราสามารถเรียนรู้จากข้อมูลมีขีดจำกัดมากมาย Nate Silver ยกประเด็นหลักใน The Signal and the Noise ว่าเพียงการยอมรับข้อจำกัดความแน่นอนของเราเท่านั้นที่จะทำให้เราคาดการณ์ได้ดียิ่งขึ้น การยอมรับความไม่รู้คือความแข็งแกร่งที่มักจะไม่ได้รางวัลในทันที ตอนนั้นอาจรู้สึกแย่ แต่สิ่งนี้จะเป็นประโยชน์อย่างยิ่งต่อคุณและทีมของคุณ ในระยะยาว ยิ่งทำผิดและค้นพบสิ่งนั้นในภายหลัง (หรือสายเกินไป) จะยิ่งรู้สึกแย่ยิ่งขึ้น แต่การรับผิดชอบต่อความผิดพลาดนั้นเองจะช่วยให้คุณเคารพในความผิดพลาด ความเคารพเหล่านั้นหมายถึง ความน่าเชื่อถือและผลกระทบ

สรุป

การดำเนินการส่วนใหญ่ของการวิเคราะห์ข้อมูลที่ดีนั้นไม่เป็นที่ประจักษ์ต่อผู้บริโภคในการวิเคราะห์ของคุณในทันที การที่คุณตรวจสอบขนาดประชากรอย่างละเอียดและตรวจสอบแล้วว่าผลที่ได้ในเบราว์เซอร์ต่างๆ ก็คงไม่ออกจะไปถึงการรับรู้ของผู้ที่พยายามตัดสินใจจากข้อมูลนี้ และยังอธิบายว่าเหตุใดการวิเคราะห์ข้อมูลที่ดีจึงใช้เวลานานกว่าที่คนส่วนใหญ่ควรทราบ (โดยเฉพาะเมื่อผู้ใช้เห็นเพียงผลลัพธ์สุดท้าย) งานของเราส่วนหนึ่งในฐานะนักวิเคราะห์คือการค่อยๆ ให้ความรู้แก่ผู้บริโภคเกี่ยวกับข้อมูลเชิงลึกที่ได้จากข้อมูลต่างๆ ว่าขั้นตอนเหล่านี้คืออะไรและสำคัญอย่างไร

ความต้องการในการควบคุมและการสำรวจข้อมูลของคุณทั้งหมดนี้ยังเป็นตัวกำหนดข้อกำหนดสำหรับภาษาและสภาพแวดล้อมสำหรับการวิเคราะห์ข้อมูลที่ดีอีกด้วย เรามีเครื่องมือมากมายให้ใช้สำหรับการตรวจสอบข้อมูล เครื่องมือและภาษาต่างๆ เหมาะกับเทคนิคต่างๆ ที่กล่าวถึงข้างต้นมากกว่า การเลือกเครื่องมือที่เหมาะสมเป็นทักษะสำคัญสำหรับนักวิเคราะห์ คุณไม่ควรจำกัดด้วยความสามารถของเครื่องมือที่คุณพอใจมากที่สุด หน้าที่ของคุณคือการให้ข้อมูลเชิงลึกที่แท้จริง ไม่ใช่การใช้เครื่องมือใดๆ

 


  1. บางครั้งจะเรียกกรณีเช่นนี้ว่า "การวิเคราะห์ข้อมูลเริ่มต้น" ดู บทความของ Wikipedia เกี่ยวกับการวิเคราะห์ข้อมูล 

  2. ในทางเทคนิค ควรจะทำซ้ำเฉพาะในกรณีที่คุณกำลังวิเคราะห์เชิงสำรวจ ไม่ใช่การวิเคราะห์ยืนยัน