Phân tích dữ liệu tốt

Tác giả: Patrick Riley

Đặc biệt cảm ơn: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, lợi ích nhân vật: Joe Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook và Barry Rosenberg.

Cập nhật trước đây

Tổng quan

Việc rút ra sự thật và thông tin chi tiết từ đống dữ liệu là một công việc mạnh mẽ nhưng dễ xảy ra lỗi. Các nhà phân tích dữ liệu và kỹ sư có đầu óc về dữ liệu xuất sắc nhất sẽ nổi tiếng về việc đưa ra những tuyên bố đáng tin cậy từ dữ liệu. Nhưng họ đang làm gì để mang lại sự tin cậy? Tôi thường nghe các tính từ như cẩn thậncó phương pháp, nhưng thực sự các nhà phân tích cẩn thận và có phương pháp nhất làm gì?

Đây không phải là một câu hỏi đơn giản, đặc biệt là khi nhìn vào loại dữ liệu mà chúng tôi thường xuyên thu thập tại Google. Chúng tôi không chỉ làm việc với các tập dữ liệu rất lớn mà các tập dữ liệu đó cực kỳ phong phú. Tức là mỗi hàng dữ liệu thường có rất nhiều thuộc tính. Khi bạn kết hợp thông tin này với trình tự các sự kiện tạm thời của một người dùng nhất định, sẽ có rất nhiều cách xem xét dữ liệu. Trái ngược với một thử nghiệm tâm lý học học điển hình, nhà nghiên cứu không cần phải xem xét từng điểm dữ liệu. Các vấn đề do tập dữ liệu lớn và có kích thước cao của chúng tôi gây ra rất khác với các vấn đề gặp phải trong hầu hết lịch sử công trình khoa học.

Tài liệu này tóm tắt các ý tưởng và kỹ thuật mà các nhà phân tích cẩn thận, có phương pháp sử dụng trên các tập dữ liệu lớn và có nhiều thứ nguyên. Mặc dù tài liệu này tập trung vào dữ liệu từ nhật ký và phân tích thử nghiệm, nhưng nhiều kỹ thuật trong số này có thể áp dụng rộng rãi.

Phần còn lại của tài liệu này bao gồm ba phần bao gồm nhiều khía cạnh phân tích dữ liệu:

  • Kỹ thuật: Các ý tưởng và kỹ thuật thao tác và kiểm tra dữ liệu của bạn.
  • Quy trình: Các đề xuất về cách bạn tiếp cận dữ liệu, những câu hỏi cần hỏi và những nội dung cần kiểm tra.
  • Tư duy: Cách làm việc với người khác và truyền đạt thông tin chi tiết.

Kỹ thuật

Hãy xem một số kỹ thuật kiểm tra dữ liệu của bạn.

Xem xét các mức phân phối của bạn

Hầu hết các chuyên viên đều sử dụng các chỉ số tóm tắt (ví dụ: giá trị trung bình, giá trị trung bình, độ lệch chuẩn, v.v.) để truyền đạt về các mức phân phối. Tuy nhiên, thường thì bạn nên kiểm tra các phép biểu diễn phân phối phong phú hơn nhiều bằng cách tạo biểu đồ, hàm phân phối tích luỹ (CDF), biểu đồ Quantile-Quantile (Q-Q), v.v. Các phần trình bày phong phú hơn này cho phép bạn phát hiện các tính năng quan trọng của dữ liệu, chẳng hạn như hành vi đa phương thức hoặc một lớp đáng kể các điểm ngoại lai.

Cân nhắc các điểm ngoại lai

Kiểm tra các điểm ngoại lai một cách cẩn thận vì chúng có thể là con chim hoàng yến trong mỏ than, cho thấy những vấn đề cơ bản hơn trong bản phân tích của bạn. Bạn có thể loại trừ các điểm ngoại lai khỏi dữ liệu hoặc gộp chúng vào một danh mục "bất thường", nhưng hãy đảm bảo rằng bạn biết tại sao dữ liệu lại được đưa vào danh mục đó.

Ví dụ: việc xem xét các truy vấn có số lượt nhấp thấp nhất có thể cho thấy số lượt nhấp vào các phần tử mà bạn không tính được. Việc xem xét các truy vấn có số lượt nhấp cao nhất có thể cho thấy số lượt nhấp mà bạn không nên tính. Mặt khác, có thể có một số điểm ngoại lai mà bạn sẽ không bao giờ giải thích được. Vì vậy, bạn cần cẩn thận trong thời gian dành cho nhiệm vụ này.

Cân nhắc về độ nhiễu

Sự ngẫu nhiên vẫn có thể đánh lừa chúng ta. Một số người nghĩ: "Google có rất nhiều dữ liệu; các vấn đề sẽ biến mất". Đơn giản là điều này không đúng. Mỗi con số hoặc bản tóm tắt dữ liệu mà bạn tạo ra phải đi kèm khái niệm về mức độ tin cậy của dữ liệu ước tính này (thông qua các biện pháp đo lường như khoảng tin cậy và p-values).

Xem ví dụ

Bất cứ khi nào tạo mã phân tích mới, bạn cần xem các ví dụ từ dữ liệu cơ bản và cách mã của bạn đang diễn giải các ví dụ đó. Hầu như không thể tạo ra mã hoạt động có độ phức tạp nào nếu không thực hiện bước này. Bản phân tích của bạn đang tóm tắt nhiều thông tin chi tiết từ dữ liệu cơ bản để tạo ra các bản tóm tắt hữu ích. Khi xem xét mức độ phức tạp đầy đủ của từng ví dụ riêng lẻ, bạn có thể tin tưởng rằng kết quả tóm tắt của mình là hợp lý.

Cách bạn lấy mẫu cho những ví dụ này rất quan trọng:

  • Nếu bạn đang phân loại dữ liệu cơ bản, hãy xem các ví dụ thuộc về từng lớp.
  • Nếu đó là một lớp lớn hơn, hãy xem các mẫu khác.
  • Nếu bạn đang tính toán một con số (ví dụ: thời gian tải trang), hãy nhớ xem các ví dụ cực đoan (có lẽ là 5% nhanh nhất và chậm nhất; bạn biết sự phân phối của mình trông như thế nào phải không?) cũng như các điểm trong suốt không gian đo lường.

Chia nhỏ dữ liệu

Kỹ thuật phân tách có nghĩa là phân tách dữ liệu của bạn thành các nhóm con và xem xét các giá trị chỉ số cho từng nhóm con một cách riêng biệt. Chúng tôi thường phân chia theo các phương diện như trình duyệt, ngôn ngữ, miền, loại thiết bị, v.v. Nếu hiện tượng cơ bản có thể hoạt động theo cách khác nhau giữa các nhóm con, bạn phải phân chia dữ liệu để xác nhận xem đó có thực sự là trường hợp đó hay không. Ngay cả khi bạn không dự kiến việc cắt lát sẽ tạo ra các kết quả khác nhau, việc xem xét một vài lát cắt để đảm bảo tính nhất quán nội bộ sẽ giúp bạn tự tin hơn rằng mình đang đo lường đúng. Trong một số trường hợp, một phần cụ thể có thể có dữ liệu không hợp lệ, hoạt động tương tác của người dùng bị gián đoạn hoặc có sự khác biệt về cơ bản.

Bất cứ khi nào bạn phân tách dữ liệu để so sánh hai nhóm (chẳng hạn như thử nghiệm với đối chứng, hoặc thậm chí là "thời gian A" và "thời gian B"), bạn cũng cần lưu ý về sự thay đổi kết hợp. Sự thay đổi kết hợp là khi lượng dữ liệu trong các lát cắt cho mỗi nhóm khác nhau. Nghịch lý của Lisa và các nhầm lẫn khác có thể dẫn đến. Nhìn chung, nếu lượng dữ liệu tương đối trong một lát là giống nhau giữa hai nhóm, bạn có thể tiến hành so sánh một cách an toàn.

Cân nhắc ý nghĩa thực tế

Với một lượng lớn dữ liệu, bạn có thể chỉ tập trung vào ý nghĩa thống kê hoặc tập trung vào chi tiết của từng bit dữ liệu. Nhưng bạn cần tự hỏi: "Ngay cả khi đúng là giá trị X lớn hơn 0,1% so với giá trị Y, thì điều đó có quan trọng không?" Điều này có thể đặc biệt quan trọng nếu bạn không thể hiểu/phân loại một phần dữ liệu của mình. Nếu bạn không hiểu được một số chuỗi tác nhân người dùng trong nhật ký của mình, thì cho dù việc đó chiếm 0,1% hay 10% dữ liệu, thì bạn cũng sẽ thấy sự khác biệt lớn về lượng dữ liệu bạn nên điều tra những trường hợp đó.

Ngoài ra, đôi khi bạn có một lượng nhỏ dữ liệu. Nhiều thay đổi có vẻ không có ý nghĩa thống kê, nhưng điều đó khác với tuyên bố rằng những thay đổi này là "trung lập". Bạn phải tự hỏi bản thân: "Có khả năng một thay đổi đáng kể trên thực tế vẫn tồn tại hay không?"

Kiểm tra tính nhất quán theo thời gian

Hầu như bạn luôn nên cố gắng phân tách dữ liệu theo đơn vị thời gian, vì có nhiều điểm xáo trộn đối với dữ liệu cơ bản xảy ra khi hệ thống của chúng tôi phát triển theo thời gian. (Chúng tôi thường sử dụng ngày, nhưng các đơn vị thời gian khác cũng có thể hữu ích.) Trong lần đầu ra mắt một tính năng hoặc hoạt động thu thập dữ liệu mới, chuyên viên thường kiểm tra cẩn thận để đảm bảo mọi thứ đang hoạt động như mong đợi. Tuy nhiên, nhiều sự cố hoặc hành vi không mong muốn có thể xảy ra theo thời gian.

Việc một ngày hoặc nhóm ngày cụ thể là trường hợp ngoại lệ không có nghĩa là bạn nên loại bỏ dữ liệu tương ứng. Hãy sử dụng dữ liệu làm nội dung hấp dẫn để xác định lý do tại sao ngày đó hoặc các ngày khác nhau trước khi bạn loại bỏ nó.

Việc xem xét dữ liệu hằng ngày cũng giúp bạn hiểu được sự thay đổi trong dữ liệu mà cuối cùng sẽ dẫn đến khoảng tin cậy hoặc tuyên bố có ý nghĩa thống kê. Nhìn chung, phép tính này không thay thế cách tính toán khoảng thời gian tin cậy nghiêm ngặt, nhưng thường với những thay đổi lớn, bạn có thể thấy rằng chúng sẽ có ý nghĩa thống kê chỉ từ biểu đồ hằng ngày.

Xác nhận và tính số lượt lọc

Hầu như mọi hoạt động phân tích dữ liệu lớn đều bắt đầu bằng việc lọc dữ liệu theo nhiều giai đoạn. Có thể bạn chỉ muốn xem xét người dùng ở Hoa Kỳ, lượt tìm kiếm trên web hoặc lượt tìm kiếm có quảng cáo. Trong mọi trường hợp, bạn phải:

  • Xác nhận và chỉ định rõ bạn sẽ thực hiện việc lọc nào.
  • Đếm lượng dữ liệu cần lọc ở mỗi bước.

Thông thường, cách tốt nhất để thực hiện việc này là tính toán tất cả chỉ số của bạn, ngay cả đối với tổng thể mà bạn đang loại trừ. Sau đó, bạn có thể xem xét dữ liệu đó để trả lời các câu hỏi như "Tính năng lọc thư rác đã loại bỏ bao nhiêu cụm từ tìm kiếm?" (Tuỳ thuộc vào lý do bạn lọc, loại phân tích đó không phải lúc nào cũng khả thi.)

Tỷ lệ phải có tử số và mẫu số rõ ràng

Các chỉ số thú vị nhất là tỷ lệ của các số liệu đo lường cơ bản. Thông thường, cách lọc thú vị hoặc các lựa chọn dữ liệu khác bị ẩn trong phần định nghĩa chính xác về tử số và mẫu số. Ví dụ: “Cụm từ tìm kiếm / Người dùng” nào sau đây thực sự có nghĩa là gì?

  • Số truy vấn / Người dùng có truy vấn
  • Số cụm từ tìm kiếm / Người dùng đã truy cập vào Google hôm nay
  • Truy vấn / Người dùng có tài khoản đang hoạt động (vâng, tôi sẽ phải xác định đang hoạt động)

Việc trình bày thật rõ ràng ở đây có thể giúp bạn và người khác không bị nhầm lẫn.

Một trường hợp đặc biệt khác là các chỉ số chỉ có thể được tính toán trên một số dữ liệu của bạn. Ví dụ: "Thời gian để nhấp" thường có nghĩa là "Thời gian để nhấp chuột được xem là đã có một lượt nhấp". Bất cứ khi nào xem một chỉ số như thế này, bạn cần hiểu rõ rằng việc lọc và tìm sự thay đổi trong quá trình lọc giữa các nhóm mà bạn đang so sánh.

Quy trình

Phần này đưa ra các đề xuất về cách tiếp cận dữ liệu của bạn, những câu hỏi cần đặt ra về dữ liệu của bạn và những nội dung cần kiểm tra.

Xác thực, mô tả và đánh giá riêng biệt

Tôi nghĩ việc phân tích dữ liệu có ba giai đoạn liên quan với nhau:

  1. Xác thực1: Tôi có tin rằng dữ liệu là tự nhất quán, được thu thập chính xác và thể hiện đúng những gì tôi nghĩ không?
  2. Mô tả: Cách diễn giải khách quan của dữ liệu này là gì? Ví dụ: "Người dùng thực hiện ít truy vấn hơn được phân loại là X", "Trong nhóm thử nghiệm, khoảng thời gian từ X đến Y lớn hơn 1%" và "Càng ít người dùng chuyển đến trang kết quả tiếp theo".
  3. Đánh giá: Dựa trên phần mô tả, dữ liệu có cho chúng ta biết rằng điều gì đó tốt đẹp đang xảy ra cho người dùng, Google hay thế giới không?

Bằng cách tách riêng các giai đoạn này, bạn có thể dễ dàng đi đến thoả thuận với người khác. Nội dung mô tả phải là những nội dung mà mọi người đều có thể đồng ý về dữ liệu. Việc đánh giá có thể sẽ thúc đẩy nhiều tranh luận hơn. Nếu không tách riêng Mô tả và Đánh giá, nhiều khả năng bạn sẽ chỉ thấy được cách diễn giải dữ liệu mà mình muốn thấy. Ngoài ra, việc đánh giá có xu hướng khó hơn nhiều vì việc thiết lập giá trị chuẩn mực của một chỉ số, thường là thông qua việc so sánh nghiêm ngặt với các tính năng và chỉ số khác, sẽ cần đầu tư đáng kể.

Các giai đoạn này không phát triển một cách tuyến tính. Khi khám phá dữ liệu, bạn có thể chuyển đổi qua lại giữa các giai đoạn, nhưng bất cứ lúc nào bạn cũng nên làm rõ mình đang ở giai đoạn nào.

Xác nhận chế độ thiết lập thử nghiệm và thu thập dữ liệu

Trước khi xem xét bất kỳ dữ liệu nào, hãy đảm bảo bạn hiểu bối cảnh thu thập dữ liệu. Nếu dữ liệu đến từ một thử nghiệm, hãy xem xét cấu hình của thử nghiệm. Nếu vấn đề là nhờ khả năng đo lường ứng dụng mới, hãy đảm bảo bạn có ít nhất một thông tin sơ bộ về cách thu thập dữ liệu. Bạn có thể phát hiện các cấu hình bất thường/sai hoặc các hạn chế về dân số (chẳng hạn như dữ liệu hợp lệ chỉ cho Chrome). Những phần đáng chú ý ở đây có thể giúp bạn xây dựng và xác minh lý thuyết sau này. Một số điều cần lưu ý:

  • Nếu thử nghiệm đang chạy, hãy tự mình chạy thử. Nếu không thể, bạn ít nhất nên xem qua ảnh chụp màn hình/nội dung mô tả hành vi.
  • Kiểm tra xem có điều gì bất thường về khoảng thời gian mà thử nghiệm chạy hay không (các dịp lễ, đợt ra mắt lớn, v.v.).
  • Xác định những người dùng đã áp dụng thử nghiệm.

Kiểm tra xem có điều gì không nên thay đổi không

Trong giai đoạn "Xác thực", trước khi thực sự trả lời câu hỏi mà bạn quan tâm (ví dụ: "Việc thêm một hình ảnh khuôn mặt có làm tăng hay giảm số lượt nhấp không?"), hãy loại trừ mọi biến đổi khác trong dữ liệu có thể ảnh hưởng đến thử nghiệm. Ví dụ:

  • Số lượng người dùng có thay đổi không?
  • Số lượng truy vấn bị ảnh hưởng có xuất hiện trong tất cả các nhóm con của tôi không?
  • Tỷ lệ lỗi có thay đổi không?

Những câu hỏi này phù hợp cả khi so sánh thử nghiệm/kiểm soát và khi kiểm tra xu hướng theo thời gian.

Thứ nhất tiêu chuẩn, giây tùy chỉnh

Khi xem xét các tính năng mới và dữ liệu mới, bạn nên chuyển thẳng đến các chỉ số mới hoặc đặc biệt của tính năng mới này. Tuy nhiên, bạn nên luôn xem xét các chỉ số chuẩn trước tiên, ngay cả khi bạn dự kiến các chỉ số này sẽ thay đổi. Ví dụ: khi thêm một khối chung mới vào trang, hãy đảm bảo bạn hiểu tác động đối với các chỉ số chuẩn như "lượt nhấp vào kết quả trên web" trước khi tìm hiểu kỹ về chỉ số tuỳ chỉnh về kết quả mới này.

Chỉ số chuẩn được xác thực tốt hơn nhiều và có nhiều khả năng chính xác hơn so với chỉ số tuỳ chỉnh. Nếu chỉ số tùy chỉnh của bạn không phù hợp với chỉ số chuẩn, thì chỉ số tùy chỉnh của bạn có thể không chính xác.

Đo lường hai lần hoặc nhiều hơn

Đặc biệt là nếu bạn đang cố gắng nắm bắt một hiện tượng mới, hãy cố gắng đo lường cùng một vấn đề cơ bản theo nhiều cách. Sau đó, hãy xác định xem nhiều kết quả đo lường này có nhất quán hay không. Bằng cách sử dụng nhiều phép đo, bạn có thể xác định các lỗi trong mã đo lường hoặc mã ghi nhật ký, các tính năng không mong muốn của dữ liệu cơ bản hoặc các bước lọc quan trọng. Sẽ tốt hơn nữa nếu bạn có thể sử dụng các nguồn dữ liệu khác nhau cho các phép đo.

Kiểm tra độ tái lập

Cả lát cắt và tính nhất quán theo thời gian là những ví dụ cụ thể về việc kiểm tra khả năng tái lập. Nếu một hiện tượng quan trọng và có ý nghĩa, bạn nên thấy hiện tượng đó trên nhiều nhóm người dùng và tại các thời điểm khác nhau. Tuy nhiên, việc xác minh khả năng tái lập không chỉ đơn giản là thực hiện 2 bước kiểm tra này. Nếu đang xây dựng các mô hình dữ liệu, bạn muốn các mô hình đó ổn định trong các nhiễu loạn nhỏ ở dữ liệu cơ bản. Việc sử dụng nhiều phạm vi thời gian hoặc các mẫu con ngẫu nhiên của dữ liệu cũng sẽ cho bạn biết mức độ tin cậy/có thể tái sản xuất của mô hình này.

Nếu một mô hình không thể mô phỏng, thì có thể bạn chưa nắm bắt được thông tin cơ bản về quy trình cơ bản tạo ra dữ liệu.

Kiểm tra tính nhất quán với các phép đo trước đây

Thông thường, bạn sẽ tính toán một chỉ số tương tự như những chỉ số đã được tính trong quá khứ. Bạn nên so sánh các chỉ số của mình với các chỉ số được báo cáo trước đây, ngay cả khi các chỉ số này thuộc nhiều nhóm người dùng.

Ví dụ: nếu bạn đang xem xét lưu lượng truy cập truy vấn trên một nhóm người dùng đặc biệt và bạn đo lường được rằng thời gian tải trang trung bình là 5 giây, nhưng các kết quả phân tích trước đây cho thấy thời gian tải trang trung bình là 2 giây, thì bạn cần điều tra. Số liệu của bạn có thể phù hợp với dân số này, nhưng bây giờ bạn phải thực hiện nhiều thao tác hơn để xác thực số liệu này.

Bạn không cần đi đến thoả thuận chính xác, nhưng bạn nên ở trong cùng một dự án. Nếu không, hãy cho rằng bạn đã sai cho đến khi bạn hoàn toàn có thể thuyết phục chính mình. Hầu hết dữ liệu đáng ngạc nhiên nhất sẽ thành một lỗi, không phải là một thông tin chi tiết mới mẻ, kỳ diệu.

Trước tiên, bạn nên áp dụng các chỉ số mới cho dữ liệu/tính năng cũ

Nếu bạn tạo các chỉ số mới (có thể bằng cách thu thập một nguồn dữ liệu mới) và cố gắng tìm hiểu điều mới, thì bạn sẽ không biết liệu chỉ số mới có chính xác hay không. Khi dùng các chỉ số mới, trước tiên, bạn nên áp dụng các chỉ số đó cho một tính năng hoặc dữ liệu đã biết. Ví dụ: nếu có một chỉ số mới về mức độ hài lòng của người dùng, bạn nên đảm bảo chỉ số đó cho bạn biết các tính năng tốt nhất giúp bạn hài lòng. Nếu bạn có một chỉ số mới về vị trí người dùng đang hướng sự chú ý của họ đến trang, hãy đảm bảo chỉ số đó khớp với những gì chúng ta biết khi xem xét theo dõi mắt hoặc nghiên cứu của người đánh giá về tác động của hình ảnh đối với sự chú ý trên trang. Cách này sẽ cung cấp tính năng xác thực khi bạn học nội dung mới.

Đưa ra giả thuyết và tìm kiếm bằng chứng

Thông thường, hoạt động phân tích dữ liệu cho một vấn đề phức tạp có tính lặp lại.2 Bạn sẽ khám phá những điểm bất thường, xu hướng hoặc các đặc điểm khác của dữ liệu. Đương nhiên, bạn sẽ phát triển các lý thuyết để giải thích dữ liệu này. Bạn không nên chỉ phát triển lý thuyết và tuyên bố rằng đó là sự thật. Tìm bằng chứng (bên trong hoặc bên ngoài dữ liệu) để xác nhận/từ chối lý thuyết này. Ví dụ:

  • Nếu bạn thấy một xu hướng nào đó có vẻ giống như một xu hướng học tập, hãy xem liệu đó có biểu hiện rõ ràng nhất với những người dùng thường xuyên học tập hay không.
  • Nếu bạn cho rằng điểm bất thường là do sự kiện ra mắt một số tính năng, hãy đảm bảo rằng những người dùng mà tính năng đó được ra mắt là người duy nhất chịu ảnh hưởng của điểm bất thường. Ngoài ra, hãy đảm bảo rằng mức độ thay đổi nhất quán với kỳ vọng khi khởi chạy.
  • Nếu bạn thấy tỷ lệ tăng trưởng người dùng thay đổi ở một ngôn ngữ, hãy cố gắng tìm một nguồn bên ngoài xác thực tỷ lệ thay đổi dân số người dùng đó.

Để có một bản phân tích dữ liệu hiệu quả, bạn sẽ hiểu được ý nghĩa của việc này. Để đảm bảo rằng câu chuyện đó đúng, bạn cần kể câu chuyện cho chính mình, sau đó tìm bằng chứng cho thấy câu chuyện đó sai. Một cách để làm việc này là tự hỏi bản thân: "Tôi cần chạy những thử nghiệm nào để xác thực/vô hiệu hoá câu chuyện tôi đang kể? Ngay cả khi bạn không thể/không thể thực hiện các thử nghiệm này, bạn cũng có thể biết cách xác thực bằng dữ liệu mình có.

Tin vui là những lý thuyết và thử nghiệm khả thi này có thể dẫn đến các dòng câu hỏi mới, vượt ra ngoài việc cố gắng tìm hiểu về bất kỳ tính năng hoặc dữ liệu cụ thể nào. Sau đó, bạn bước vào lĩnh vực hiểu biết không chỉ dữ liệu này, mà còn thu thập các chỉ số và kỹ thuật mới cho tất cả các loại phân tích trong tương lai.

Lợi ích của kỹ thuật phân tích khám phá nhờ vòng lặp toàn diện

Khi phân tích dữ liệu khám phá, hãy thực hiện phân tích toàn bộ nhiều lần nhất có thể. Thông thường, bạn sẽ có nhiều bước thu thập, xử lý, lập mô hình tín hiệu, v.v. Nếu dành quá nhiều thời gian để hoàn thiện giai đoạn đầu tiên của tín hiệu ban đầu, thì bạn sẽ bỏ lỡ cơ hội thực hiện nhiều lần lặp lại trong cùng một khoảng thời gian. Hơn nữa, khi xem xét dữ liệu ở giai đoạn cuối, bạn có thể thực hiện những khám phá làm thay đổi hướng đi của mình. Do đó, trọng tâm ban đầu của bạn không nên là sự hoàn hảo mà nên tập trung vào việc đạt được điều gì đó hợp lý từ đầu đến cuối. Hãy để lại ghi chú cho bản thân và xác nhận những nội dung như các bước lọc và các yêu cầu không thể phân tích cú pháp hoặc bất thường, nhưng đừng lãng phí thời gian cố gắng loại bỏ tất cả những nội dung đó khi bắt đầu quá trình phân tích khám phá.

Chú ý theo dõi phản hồi

Chúng tôi thường xác định các chỉ số xoay quanh sự thành công của người dùng. Ví dụ: người dùng có nhấp vào một kết quả không? Sau đó, nếu sau đó bạn cung cấp dữ liệu đó trở lại hệ thống (việc mà chúng tôi thực hiện ở một số nơi), bạn sẽ tạo ra rất nhiều cơ hội để đánh giá nhầm lẫn.

Bạn không thể sử dụng chỉ số được trả về hệ thống làm cơ sở để đánh giá thay đổi. Nếu hiển thị nhiều quảng cáo nhận được nhiều lượt nhấp hơn, bạn không thể sử dụng "nhiều lượt nhấp hơn" làm cơ sở để quyết định rằng người dùng hài lòng hơn, mặc dù "nhiều lượt nhấp hơn" thường có nghĩa là "vui hơn". Hơn nữa, bạn thậm chí không nên cắt lát các biến mà bạn đã cung cấp lại và thao túng, vì điều đó sẽ dẫn đến sự thay đổi hỗn hợp khó khăn hoặc không thể hiểu được.

Tư duy

Phần này mô tả cách làm việc với người khác và truyền đạt thông tin chi tiết.

Việc phân tích dữ liệu bắt đầu bằng các câu hỏi chứ không phải là dữ liệu hoặc một kỹ thuật

Người dùng luôn có động lực để phân tích dữ liệu. Việc mô phỏng nhu cầu của bạn dưới dạng câu hỏi hoặc giả thuyết giúp đảm bảo rằng bạn đang thu thập dữ liệu cần thu thập và rằng bạn đang xem xét những khoảng thiếu hụt có thể xảy ra trong dữ liệu. Tất nhiên, những câu hỏi bạn đặt ra sẽ thay đổi khi bạn xem dữ liệu. Tuy nhiên, việc phân tích không có câu hỏi sẽ trở nên không có mục đích.

Tránh bẫy tìm kỹ thuật yêu thích nào đó và sau đó chỉ tìm các phần có vấn đề mà kỹ thuật này xử lý. Xin nhắc lại, việc tạo ra những câu hỏi rõ ràng sẽ giúp bạn tránh được cái bẫy này.

Hãy vừa hoài nghi vừa vô địch

Khi làm việc với dữ liệu, bạn phải vừa là người hiểu rõ những thông tin chi tiết mà bạn thu được vừa biết nghi ngờ những thông tin đó. Hy vọng bạn sẽ thấy một số hiện tượng thú vị trong dữ liệu mà bạn xem. Khi bạn phát hiện một hiện tượng thú vị, hãy tự hỏi mình những câu sau đây:

  • Tôi có thể thu thập những dữ liệu nào khác để cho thấy mức độ tuyệt vời của chủ đề này?
  • Tôi có thể tìm thấy yếu tố nào có thể làm mất hiệu lực của thuật toán này?”

Đặc biệt là trong trường hợp bạn đang phân tích cho người nào đó thực sự muốn có một câu trả lời cụ thể (ví dụ: "Tính năng của tôi thật tuyệt!"), bạn phải đóng vai trò hoài nghi để tránh mắc lỗi.

Mối tương quan != Nguyên nhân

Khi đưa ra lý thuyết về dữ liệu, chúng tôi thường muốn xác nhận rằng "X gây ra Y" – ví dụ: "trang trở nên chậm hơn khiến người dùng nhấp ít hơn". Ngay cả xkcd cũng biết rằng bạn không thể chỉ đơn giản là thiết lập nguyên nhân chỉ vì mối tương quan. Bằng việc xem xét cách xác thực thuyết nhân quả, thường thì bạn có thể hình dung được mức độ đáng tin cậy của lý thuyết nhân quả.

Đôi khi, mọi người cố gắng giữ cho một mối tương quan có ý nghĩa bằng cách khẳng định rằng ngay cả khi không có mối quan hệ nhân quả giữa A và B, thì vẫn phải có điều gì đó trùng khớp để một tín hiệu có thể là chỉ báo hoặc proxy tốt cho nhau. Khu vực này nguy hiểm cho nhiều vấn đề về kiểm tra giả thuyết; vì xkcd cũng biết, với đủ thử nghiệm và đủ kích thước, một số tín hiệu sẽ phù hợp với một thử nghiệm cụ thể. Điều này không ngụ ý rằng các tín hiệu tương tự sẽ phù hợp trong tương lai, vì vậy, bạn có nghĩa vụ xem xét một lý thuyết nhân quả, chẳng hạn như “có một hiệu ứng ẩn C gây ra cả A và B” để bạn có thể cố gắng xác thực mức độ hợp lý của việc này.

Nhà phân tích dữ liệu thường phải tìm ra những câu hỏi mang tính hệ quả này cho những người muốn sử dụng dữ liệu. Bạn nên nói rõ với những người tiêu dùng đó những gì bạn có thể và không thể nói về hệ quả.

Chia sẻ với ứng dụng ngang hàng trước, người tiêu dùng bên ngoài ưu tiên

Ở các phần trước, bạn đã đề xuất một số cách giúp bạn thực hiện quy trình kiểm tra và xác thực độ phù hợp. Tuy nhiên, chia sẻ với người khác là một trong những cách tốt nhất để buộc bản thân làm tất cả những việc này. Một đồng nghiệp có kỹ năng có thể đưa ra phản hồi khác biệt về định tính so với người sử dụng dữ liệu của bạn, đặc biệt vì người tiêu dùng thường có chương trình làm việc. Các ứng dụng ngang hàng hữu ích tại nhiều điểm trong quá trình phân tích. Ngay từ đầu, bạn có thể tìm hiểu về những vấn đề mà đồng nghiệp của bạn biết, các đề xuất về những điều cần đo lường và nghiên cứu trước đây về lĩnh vực này. Khi gần cuối chương trình, các ứng dụng ngang hàng rất giỏi trong việc chỉ ra những điểm kỳ lạ, không nhất quán hoặc những điểm khó hiểu khác.

Tốt nhất là bạn nên nhận phản hồi từ một đồng nghiệp vì họ biết điều gì đó về dữ liệu mà bạn đang xem xét, nhưng ngay cả một đồng nghiệp chỉ có kinh nghiệm phân tích dữ liệu chung chung cũng cực kỳ có giá trị.

Kỳ vọng và chấp nhận sự thiếu hiểu biết và sai lầm

Có rất nhiều giới hạn đối với những gì chúng ta có thể tìm hiểu từ dữ liệu. Nate bạc là một trường hợp mạnh mẽ trong Tín hiệu và tiếng ồn rằng chỉ bằng cách thừa nhận giới hạn về độ chắc chắn của mình, chúng tôi mới có thể tiến bộ trong khả năng dự đoán chính xác hơn. Việc nhận thức sự thiếu hiểu biết là một lợi thế thường không được đền đáp ngay lập tức. Mặc dù vậy, mặc dù có vẻ không tốt, nhưng đó sẽ là một lợi ích to lớn cho bạn và đội ngũ của bạn về lâu dài. Điều này thậm chí sẽ tệ hơn khi bạn mắc lỗi và phát hiện ra lỗi đó sau này (hoặc thậm chí là quá muộn!), nhưng việc chủ động mắc lỗi cho sai sót của mình sẽ khiến bạn phải tôn trọng. Sự tôn trọng đó chuyển thành sự tín nhiệm và tác động.

Lời kết

Đa số việc cần làm để phân tích dữ liệu hiệu quả sẽ không thể hiện ngay lập tức đối với người dùng bản phân tích. Việc bạn đã kiểm tra kỹ quy mô dân số và xác thực rằng mức độ tác động nhất quán trên các trình duyệt có thể sẽ không tiếp cận được nhận thức của những người đang cố gắng đưa ra quyết định từ dữ liệu này. Điều này cũng giải thích tại sao việc phân tích dữ liệu hiệu quả lại mất nhiều thời gian hơn dự kiến đối với hầu hết mọi người (đặc biệt là khi họ chỉ thấy kết quả cuối cùng). Một phần trong công việc của chúng tôi với tư cách là các nhà phân tích là dần dần giáo dục người tiêu dùng thông tin chi tiết dựa trên dữ liệu về ý nghĩa và lý do chúng quan trọng.

Nhu cầu đối với tất cả các thao tác và khám phá dữ liệu này cũng đặt ra các yêu cầu đối với một ngôn ngữ và môi trường phân tích dữ liệu phù hợp. Chúng tôi có sẵn nhiều công cụ để kiểm tra dữ liệu. Các công cụ và ngôn ngữ khác nhau sẽ phù hợp hơn với các kỹ thuật khác nhau được thảo luận ở trên; việc chọn đúng công cụ là một kỹ năng quan trọng đối với nhà phân tích. Bạn không nên bị giới hạn bởi các chức năng của công cụ mà bạn cảm thấy phù hợp nhất; việc của bạn là cung cấp thông tin chi tiết thực sự chứ không phải áp dụng một công cụ cụ thể.

 


  1. Quá trình này đôi khi gọi là "phân tích dữ liệu ban đầu". Hãy xem bài viết trên wikipedia về phân tích dữ liệu 

  2. Về mặt kỹ thuật, bạn chỉ nên lặp lại nếu đang phân tích dữ liệu khám phá thay vì phân tích xác nhận.