Phân tích dữ liệu tốt

Tác giả: Patrick Riley

Xin đặc biệt cảm ơn: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, cài Joe Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook và Barry Rosenberg.

Cập nhật trước đây

Lần cập nhật lớn gần đây nhất: Tháng 6 năm 2019
Một số phiên bản trước của một số nội dung này đã xuất hiện trên Blog không chính thức về khoa học dữ liệu của Google: Tháng 10 năm 2016

Tổng quan

Việc rút ra sự thật và thông tin chi tiết từ đống dữ liệu là một công việc mạnh mẽ nhưng dễ xảy ra lỗi. Các nhà phân tích dữ liệu và kỹ sư thấu hiểu dữ liệu giỏi nhất sẽ được coi là về việc đưa ra những thông tin đáng tin cậy dựa trên dữ liệu. Nhưng họ đang làm gì để đảm bảo sự tin cậy? Tôi thường nghe những tính từ như cẩn thận và có phương pháp, nhưng thực tế thì các nhà phân tích cẩn thận và bài bản nhất làm gì?

Đây không phải là một câu hỏi đơn giản, đặc biệt là khi xét đến loại dữ liệu mà chúng tôi thường xuyên thu thập tại Google. Chúng tôi không chỉ làm việc với các tập dữ liệu rất lớn mà còn vô cùng phong phú các tập dữ liệu đó. Điều này nghĩa là mỗi hàng dữ liệu thường có rất nhiều thuộc tính. Khi bạn kết hợp dữ liệu này với chuỗi sự kiện tạm thời của một người dùng nhất định, sẽ có rất nhiều cách để xem xét dữ liệu. Đối chiếu điều này với một thử nghiệm tâm lý học điển hình, trong đó việc xem xét từng điểm dữ liệu là không hề quan trọng. Những vấn đề do tập dữ liệu lớn và đa chiều của chúng tôi gây ra rất khác với những vấn đề đã gặp phải trong phần lớn lịch sử nghiên cứu khoa học.

Tài liệu này tóm tắt các ý tưởng và kỹ thuật mà các nhà phân tích cẩn thận và có phương pháp sử dụng trên các tập dữ liệu lớn và đa chiều. Mặc dù tài liệu này tập trung vào dữ liệu từ nhật ký và phân tích thử nghiệm, nhưng nhiều kỹ thuật trong số này có thể áp dụng rộng rãi hơn.

Phần còn lại của tài liệu này bao gồm 3 phần đề cập đến nhiều khía cạnh trong việc phân tích dữ liệu:

Kỹ thuật: Ý tưởng và kỹ thuật thao túng và kiểm tra dữ liệu của bạn.
Quy trình: Các đề xuất về cách bạn tiếp cận dữ liệu, những câu hỏi cần hỏi và những điều cần kiểm tra.
Tư duy: Cách làm việc với người khác và truyền đạt thông tin chi tiết.

Kỹ thuật

Hãy cùng tìm hiểu một số kỹ thuật để kiểm tra dữ liệu.

Xem xét các tỷ lệ phân bổ của bạn

Hầu hết các chuyên viên đều sử dụng các chỉ số tóm tắt (ví dụ: trung bình, trung bình, độ lệch chuẩn, v.v.) để truyền đạt dữ liệu về sự phân phối. Tuy nhiên, bạn thường nên kiểm tra các biểu đồ phân phối phong phú hơn nhiều bằng cách tạo biểu đồ, hàm phân phối tích luỹ (CDF), biểu đồ lượng tử-quantile (Q-Q), v.v. Các cách biểu diễn phong phú hơn này cho phép bạn phát hiện các tính năng quan trọng của dữ liệu, chẳng hạn như hành vi đa phương thức hoặc một loại đáng kể các điểm ngoại lai.

Cân nhắc các điểm ngoại lai

Hãy kiểm tra kỹ các điểm ngoại lai vì chúng có thể là chim hoàng yến trong mỏ than cho biết thêm nhiều vấn đề cơ bản của bản phân tích. Bạn có thể loại trừ các điểm ngoại lai khỏi dữ liệu hoặc gộp chúng lại với nhau thành một danh mục "bất thường", nhưng hãy đảm bảo rằng bạn biết lý do khiến dữ liệu bị đưa vào danh mục đó.

Ví dụ: việc xem xét các cụm từ tìm kiếm có số lượt nhấp thấp nhất có thể làm lộ số lượt nhấp vào các phần tử mà bạn không tính được. Việc xem xét các cụm từ tìm kiếm có số lượt nhấp cao nhất có thể cho thấy số lượt nhấp mà bạn không nên tính. Mặt khác, có thể có một số điểm ngoại lai mà bạn sẽ không bao giờ giải thích được, vì vậy, bạn cần phải cẩn thận trong thời gian dành cho tác vụ này.

Cân nhắc về độ nhiễu

Sự ngẫu nhiên luôn tồn tại và sẽ đánh lừa chúng ta. Một số người nghĩ: "Google có quá nhiều dữ liệu, các thông tin không liên quan sẽ biến mất". Điều này đơn giản là không đúng. Mỗi con số hoặc bản tóm tắt dữ liệu mà bạn tạo phải có khái niệm đi kèm về mức độ tin cậy của bạn đối với số liệu ước tính này (thông qua các phép đo như khoảng tin cậy và p-values).

Xem ví dụ

Bất cứ khi nào tạo mã phân tích mới, bạn cần xem xét các ví dụ từ dữ liệu cơ bản và cách mã của bạn diễn giải các ví dụ đó. Bạn gần như không thể tạo mã hoạt động với bất kỳ độ phức tạp nào nếu không thực hiện bước này. Bản phân tích của bạn sẽ loại bỏ nhiều thông tin chi tiết từ dữ liệu cơ bản để tạo ra các bản tóm tắt hữu ích. Khi xem xét mức độ phức tạp hoàn toàn của từng ví dụ, bạn có thể tự tin rằng nội dung tóm tắt của mình là hợp lý.

Cách bạn lấy mẫu cho các ví dụ này rất quan trọng:

Nếu bạn đang phân loại dữ liệu cơ bản, hãy xem các ví dụ thuộc từng lớp.
Nếu đó là một lớp học lớn hơn, hãy xem các mẫu khác.
Nếu đang tính toán một số (ví dụ: thời gian tải trang), hãy đảm bảo rằng bạn xem các ví dụ cực đại (có thể là 5% nhanh nhất và chậm nhất; bạn biết phân phối của mình trông như thế nào đúng không?) cũng như các điểm trong không gian đo lường.

Chia nhỏ dữ liệu

Chia nhỏ nghĩa là tách dữ liệu của bạn thành các nhóm con và xem xét riêng các giá trị chỉ số cho từng nhóm con. Chúng tôi thường chia theo các phương diện như trình duyệt, ngôn ngữ, miền, loại thiết bị, v.v. Nếu hiện tượng cơ bản có khả năng hoạt động theo cách khác nhau giữa các nhóm con, bạn phải chia nhỏ dữ liệu để xác nhận xem đó có thực sự là như vậy hay không. Ngay cả khi bạn không kỳ vọng việc cắt lát sẽ tạo ra các kết quả khác nhau, việc xem xét một vài lát cắt để đảm bảo tính nhất quán nội bộ sẽ giúp bạn tự tin hơn rằng mình đang đo lường đúng cách. Trong một số trường hợp, một phần cắt cụ thể có thể có dữ liệu không hợp lệ, hoạt động tương tác của người dùng bị hỏng hoặc về cơ bản có sự khác biệt nào đó.

Bất cứ khi nào bạn chia nhỏ dữ liệu để so sánh hai nhóm (chẳng hạn như thử nghiệm so với nhóm đối chứng, hoặc thậm chí là "thời gian A" và "thời gian B"), bạn cần lưu ý đến sự thay đổi kết hợp. Sự thay đổi kết hợp là khi lượng dữ liệu trong các lát cắt cho mỗi nhóm khác nhau. Nghịch lý của SM và những nhầm lẫn khác có thể dẫn đến. Nhìn chung, nếu lượng dữ liệu tương đối trong một lát là như nhau trên hai nhóm, bạn có thể so sánh một cách an toàn.

Cân nhắc ý nghĩa thực tế

Với lượng lớn dữ liệu, bạn có thể chỉ tập trung vào ý nghĩa thống kê hoặc tập trung vào chi tiết của từng bit dữ liệu. Nhưng bạn cần tự hỏi: "Ngay cả khi đúng là giá trị X cao hơn 0,1% so với giá trị Y, thì điều đó có quan trọng không?" Điều này có thể đặc biệt quan trọng nếu bạn không thể hiểu/phân loại một phần dữ liệu của mình. Nếu bạn không thể hiểu được một số chuỗi tác nhân người dùng trong nhật ký của mình, thì việc chỉ chiếm 0,1% hay 10% dữ liệu sẽ là sự khác biệt lớn về mức độ điều tra những trường hợp đó.

Ngoài ra, đôi khi bạn có một lượng nhỏ dữ liệu. Nhiều thay đổi có vẻ không có ý nghĩa thống kê, nhưng điều đó khác với việc tuyên bố rằng những thay đổi này là "trung tính". Bạn phải tự hỏi: "Liệu có khả năng vẫn còn một thay đổi thực tế đáng kể hay không?"

Kiểm tra tính nhất quán theo thời gian

Hầu như lúc nào bạn cũng nên thử chia nhỏ dữ liệu theo đơn vị thời gian, vì rất nhiều rối loạn đối với dữ liệu cơ bản xảy ra khi hệ thống của chúng tôi phát triển theo thời gian. (Chúng ta thường dùng ngày, nhưng các đơn vị thời gian khác cũng có thể hữu ích.) Trong lần đầu ra mắt một tính năng hoặc hoạt động thu thập dữ liệu mới, các chuyên viên thường kiểm tra kỹ để đảm bảo mọi thứ đang hoạt động như mong đợi. Tuy nhiên, nhiều lỗi hoặc hành vi không mong muốn có thể phát sinh theo thời gian.

Việc một ngày hoặc nhóm ngày cụ thể là một trường hợp ngoại lệ không có nghĩa là bạn nên loại bỏ dữ liệu tương ứng. Hãy sử dụng dữ liệu này làm thông tin hấp dẫn để xác định lý do nhân quả tại sao ngày hoặc các ngày đó khác nhau trước khi bạn loại bỏ nó.

Việc xem xét dữ liệu hằng ngày cũng giúp bạn hiểu được sự thay đổi trong dữ liệu, từ đó dẫn đến khoảng tin cậy hoặc tuyên bố có ý nghĩa thống kê. Phương pháp này thường không thay thế phép tính nghiêm ngặt về khoảng thời gian tin cậy, nhưng thường với các thay đổi lớn, bạn có thể thấy các thay đổi này sẽ có ý nghĩa thống kê chỉ từ biểu đồ hằng ngày.

Xác nhận và tính bộ lọc của bạn

Hầu hết mọi hoạt động phân tích dữ liệu lớn đều bắt đầu bằng cách lọc dữ liệu theo nhiều giai đoạn. Có thể bạn chỉ muốn xem xét người dùng ở Hoa Kỳ, hoặc lượt tìm kiếm trên web hoặc lượt tìm kiếm có quảng cáo. Dù chọn cách nào, bạn cũng phải:

Xác nhận và chỉ định rõ bạn đang thực hiện hoạt động lọc nào.
Đếm lượng dữ liệu được lọc ở mỗi bước.

Thông thường, cách tốt nhất để thực hiện việc thứ hai là tính toán tất cả các chỉ số của bạn, ngay cả đối với tập hợp bạn đang loại trừ. Sau đó, bạn có thể xem xét dữ liệu đó để trả lời các câu hỏi như "Lọc thư rác đã loại bỏ phần trăm truy vấn nào?" (Tuỳ thuộc vào lý do bạn lọc, loại phân tích đó có thể không phải lúc nào cũng thực hiện được.)

Tỷ số phải có tử số và mẫu số rõ ràng

Các chỉ số thú vị nhất là tỷ lệ của các thước đo cơ bản. Thông thường, cách lọc thú vị hoặc các lựa chọn dữ liệu khác bị ẩn trong các định nghĩa chính xác của tử số và mẫu số. Ví dụ: "Cụm từ tìm kiếm / Người dùng" nào sau đây thực sự có nghĩa là gì?

Truy vấn / Người dùng có truy vấn
Cụm từ tìm kiếm / Số người dùng đã truy cập Google hôm nay
Truy vấn / Người dùng có tài khoản đang hoạt động (vâng, tôi sẽ phải xác định đang hoạt động)

Việc trình bày thực sự rõ ràng ở đây có thể giúp bạn và người khác không bị nhầm lẫn.

Một trường hợp đặc biệt khác là các chỉ số chỉ có thể được tính toán trên một số dữ liệu của bạn. Ví dụ: "Thời gian nhấp" thường có nghĩa là "Thời gian để nhấp khi đã có một lượt nhấp". Bất cứ khi nào xem xét một chỉ số như thế này, bạn cần lưu ý rằng việc lọc và tìm sự thay đổi trong việc lọc giữa các nhóm mà bạn đang so sánh.

Quy trình

Phần này đưa ra các đề xuất về cách tiếp cận dữ liệu của bạn, những câu hỏi cần đặt ra về dữ liệu của bạn và những nội dung cần kiểm tra.

Quy trình xác thực, mô tả và đánh giá riêng biệt

Theo tôi, quá trình phân tích dữ liệu có ba giai đoạn liên quan với nhau:

Xác thực¹: Tôi có tin rằng dữ liệu là nhất quán, dữ liệu được thu thập chính xác và thể hiện đúng như tôi nghĩ không?
Nội dung mô tả: Dữ liệu này được diễn giải mục tiêu gì? Ví dụ: "Người dùng thực hiện ít truy vấn hơn được phân loại là X", "Trong nhóm thử nghiệm, khoảng thời gian từ X đến Y lớn hơn 1%" và "Ít người dùng hơn sẽ chuyển đến trang kết quả tiếp theo".
Đánh giá: Theo nội dung mô tả, dữ liệu đó có cho chúng ta biết một điều tốt đẹp đang diễn ra cho người dùng, cho Google hay cho thế giới không?

Bằng cách tách biệt các giai đoạn này, bạn có thể dễ dàng đạt được thoả thuận với những người khác. Nội dung mô tả phải là những nội dung mà mọi người đều có thể đồng ý về dữ liệu. Việc đánh giá có thể thúc đẩy nhiều cuộc tranh luận hơn. Nếu không tách riêng Nội dung mô tả và Thông tin đánh giá, nhiều khả năng bạn sẽ chỉ thấy nội dung diễn giải dữ liệu mà bạn muốn thấy. Ngoài ra, việc đánh giá thường khó hơn nhiều vì việc thiết lập giá trị quy chuẩn của một chỉ số (thường là thông qua các phép so sánh nghiêm ngặt với các tính năng và chỉ số khác) cần đầu tư đáng kể.

Các giai đoạn này không tiến triển theo tuyến tính. Khi khám phá dữ liệu, bạn có thể chuyển qua lại giữa các giai đoạn, nhưng bạn nên biết rõ mình đang ở giai đoạn nào bất cứ lúc nào.

Xác nhận chế độ thiết lập thử nghiệm và thu thập dữ liệu

Trước khi xem xét bất kỳ dữ liệu nào, hãy đảm bảo bạn hiểu bối cảnh mà dữ liệu đó được thu thập. Nếu dữ liệu đến từ một thử nghiệm, hãy xem xét cấu hình của thử nghiệm đó. Nếu bạn đo lường ứng dụng mới, hãy đảm bảo ít nhất bạn có hiểu rõ về cách thu thập dữ liệu. Bạn có thể phát hiện các cấu hình bất thường/không hợp lệ hoặc các hạn chế về dân số (chẳng hạn như dữ liệu hợp lệ chỉ dành cho Chrome). Bất kỳ điều gì đáng chú ý ở đây có thể giúp bạn xây dựng và kiểm chứng lý thuyết sau này. Một số điều cần lưu ý:

Nếu thử nghiệm đang chạy, hãy tự mình thử nghiệm. Nếu không thể, bạn ít nhất hãy xem qua ảnh chụp màn hình/mô tả hành vi.
Kiểm tra xem có điều gì bất thường về phạm vi thời gian chạy thử nghiệm hay không (các dịp lễ, các đợt ra mắt lớn, v.v.).
Xác định những tập hợp người dùng sẽ chịu thử nghiệm.

Kiểm tra những nội dung không nên thay đổi

Trong giai đoạn "Xác thực", trước khi thực sự trả lời câu hỏi mà bạn quan tâm (ví dụ: "Việc thêm hình ảnh khuôn mặt có làm tăng hay giảm số lượt nhấp không?"), hãy loại trừ mọi biến đổi khác trong dữ liệu có thể ảnh hưởng đến thử nghiệm. Ví dụ:

Số lượng người dùng có thay đổi không?
Số lượng cụm từ tìm kiếm bị ảnh hưởng có xuất hiện chính xác trong tất cả các nhóm con của tôi không?
Tỷ lệ lỗi có thay đổi không?

Những câu hỏi này phù hợp cả khi so sánh thử nghiệm/kiểm soát lẫn khi kiểm tra các xu hướng theo thời gian.

Tiêu chuẩn thứ nhất, thứ hai tùy chỉnh

Khi xem xét các tính năng mới và dữ liệu mới, bạn sẽ đặc biệt muốn chuyển ngay đến các chỉ số mới hoặc đặc biệt cho tính năng mới này. Tuy nhiên, bạn nên luôn xem các chỉ số chuẩn trước tiên, ngay cả khi bạn muốn các chỉ số này thay đổi. Ví dụ: khi thêm một khối chung mới vào trang, hãy đảm bảo bạn hiểu được tác động đối với các chỉ số chuẩn như "số lượt nhấp vào kết quả trên web" trước khi tìm hiểu kỹ về các chỉ số tuỳ chỉnh cho kết quả mới này.

Chỉ số chuẩn được xác thực tốt hơn nhiều và có nhiều khả năng chính xác hơn so với chỉ số tuỳ chỉnh. Nếu chỉ số tùy chỉnh của bạn không phù hợp với chỉ số chuẩn, thì chỉ số tùy chỉnh của bạn có thể không chính xác.

Đo từ hai lần trở lên

Đặc biệt nếu bạn đang cố gắng theo dõi một hiện tượng mới, hãy cố gắng đo lường cùng một yếu tố cơ bản theo nhiều cách. Sau đó, hãy xác định xem các phép đo này có nhất quán hay không. Bằng cách sử dụng nhiều hoạt động đo lường, bạn có thể xác định các lỗi trong mã đo lường hoặc mã ghi nhật ký, các tính năng không mong muốn của dữ liệu cơ bản hoặc các bước lọc quan trọng. Sẽ tốt hơn nữa nếu bạn có thể sử dụng các nguồn dữ liệu khác nhau cho các phép đo.

Kiểm tra khả năng tái tạo

Cả quá trình cắt lát và tính nhất quán theo thời gian là những ví dụ cụ thể về việc kiểm tra khả năng tái tạo. Nếu một hiện tượng là quan trọng và có ý nghĩa, bạn sẽ thấy sự kiện đó trên nhiều nhóm người dùng và tại các thời điểm khác nhau. Tuy nhiên, việc xác minh khả năng tái tạo không chỉ đơn giản là thực hiện hai quy trình kiểm tra này. Nếu đang xây dựng mô hình dữ liệu, bạn muốn các mô hình đó luôn ổn định trên các nhiễu nhỏ trong dữ liệu cơ bản. Việc sử dụng các khoảng thời gian khác nhau hoặc các mẫu phụ ngẫu nhiên của dữ liệu cũng sẽ cho bạn biết mức độ tin cậy/tái tạo của mô hình này.

Nếu một mô hình không thể tái tạo, thì có thể bạn đang không thu thập được thông tin cơ bản về quy trình cơ bản đã tạo ra dữ liệu.

Kiểm tra tính nhất quán với các phép đo trước đây

Thông thường, bạn sẽ tính toán một chỉ số tương tự như những gì đã được tính trong quá khứ. Bạn nên so sánh các chỉ số của mình với các chỉ số được báo cáo trước đây, ngay cả khi những dữ liệu đo lường này dựa trên nhiều nhóm người dùng.

Ví dụ: nếu bạn đang xem xét lưu lượng truy cập truy vấn trên một nhóm người dùng đặc biệt và bạn đo lường được rằng thời gian tải trang trung bình là 5 giây, nhưng các phân tích trước đây về tất cả người dùng đã đưa ra thời gian tải trang trung bình là 2 giây, thì bạn cần điều tra. Con số này có thể phù hợp với dân số này, nhưng hiện tại bạn phải làm nhiều việc hơn để xác thực số liệu này.

Bạn không cần đạt được thoả thuận chính xác nhưng các bạn phải ở trong cùng một dự án. Nếu không, hãy cho rằng bạn đã sai cho đến khi bạn có thể hoàn toàn thuyết phục được chính mình. Những dữ liệu đáng ngạc nhiên nhất sẽ hoá ra là một lỗi, chứ không phải là một thông tin chi tiết mới mẻ.

Các chỉ số mới sẽ được áp dụng trước cho dữ liệu/tính năng cũ

Nếu tạo các chỉ số mới (có thể là bằng cách thu thập một nguồn dữ liệu mới) và cố gắng tìm hiểu thông tin mới, thì bạn sẽ không biết liệu chỉ số mới của mình có chính xác hay không. Khi sử dụng các chỉ số mới, trước tiên, bạn nên áp dụng các chỉ số đó cho một tính năng hoặc dữ liệu đã biết. Ví dụ: nếu có một chỉ số mới để đánh giá mức độ hài lòng của người dùng, bạn nên đảm bảo chỉ số đó cho bạn biết các tính năng tốt nhất giúp bạn hài lòng. Nếu bạn có một chỉ số mới về nơi người dùng chuyển sự chú ý của họ đến trang, hãy đảm bảo chỉ số đó khớp với những gì chúng tôi biết khi xem xét hoạt động theo dõi bằng mắt hoặc nghiên cứu của người đánh giá về tác động của hình ảnh đối với sự chú ý trên trang. Cách này sẽ cung cấp thông tin xác thực khi bạn bắt đầu học hỏi điều mới.

Đưa ra giả thuyết và tìm bằng chứng

Thông thường, việc phân tích dữ liệu cho một vấn đề phức tạp có tính lặp lại.² Bạn sẽ khám phá các điểm bất thường, xu hướng hoặc các đặc điểm khác của dữ liệu. Đương nhiên, bạn sẽ phát triển các lý thuyết để giải thích dữ liệu này. Đừng chỉ phát triển một lý thuyết và tuyên bố là đúng. Tìm bằng chứng (trong hoặc ngoài dữ liệu) để xác nhận/từ chối lý thuyết này. Ví dụ:

Nếu bạn thấy điều gì đó trông giống như một xu hướng học tập, hãy xem liệu nó có biểu hiện rõ ràng nhất với người dùng có tần suất cao hay không.
Nếu bạn cho rằng điểm bất thường là do sự ra mắt của một số tính năng, hãy đảm bảo rằng đối tượng duy nhất bị ảnh hưởng bởi điểm bất thường này. Ngoài ra, hãy đảm bảo rằng mức độ của thay đổi nhất quán với kỳ vọng của lần ra mắt.
Nếu bạn thấy tốc độ gia tăng người dùng thay đổi ở một ngôn ngữ, hãy cố gắng tìm một nguồn bên ngoài xác thực tốc độ thay đổi dân số người dùng đó.

Một bản phân tích dữ liệu hiệu quả sẽ giúp bạn hình dung được nhiều điều. Để đảm bảo đó là đúng câu chuyện, bạn cần kể câu chuyện đó với chính mình, sau đó tìm bằng chứng cho thấy câu chuyện đó không đúng. Một cách để làm việc này là tự hỏi: "Mình sẽ chạy những thử nghiệm nào có thể xác thực/vô hiệu hoá câu chuyện tôi đang kể?" Ngay cả khi bạn không/không thể thực hiện các thử nghiệm này, bài kiểm tra này cũng có thể cung cấp cho bạn ý tưởng về cách xác thực bằng dữ liệu mà bạn có.

Tin vui là những lý thuyết và thử nghiệm khả thi này có thể dẫn đến những dòng câu hỏi mới thay vì cố gắng tìm hiểu về bất kỳ tính năng hoặc dữ liệu cụ thể nào. Sau đó, bạn sẽ bước vào vùng hiểu biết không chỉ về dữ liệu này, mà còn rút ra được các chỉ số và kỹ thuật mới cho mọi loại phân tích trong tương lai.

Phân tích khám phá hưởng lợi từ việc lặp lại toàn bộ

Khi thực hiện phân tích khám phá, hãy thực hiện nhiều lần lặp lại của bản phân tích tổng thể nhất có thể. Thông thường, bạn sẽ phải thực hiện nhiều bước thu thập, xử lý, lập mô hình tín hiệu, v.v. Nếu dành quá nhiều thời gian để hoàn thiện giai đoạn đầu tiên của tín hiệu ban đầu, bạn sẽ bỏ lỡ cơ hội lặp lại nhiều lần trong cùng một khoảng thời gian. Ngoài ra, khi xem xét dữ liệu ở giai đoạn cuối, bạn có thể thực hiện những khám phá thay đổi hướng của mình. Do đó, trọng tâm ban đầu của bạn không nên tập trung vào sự hoàn hảo mà hãy tập trung vào việc làm cho mọi thứ hợp lý trở nên mọi thứ. Hãy để lại ghi chú cho bản thân và xác nhận những nội dung như các bước lọc và các yêu cầu không thể phân tích cú pháp hoặc yêu cầu bất thường, nhưng đừng lãng phí thời gian để loại bỏ tất cả những nội dung này khi bắt đầu quá trình phân tích khám phá.

Chú ý đến phản hồi

Chúng tôi thường xác định nhiều chỉ số xoay quanh mức độ thành công của người dùng. Ví dụ: người dùng có nhấp vào một kết quả không? Sau đó, nếu bạn cung cấp dữ liệu đó trở lại hệ thống (mà chúng tôi thực sự áp dụng ở nhiều nơi), bạn sẽ tạo ra rất nhiều cơ hội để đánh giá nhầm lẫn.

Bạn không thể sử dụng chỉ số được đưa trở lại hệ thống làm cơ sở để đánh giá thay đổi. Nếu hiển thị nhiều quảng cáo nhận được nhiều lượt nhấp hơn, bạn không thể sử dụng "nhiều lượt nhấp hơn" làm cơ sở để quyết định rằng người dùng hài lòng hơn, mặc dù "nhiều lượt nhấp hơn" thường có nghĩa là "hài lòng hơn". Hơn nữa, bạn thậm chí không nên cắt lát các biến mà bạn đã cung cấp lại và thao tác, vì điều đó sẽ dẫn đến việc kết hợp các thay đổi gây khó khăn hoặc không thể hiểu được.

Tư duy

Phần này mô tả cách làm việc cùng với những người khác và truyền đạt thông tin chi tiết.

Quá trình phân tích dữ liệu bắt đầu bằng câu hỏi, chứ không phải dữ liệu hoặc kỹ thuật

Người dùng luôn có động lực để phân tích dữ liệu. Việc hình thành nhu cầu của bạn dưới dạng câu hỏi hoặc giả thuyết giúp đảm bảo rằng bạn đang thu thập được dữ liệu cần thu thập, đồng thời bạn đang xem xét những lỗ hổng có thể xảy ra trong dữ liệu. Tất nhiên, những câu hỏi bạn đặt ra sẽ thay đổi khi bạn xem dữ liệu. Tuy nhiên, việc phân tích không có câu hỏi sẽ trở nên vô nghĩa.

Tránh bẫy bạn tìm kỹ thuật yêu thích nào đó rồi chỉ tìm các phần có vấn đề mà kỹ thuật này có thể giải quyết. Xin nhắc lại, việc đưa ra những câu hỏi rõ ràng sẽ giúp bạn tránh được cái bẫy này.

Hãy vừa hoài nghi vừa là người dũng cảm

Khi làm việc với dữ liệu, bạn phải vừa trở thành người ủng hộ những thông tin chi tiết mà mình thu thập được vừa là người hoài nghi về thông tin chi tiết đó. Hy vọng rằng bạn sẽ tìm thấy một số hiện tượng thú vị trong dữ liệu mà mình xem. Khi bạn phát hiện một hiện tượng thú vị, hãy tự hỏi những điều sau đây:

Tôi có thể thu thập dữ liệu nào khác để cho thấy mức độ tuyệt vời này?
Tôi có thể tìm thấy điều gì có thể vô hiệu hoá tính năng này?”

Đặc biệt trong trường hợp bạn đang phân tích cho người nào đó thực sự muốn có một câu trả lời cụ thể (ví dụ: "Tính năng của tôi rất tuyệt!"), bạn phải đóng vai trò hoài nghi để tránh mắc lỗi.

Mối tương quan != Nguyên nhân

Khi đưa ra các lý thuyết về dữ liệu, chúng tôi thường muốn khẳng định rằng "X gây ra Y" – ví dụ: "trang chậm hơn khiến người dùng nhấp ít hơn". Ngay cả xkcd cũng biết rằng bạn không thể chỉ đơn thuần thiết lập quan hệ nhân quả do mối tương quan. Khi xem xét cách bạn sẽ chứng thực thuyết nhân quả, thường thì bạn có thể hiểu được mức độ đáng tin cậy của lý thuyết nhân quả.

Đôi khi, mọi người cố gắng duy trì một mối tương quan có ý nghĩa bằng cách khẳng định rằng ngay cả khi không có mối quan hệ nhân quả giữa A và B, thì vẫn phải có điều gì đó làm cơ sở cho sự trùng hợp đó để một tín hiệu có thể là chỉ báo hoặc đại diện tốt cho tín hiệu còn lại. Khu vực này nguy hiểm đối với nhiều vấn đề kiểm tra giả thuyết; vì xkcd cũng biết, nếu có đủ thử nghiệm và kích thước, một số tín hiệu sẽ phù hợp với một thử nghiệm cụ thể. Điều này không ngụ ý rằng các tín hiệu tương tự sẽ phù hợp trong tương lai, vì vậy, bạn có nghĩa vụ xem xét lý thuyết nhân quả, chẳng hạn như "có một hiệu ứng ẩn C gây ra cả A và B" để bạn có thể cố gắng xác thực mức độ hợp lý của việc này.

Nhà phân tích dữ liệu thường phải tìm hiểu những câu hỏi mang tính nhân quả này đối với những người muốn sử dụng dữ liệu. Bạn nên nói rõ với những người tiêu dùng đó những gì bạn được phép và không được phép nói về vấn đề nhân quả.

Ưu tiên chia sẻ với bạn bè, rồi mới đến người tiêu dùng bên ngoài

Các điểm ở trên đã đề xuất một số cách để bạn tự kiểm tra và xác thực độ phù hợp. Nhưng chia sẻ với đồng nghiệp là một trong những cách tốt nhất để buộc bản thân thực hiện tất cả những việc này. Một đồng nghiệp có kỹ năng có thể đưa ra phản hồi khác biệt về định tính so với người sử dụng dữ liệu của bạn, đặc biệt là vì người tiêu dùng thường có chương trình làm việc. Các ứng dụng ngang hàng hữu ích ở nhiều điểm thông qua quá trình phân tích. Ngay từ đầu, bạn có thể tìm hiểu về những điểm cần truy cập mà đồng nghiệp của mình biết, các đề xuất về những nội dung cần đo lường và những nghiên cứu trước đây về lĩnh vực này. Về phía cuối, các ứng dụng ngang hàng rất hiệu quả trong việc chỉ ra những điểm kỳ lạ, sự không nhất quán hoặc những nhầm lẫn khác.

Tốt nhất là bạn nên nhận ý kiến phản hồi từ một đồng nghiệp biết điều gì đó về dữ liệu mà bạn đang xem xét, nhưng ngay cả một đồng nghiệp chỉ có kinh nghiệm phân tích dữ liệu chung cũng vô cùng giá trị.

Mong đợi và chấp nhận sự thiếu sót và sai lầm

Có rất nhiều giới hạn đối với những gì chúng ta có thể học được từ dữ liệu. Nate Bạc là một trường hợp đáng tin cậy trong Tín hiệu và tiếng ồn rằng chỉ bằng cách thừa nhận giới hạn về độ chắc chắn của mình, chúng tôi mới có thể tiến bộ trong việc dự đoán chính xác hơn. Việc thừa nhận sự thiếu hiểu biết thường là một sức mạnh không được đền đáp ngay lập tức. Mặc dù hiện tại không có gì tốt, nhưng đây sẽ là một lợi ích to lớn cho bạn và đội ngũ của bạn về lâu dài. Thậm chí sẽ cảm thấy tệ hơn khi bạn mắc lỗi và phát hiện ra lỗi đó sau này (hoặc thậm chí là quá muộn!), nhưng việc chủ động nhận ra sai sót của mình sẽ khiến bạn được tôn trọng. Sự tôn trọng đó chuyển thành độ tin cậy và tác động.

Suy nghĩ kết thúc

Phần lớn công việc để phân tích dữ liệu hiệu quả sẽ không thể hiện ngay lập tức đối với người tiêu dùng bản phân tích. Việc bạn đã kiểm tra kỹ lưỡng quy mô dân số và xác thực rằng hiệu quả nhất quán trên các trình duyệt có thể sẽ không giúp những người đang cố gắng đưa ra quyết định dựa trên dữ liệu này có thể sẽ không nhận biết được. Điều này cũng giải thích vì sao việc phân tích dữ liệu hiệu quả lại mất nhiều thời gian hơn có vẻ như đối với hầu hết mọi người (đặc biệt là khi họ chỉ xem được kết quả cuối cùng). Công việc của chúng tôi với tư cách nhà phân tích là từng bước hướng dẫn người tiêu dùng thông tin chi tiết dựa trên dữ liệu về tầm quan trọng và tầm quan trọng của các bước này.

Nhu cầu đối với tất cả các thao tác và khám phá dữ liệu này cũng đặt ra các yêu cầu đối với một ngôn ngữ và môi trường phân tích dữ liệu hiệu quả. Chúng tôi có sẵn nhiều công cụ để kiểm tra dữ liệu. Các công cụ và ngôn ngữ khác nhau sẽ phù hợp hơn với các kỹ thuật được thảo luận ở trên; việc chọn đúng công cụ là một kỹ năng quan trọng đối với nhà phân tích. Bạn không nên bị giới hạn bởi khả năng của công cụ mà bạn cảm thấy phù hợp nhất; nhiệm vụ của bạn là cung cấp thông tin chi tiết thực sự chứ không phải áp dụng một công cụ cụ thể.

Hoạt động này đôi khi được gọi là "phân tích dữ liệu ban đầu". Xem bài viết trên wikipedia về phân tích dữ liệu ↩
Về mặt kỹ thuật, bạn chỉ nên lặp lại nếu đang thực hiện phân tích khám phá chứ không phải phân tích khẳng định. ↩