Bẫy phân tích

"Tất cả mô hình đều sai nhưng một số mô hình hữu ích". — George Box, 1978

Mặc dù mạnh mẽ nhưng các kỹ thuật thống kê vẫn có những hạn chế riêng. Thấu hiểu những hạn chế này có thể giúp nhà nghiên cứu tránh những tuyên bố mánh khóe và tuyên bố không chính xác, chẳng hạn như BF Skinner khẳng định rằng Shakespeare không sử dụng phép dùng phép trích dẫn nhiều hơn tính ngẫu nhiên sẽ dự đoán. (Nghiên cứu của Skinner là không đủ năng lực.1)

Thanh không chắc chắn và thanh lỗi

Bạn cần phải xác định rõ độ không chắc chắn trong bản phân tích của mình. Điều quan trọng không kém để định lượng sự không chắc chắn trong phân tích của người khác. Điểm dữ liệu xuất hiện để vẽ một xu hướng trên đồ thị nhưng có các thanh lỗi chồng chéo, có thể không biểu thị bất kỳ mẫu nào. Độ không chắc chắn cũng có thể quá cao nên không thể đưa ra kết luận hữu ích kết luận từ một nghiên cứu hoặc thử nghiệm thống kê cụ thể. Nếu một nghiên cứu yêu cầu độ chính xác ở cấp lô, tập dữ liệu không gian địa lý có độ không chắc chắn +/- 500 m không chắc chắn nên không thể sử dụng được.

Ngoài ra, mức độ không chắc chắn có thể hữu ích trong quá trình đưa ra quyết định các quy trình. Dữ liệu hỗ trợ một hoạt động xử lý nước cụ thể với độ không chắc chắn là 20% trong kết quả có thể dẫn đến đề xuất triển khai lượng nước đó điều trị bằng cách liên tục theo dõi chương trình để giải quyết tình trạng không chắc chắn đó.

Mạng nơron Bayesian có thể định lượng độ bất định bằng cách dự đoán sự phân phối giá trị thay vì đơn lẻ giá trị.

Không liên quan

Như đã thảo luận trong phần giới thiệu, luôn có ít nhất một khoảng cách nhỏ giữa dữ liệu và thông tin thực tế. Chuyên viên máy học nhạy bén nên xác định xem liên quan đến câu hỏi đang được đặt ra.

Huff mô tả một nghiên cứu ban đầu về dư luận cho rằng người Mỹ da trắng các câu trả lời cho câu hỏi người Mỹ da đen có dễ dàng làm theo có liên quan trực tiếp và ngược với mức độ đối với người Mỹ da đen. Khi sự tự tin về chủng tộc tăng lên, câu trả lời về các cơ hội kinh tế dự kiến ngày càng tăng lạc quan. Có thể mọi người hiểu lầm rằng đây là một dấu hiệu tiến bộ. Tuy nhiên, nghiên cứu này không thể đưa ra các cơ hội kinh tế có sẵn đối với người Mỹ gốc Phi vào thời điểm đó. phù hợp để rút ra kết luận về thực tế của thị trường việc làm—chỉ ý kiến của người trả lời khảo sát. Dữ liệu đã thu thập trên thực tế không liên quan đến tình trạng của thị trường việc làm.2

Bạn có thể huấn luyện một mô hình dựa trên dữ liệu khảo sát như đã mô tả ở trên, trong đó kết quả thực sự đo lường sự lạc quan thay vì cơ hội. Nhưng vì cơ hội dự đoán không liên quan đến cơ hội thực tế, nếu bạn cho rằng mô hình này dự đoán các cơ hội thực tế, thì bạn sẽ miêu tả sai những gì mô hình dự đoán.

Kiến thức cơ bản

Biến làm sáng tỏ, đồng nguyên hoặc hệ số đồng yếu là một biến không được nghiên cứu ảnh hưởng đến các biến đang được nghiên cứu và có thể làm sai lệch kết quả. Ví dụ: hãy xem xét mô hình học máy dự đoán tỷ lệ tử vong cho một dữ liệu đầu vào quốc gia dựa trên các tính năng của chính sách y tế cộng đồng. Giả sử trung vị tuổi không phải là một tính năng. Giả sử thêm rằng một số quốc gia có tỷ lệ người dùng so với các nhóm khác. Khi bỏ qua biến gây nhầm lẫn của độ tuổi trung vị, mô hình này có thể dự đoán tỷ lệ tử vong không hợp lệ.

Tại Hoa Kỳ, chủng tộc thường có mối tương quan chặt chẽ với kinh tế xã hội lớp học, mặc dù chỉ có chủng tộc chứ không phải tầng lớp, được ghi nhận cùng với dữ liệu về tỷ lệ tử vong. Các thông tin sai lệch liên quan đến lớp học, chẳng hạn như quyền tiếp cận dịch vụ chăm sóc sức khoẻ, dinh dưỡng, công việc nguy hiểm, và nhà ở an toàn, có thể có ảnh hưởng mạnh hơn đến tỷ lệ tử vong so với chủng tộc, nhưng không được để ý vì chúng không có trong các tập dữ liệu.3 Xác định và việc kiểm soát những điểm sai lệch này là rất quan trọng trong việc xây dựng các mô hình hữu ích và đưa ra kết luận có ý nghĩa và chính xác.

Nếu một mô hình được huấn luyện dựa trên dữ liệu về tỷ lệ tử vong hiện có, bao gồm cả chủng tộc nhưng không nên tính năng này có thể dự đoán tỷ lệ tử vong dựa trên chủng tộc, ngay cả khi giai đoạn này có yếu tố dự đoán tỷ lệ tử vong. Điều này có thể dẫn đến các giả định không chính xác về nhân quả và dự đoán không chính xác về tỷ lệ tử vong của bệnh nhân. chuyên viên học máy nên hỏi xem dữ liệu của họ có mâu thuẫn hay không, cũng như những thông tin nào có ý nghĩa tập dữ liệu có thể đang thiếu biến.

Năm 1985, Nghiên cứu sức khoẻ, một nghiên cứu theo nhóm quan sát của Harvard Trường Y và Trường Y tế Công cộng Harvard cho thấy rằng các thành viên trong nhóm thuần tập dùng liệu pháp thay thế estrogen có tỷ lệ đau tim thấp hơn so với các thành viên của nhóm thuần tập chưa từng sử dụng estrogen. Vì vậy, các bác sĩ đã kê đơn estrogen cho cơ thể ở bệnh nhân mãn kinh và sau mãn kinh trong nhiều thập kỷ cho đến khi có một nghiên cứu lâm sàng Năm 2002, họ đã xác định được những rủi ro về sức khoẻ do liệu pháp estrogen trong thời gian dài tạo ra. Cách thực hành việc kê đơn estrogen cho phụ nữ sau mãn kinh đã ngừng, nhưng chưa dừng lại trước khi gây ra ước tính hàng chục nghìn trường hợp tử vong sớm.

Nhiều điểm khẳng định có thể đã gây ra mối liên kết này. Tìm thấy nhà dịch tễ học so với những phụ nữ không sử dụng liệu pháp thay thế hoocmon, có xu hướng gầy hơn, học thức hơn, giàu có hơn và ý thức được nhiều hơn về sức khoẻ của mình, và có nhiều khả năng sẽ tập thể dục hơn. Trong nhiều nghiên cứu, giáo dục và sự giàu có giúp giảm nguy cơ mắc bệnh tim. Những tác động đó sẽ trở nên không hợp lý mối tương quan rõ ràng giữa liệu pháp estrogen và cơn đau tim.4

Phần trăm có số âm

Tránh sử dụng tỷ lệ phần trăm khi có số âm,5 làm tất cả các loại lãi và lỗ có ý nghĩa đều có thể bị che khuất. Giả sử, để đơn giản toán học, rằng ngành nhà hàng có 2 triệu việc làm. Nếu ngành hàng không thua 1 triệu việc làm trong số đó vào cuối tháng 3 năm 2020, trong đó 10 nhóm việc làm không có biến động và nhận được 900.000 việc làm vào đầu tháng 2/2021 (so với cùng kỳ năm trước) một số liệu so sánh vào đầu tháng 3 năm 2021 sẽ cho thấy số lượng việc làm trong nhà hàng chỉ giảm 5%. Giả sử không có thay đổi nào khác, dữ liệu so sánh với cùng kỳ năm trước vào cuối tháng 2 năm 2022 sẽ đưa ra tỷ lệ công việc trong nhà hàng tăng 90%, điều này rất khác bức tranh thực tế.

Ưu tiên các số thực tế, được chuẩn hoá khi phù hợp. Xem Làm việc với các số Cata để tìm hiểu thêm.

Ngụy biện sau khi học và các mối tương quan không sử dụng được

Ngụy biện hậu kỳ là giả định rằng vì sự kiện A được theo sau là sự kiện B, sự kiện A gây ra sự kiện B. Nói một cách đơn giản hơn, giả sử quan hệ nhân quả không tồn tại. Đơn giản hơn nữa: không chứng minh được quan hệ nhân quả.

Ngoài mối quan hệ nhân quả rõ ràng, mối tương quan cũng có thể phát sinh từ:

  • Cơ hội thuần tuý (xem bài hát của Tyler Vigen Mối tương quan giả để minh hoạ, bao gồm cả mối tương quan chặt chẽ giữa tỷ lệ ly hôn tiêu thụ ở Maine và margarine).
  • Mối quan hệ thực giữa hai biến, mặc dù chưa rõ biến thể nào biến nào mang tính nguyên nhân và biến nào bị ảnh hưởng.
  • Nguyên nhân thứ ba, riêng biệt ảnh hưởng đến cả hai biến số, mặc dù biến tương quan không có liên quan với nhau. Lạm phát toàn cầu, đối với chẳng hạn như có thể làm tăng giá của cả du thuyền và cần tây.6

Việc ngoại suy mối tương quan so với dữ liệu hiện có cũng có nhiều rủi ro. Huff chỉ ra rằng một vài mưa sẽ giúp cải thiện cây trồng, nhưng nếu mưa quá nhiều sẽ làm thiệt hại họ; mối quan hệ giữa mưa và kết quả trồng trọt là phi tuyến tính.7 (Xem hai phần tiếp theo để tìm hiểu thêm về mối quan hệ phi tuyến tính). Jones Xin lưu ý rằng thế giới luôn đầy những sự kiện bất ngờ, chẳng hạn như chiến tranh và nạn đói, giúp chủ thể dự báo trong tương lai về dữ liệu chuỗi thời gian mức độ bất ổn rất lớn.8

Hơn nữa, ngay cả một mối tương quan thực sự dựa trên nguyên nhân và kết quả cũng có thể không rất hữu ích để đưa ra quyết định. Ví dụ: Huff đưa ra mối tương quan giữa khả năng kết hôn và giáo dục đại học trong những năm 1950. Những người phụ nữ đã đến họ ít có khả năng kết hôn, nhưng chắc là đúng như vậy phụ nữ học đại học ít có khuynh hướng kết hôn ngay từ đầu. Nếu đúng như vậy thì trình độ đại học đã không thay đổi khả năng kết hôn.9

Nếu một bản phân tích phát hiện thấy mối tương quan giữa hai biến trong một tập dữ liệu, hãy đặt câu hỏi:

  • Loại tương quan đó là gì: nhân quả, giả mạo, không xác định mối quan hệ hay do một biến số thứ ba gây ra?
  • Ngoại suy từ dữ liệu có rủi ro như thế nào? Mọi thông tin dự đoán về mô hình trên dữ liệu không có trong tập dữ liệu huấn luyện, mà là nội suy hoặc phép ngoại suy từ dữ liệu.
  • Có thể sử dụng mối tương quan để đưa ra quyết định hữu ích không? Ví dụ: sự lạc quan có thể tương quan chặt chẽ với việc tăng lương, nhưng phân tích cảm nhận của một số lượng lớn dữ liệu văn bản, chẳng hạn như mạng xã hội bài đăng của người dùng ở một quốc gia cụ thể, sẽ không hữu ích trong việc dự đoán là mức tăng tiền lương ở quốc gia đó.

Khi huấn luyện một mô hình, chuyên viên học máy thường tìm kiếm các tính năng tương quan chặt chẽ với nhãn. Nếu mối quan hệ giữa các tính năng và không hiểu rõ nhãn, điều này có thể dẫn đến các vấn đề được mô tả trong phần này, bao gồm các mô hình dựa trên mối tương quan giả và mô hình giả định các xu hướng trước đây sẽ tiếp tục trong tương lai, khi trên thực tế chúng thì không.

Độ lệch tuyến tính

Ngang bằng "Tư duy tuyến tính trong một thế giới phi tuyến tính", Bart de Langhe, Stefano Puntoni và Richard Larrick mô tả thiên kiến tuyến tính là xu hướng của bộ não con người trong việc mong đợi và tìm kiếm các mối quan hệ tuyến tính, mặc dù nhiều hiện tượng là phi tuyến tính. Mối quan hệ giữa thái độ của con người và hành vi chính là một đường cong lồi chứ không phải một đường. Trong một nhật ký năm 2007 Bài viết về Chính sách người tiêu dùng do de Langhe và cộng sự trích dẫn, Jenny van Doorn và cộng sự. mô hình hoá mối quan hệ giữa người trả lời khảo sát mối lo ngại về môi trường và người trả lời lượt mua sản phẩm hữu cơ. Những người có những mối lo ngại cực kỳ nghiêm trọng nhất về môi trường khi mua nhiều sản phẩm hữu cơ hơn, nhưng sẽ có rất nhiều có chút khác biệt giữa tất cả những người trả lời khác.

Giao dịch mua sản phẩm hữu cơ so với điểm số về mối lo ngại về môi trường,
  cho thấy đường kẻ gần như bằng phẳng với một đường cong lồi rõ hướng lên ở phía ngoài cùng bên phải
Biểu đồ lượt mua hàng không phải trả tiền so với điểm số mối lo ngại về môi trường được đơn giản hoá và được điều chỉnh từ van Doorn và cộng sự. giấy

Khi thiết kế mô hình hoặc nghiên cứu, hãy xem xét khả năng phi tuyến tính mối quan hệ với nhau. Vì thử nghiệm A/B có thể bỏ lỡ các mối quan hệ phi tuyến tính, hãy xem xét việc kiểm tra thử nghiệm thứ ba, trung gian điều kiện, C. Ngoài ra, hãy cân nhắc xem hành vi ban đầu có xuất hiện hay không sẽ tiếp tục là tuyến tính hoặc liệu dữ liệu trong tương lai hiển thị thêm hành vi lôgarit hoặc hành vi phi tuyến tính khác.

Một sự phù hợp tuyến tính với dữ liệu logarit cho thấy phù hợp với dữ liệu đầu tiên
  một nửa dữ liệu và sau đó, mức độ phù hợp sẽ ngày càng kém.
Ví dụ về mức độ phù hợp tuyến tính kém với dữ liệu logarit

Ví dụ giả định này cho thấy một sự điều chỉnh tuyến tính không chính xác đối với dữ liệu logarit. Nếu chỉ có vài điểm dữ liệu đầu tiên thì thật hấp dẫn và không chính xác khi giả định mối quan hệ tuyến tính liên tục giữa các biến.

Nội suy tuyến tính

Kiểm tra mọi nội suy giữa các điểm dữ liệu, do nội suy đưa ra các điểm hư cấu và khoảng cách giữa các phép đo thực tế có thể có chứa những biến động có ý nghĩa. Ví dụ: hãy cân nhắc những điều sau hình ảnh trực quan của bốn điểm dữ liệu được kết nối với nội suy tuyến tính:

Biên độ theo thời gian cho thấy 4 điểm nối với nhau bằng một đường thẳng.
Ví dụ về nội suy tuyến tính.

Sau đó, hãy xem xét ví dụ về sự biến động giữa các điểm dữ liệu bị xoá bằng nội suy tuyến tính:

Điểm vẫn giữ nguyên như trước, nhưng có sự dao động rất lớn giữa điểm thứ hai và thứ ba.
Ví dụ về sự biến động đáng kể (động đất) giữa các điểm dữ liệu.

Ví dụ này được tạo dựng vì máy địa chấn thu thập dữ liệu liên tục và vì vậy trận động đất này sẽ không bị bỏ sót. Nhưng tài liệu này rất hữu ích khi minh hoạ giả định được thực hiện bằng nội suy và các hiện tượng thực mà dữ liệu chuyên viên có thể bỏ lỡ.

Hiện tượng Runge

hiện tượng của Rừnge, cũng như được gọi là "dao động đa thức" là vấn đề ở phía đối diện của phổ từ nội suy tuyến tính và sai lệch tuyến tính. Khi lắp đa thức nội suy dữ liệu, có thể sử dụng đa thức có độ quá cao (bậc hoặc thứ tự, là số mũ cao nhất trong phương trình đa thức). Chiến dịch này tạo ra dao động lẻ ở cạnh. Ví dụ: áp dụng một nội suy đa thức bậc 11, nghĩa là số hạng cao nhất trong phương trình đa thức có \(x^{11}\), đến dữ liệu gần đúng tuyến tính, kết quả là các dự đoán cực kỳ xấu ở đầu và cuối của dải ô dữ liệu:

Tương đối tuyến tính
  kết hợp với nội suy đa thức bậc 11, cho thấy
  mức tăng đột biến đi lên giữa hai điểm dữ liệu đầu tiên và mức tăng đột biến
  giữa hai điểm dữ liệu cuối cùng
Ví dụ về phép lắc đa thức

Trong bối cảnh ML, một hiện tượng tương tự là trang bị quá mức.

Lỗi thống kê cần phát hiện

Đôi khi, một thử nghiệm thống kê có thể không đủ năng lực để phát hiện ảnh hưởng nhỏ. Dung lượng thấp trong bản phân tích thống kê đồng nghĩa với việc ít có khả năng đưa ra kết quả chính xác giúp xác định các sự kiện có thật, từ đó xác định được khả năng có kết quả âm tính giả cao. Katherine Button và các tác giả khác. đã viết trong Thiên nhiên: "Khi các nghiên cứu trong một lĩnh vực nhất định được thiết kế với công suất 20%, điều đó có nghĩa là nếu có 100 hàng chính hãng không rỗng tác động cần được phát hiện trong lĩnh vực đó, các nghiên cứu này dự kiến sẽ khám phá chỉ có 20 người mà thôi." Việc tăng kích thước mẫu đôi khi có thể hữu ích, như có thể cẩn thận thiết kế nghiên cứu.

Một tình huống tương tự trong công nghệ học máy là vấn đề phân loại và lựa chọn ngưỡng phân loại. Việc lựa chọn ngưỡng cao hơn sẽ dẫn đến có ít kết quả dương tính giả hơn và nhiều âm tính giả hơn, đồng thời ngưỡng kết quả thấp hơn có nhiều dương tính giả hơn và ít âm tính giả hơn.

Ngoài các vấn đề về sức mạnh thống kê, vì mối tương quan là được thiết kế để phát hiện mối quan hệ tuyến tính, tương quan phi tuyến tính giữa có thể bị thiếu các biến. Tương tự, các biến cũng có thể liên quan đến khác nhưng không có mối tương quan về mặt thống kê. Biến cũng có thể là có mối tương quan nghịch nhưng hoàn toàn không liên quan trong cái được gọi là Ngược lý của Berkson hoặc Nguỵ biện của Berkson. Ví dụ điển hình về nguỵ biện là mối tương quan âm giả mạo giữa mọi rủi ro và bệnh lý nghiêm trọng khi xem xét một nhóm bệnh nhân nội trú tại bệnh viện (như so với dân số chung), phát sinh từ quá trình lựa chọn (một tình trạng đủ nghiêm trọng để phải nhập viện).

Hãy cân nhắc xem bạn có gặp phải trường hợp nào trong số này hay không.

Mô hình lỗi thời và giả định không hợp lệ

Ngay cả các mô hình tốt cũng có thể suy giảm theo thời gian do hành vi của người dùng (và cả thế giới, vấn đề đó) có thể thay đổi. Các mô hình dự đoán ban đầu của Netflix phải ngừng hoạt động dưới dạng cơ sở khách hàng của họ đã thay đổi từ người dùng trẻ tuổi, am hiểu công nghệ thành dân số.10

Các mô hình cũng có thể chứa những giả định không rõ ràng và không chính xác mà có thể vẫn bị ẩn cho đến khi mô hình bị thất bại thảm hại như trong vụ sụp đổ thị trường năm 2008. Chiến lược phát hành đĩa đơn các mô hình Giá trị có nguy cơ (VaR) của ngành tài chính được tuyên bố là ước tính chính xác mức tổn thất tối đa đối với bất kỳ danh mục đầu tư nào của nhà giao dịch, giả sử tổn thất tối đa là $100.000 dự kiến trong 99% thời gian. Nhưng trong các tình trạng bất thường sự cố, danh mục đầu tư dự kiến mức tổn thất tối đa là 100.000 đô la đôi khi bị mất 1.000.000 USD trở lên.

Mô hình VaR dựa trên các giả định sai lệch, bao gồm:

  • Những thay đổi trong quá khứ của thị trường có tính dự đoán về những thay đổi của thị trường trong tương lai.
  • làm cơ sở cho giá trị trả về dự đoán.
Phân phối von Mises với k=5, tương tự như phân phối Gaussian và phẳng hơn k=1 và k=.2.
Biểu đồ phân bố von Mises, ở dạng đuôi mỏng ở K cao và đuôi béo ở K thấp.

Trên thực tế, sự phân bố cơ bản là đuôi béo, "hoang dại", hoặc fractal, có nghĩa là có rủi ro cao hơn nhiều về đuôi dài, cực đoan và được cho là so với dự đoán của phân phối bình thường. Bản chất đuôi béo của sự phân phối thực sự rõ ràng, nhưng không được thực hiện. Điểm kém hiệu quả đã biết được nhiều hiện tượng khác nhau phức tạp và có mối liên kết chặt chẽ như thế nào, bao gồm giao dịch dựa trên máy tính thông qua phương thức bán tự động.11

Các vấn đề về tính năng tổng hợp

Dữ liệu được tổng hợp, bao gồm hầu hết thông tin nhân khẩu học và dịch tễ học phụ thuộc vào một tập hợp các bẫy cụ thể. Ngược lý của sim, hoặc nghị lý kết hợp, xảy ra trong dữ liệu tổng hợp trong đó các xu hướng rõ ràng biến mất hoặc đảo ngược khi dữ liệu được tổng hợp ở một cấp khác, do các yếu tố gây nhầm lẫn và mối quan hệ nhân quả bị hiểu lầm.

Ngụy biện sinh thái liên quan đến việc ngoại suy sai thông tin về một tổng thể ở cấp độ tổng hợp này sang cấp độ tổng hợp khác, trong đó giá trị khiếu nại có thể không hợp lệ. Một căn bệnh ảnh hưởng đến 40% công nhân nông nghiệp ở một tỉnh có thể không có cùng tỷ lệ nhiễm ở tổng số người dùng. Rất có thể sẽ có các trang trại tách biệt hoặc thị trấn nông nghiệp ở tỉnh không có mức độ ảnh hưởng cao tương tự sự phổ biến của căn bệnh đó. Giả định tỷ lệ nhiễm ở những người ít bị ảnh hưởng là 40% địa điểm nào cũng sẽ là nguỵ biện.

Bài toán đơn vị vùng có thể sửa đổi (MAUP) là một vấn đề phổ biến trong dữ liệu không gian địa lý, được Stan Openshaw mô tả năm 1984 bằng CATMOG 38. Tuỳ thuộc vào hình dạng và kích thước của khu vực được sử dụng dữ liệu tổng hợp, nên chuyên viên dữ liệu không gian địa lý có thể thiết lập hầu hết mối tương quan giữa các biến trong dữ liệu. Cuộc bỏ phiếu bốc thăm những học khu ủng hộ một đảng phái nào đó là một ví dụ về MAUP.

Tất cả những tình huống này đều liên quan đến phép ngoại suy không thích hợp từ một cấp độ tổng hợp này sang cấp độ khác. Các cấp độ phân tích khác nhau có thể cần các chỉ số khác nhau hoặc thậm chí là các tập dữ liệu hoàn toàn khác.12

Xin lưu ý rằng dữ liệu điều tra dân số, nhân khẩu học và dịch tễ học thường được tổng hợp theo vùng vì lý do liên quan đến quyền riêng tư và các vùng này thường tuỳ ý, tức là không dựa trên những ranh giới có ý nghĩa trong thế giới thực. Thời gian khi làm việc với các loại dữ liệu này, chuyên viên học máy nên kiểm tra xem mô hình hiệu suất và thông tin dự đoán sẽ thay đổi tuỳ thuộc vào kích thước và hình dạng của các vùng đã chọn hay mức độ tổng hợp và nếu có, thì liệu dự đoán của mô hình đều chịu ảnh hưởng của một trong các vấn đề tổng hợp này.

Tài liệu tham khảo

Button, Katharine và cộng sự. "Lỗi điện: tại sao kích thước mẫu nhỏ lại làm giảm độ tin cậy của khoa học thần kinh." Thiên nhiên Đánh giá Khoa học thần kinh vol 14 (2013), 365–376. DOI: https://doi.org/10.1038/nrn3475

Cairo, Alberto. Cách biểu đồ nói dối: Giúp thông tin trực quan trở nên thông minh hơn. New York: T.W. Norton, 2019.

Davenport, Thomas H. "Thông tin sơ bộ về số liệu phân tích dự đoán". Trong Hướng dẫn về dữ liệu HBR Kiến thức cơ bản về Analytics dành cho người quản lý (Boston: HBR Press, 2018) 81-86.

De Langhe, Bart, Stefano Puntoni và Richard Larrick. "Tư duy tuyến tính trong một thế giới phi tuyến tính". Trong Hướng dẫn HBR về khái niệm cơ bản về phân tích dữ liệu dành cho người quản lý (Boston: HBR Press, 2018) 131-154.

Ellenberg, Jordan. Cách để không mắc sai lầm: Sức mạnh của tư duy toán học. New York: Chim cánh cụt, 2014.

Hừm, Darrell. Cách nói dối với số liệu thống kê. New York: W.W. Norton, 1954.

Jones, Ben. Tránh các cạm bẫy dữ liệu. Hoboken, New Jersey: Wiley, năm 2020.

Openshaw, Stan. "Vấn đề đơn vị vùng có thể sửa đổi," CATMOG 38 (Norwich, Anh: Geo Books 1984) 37.

Rủi ro của việc lập mô hình tài chính: VaR và sự suy giảm kinh tế, Đại hội lần thứ 111 (2009) (bài chứng thực của Nassim N. Taleb và Richard Bookstaber).

Ritter, David. "Khi nào nên hành động dựa trên mối tương quan và khi nào không nên". Trong Hướng dẫn về HBR để Kiến thức cơ bản về phân tích dữ liệu dành cho người quản lý (Boston: HBR Press, 2018) 103-109.

Tulchinsky, Theodore H. và Elena A. Varavikova. "Chương 3: Đo lường, theo dõi và đánh giá sức khoẻ của dân số" trong The New Public Health, ấn bản 3 San Diego: Báo chí học thuật, 2014, trang 91-147. DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

Van Doorn, Jenny và Peter C. Verhoef và Tammo H. A. Bijmolt. "Tầm quan trọng của mối quan hệ phi tuyến tính giữa thái độ và hành vi trong chính sách nghiên cứu". Tạp chí chính sách người tiêu dùng 30 (2007) 75–90. DOI: https://doi.org/10.1007/s10603-007-9028-3

Tham chiếu hình ảnh

Dựa trên "Phân phối Von Mises". Rainald62, năm 2018. Nguồn


  1. Ellenberg 125. 

  2. Huff 77-79. Huff trích dẫn Văn phòng Nghiên cứu Quan điểm Cộng đồng của [Tên thành phố], nhưng có thể anh ấy đã nghĩ đến Báo cáo tháng 4 năm 1944 của Trung tâm Nghiên cứu Ý kiến Quốc gia tại Đại học Denver.

  3. Tulchinsky và Varavikova. 

  4. Gary Taubes, Chúng ta có thực sự biết điều gì giúp mình khoẻ mạnh không?" trên Tạp chí New York Times, ngày 16 tháng 9 năm 2007.

  5. Ellenberg 78. 

  6. Huff 91-92. 

  7. Cảm ơn 93. 

  8. Jones 157-167. 

  9. 95%. 

  10. Davenport 84. 

  11. Xem chứng thực Quốc hội của Nassim N. Taleb và Richard Bookstaber trong The Risks of Financial Modeling: VaR and the Economic Meltdown, Đại hội lần thứ 111 (2009) 11-67.

  12. Cairo 155, 162.