Cái bẫy tư duy

Con người thường chịu các thành kiến trong nhận thức do con người, bao gồm thiên kiến xác nhận và hợp lý hoá. Alberto Cairo viết: "Hợp lý hoá là chế độ mặc định của bộ não con người".1 Rất thường xuyên, mọi người mong đợi hoặc muốn có kết quả cụ thể, sau đó tìm dữ liệu hoặc bằng chứng củng cố kết quả đó.

Khi làm việc với hoặc đánh giá dữ liệu và mô hình, có thể đến từ nhiều nguồn từ nhiều nguồn khác nhau, hãy hỏi về các nguồn thiên kiến tiềm ẩn. Ví dụ:

  • Ai sẽ tài trợ cho mô hình hoặc nghiên cứu này? Thị trường hoặc thương mại là gì ứng dụng của bạn không?
  • Những loại ưu đãi nào dành cho những người tham gia thu thập dữ liệu?
  • Những loại ưu đãi nào dành cho các nhà nghiên cứu đào tạo mô hình hoặc tiến hành nghiên cứu, bao gồm cả việc xuất bản và thâm niên?
  • Ai cấp phép cho mô hình hoặc xuất bản nghiên cứu này và họ ưu đãi?

Thống kê mô tả

Giá trị trung bình (tổng giá trị chia cho số lượng), trung bình (giá trị ở giữa, khi các giá trị được sắp xếp theo thứ tự) và mode (giá trị thường gặp nhất) thường hữu ích trong xem hình dạng của tập dữ liệu. Nếu trung vị và trung bình quá xa riêng biệt, ví dụ: có thể có các giá trị cực trị và bất đối xứng trong giá trị thiết lập.

dải_ô, là mức chênh lệch giữa giá trị cao nhất và giá trị thấp nhất, và phương sai, là chênh lệch bình phương trung bình giữa mỗi giá trị và giá trị trung bình của tập hợp, đồng thời cung cấp thông tin hữu ích về giá trị kéo dài và hình dạng của tập dữ liệu.

Trước khi huấn luyện một mô hình dựa trên dữ liệu, hãy hỏi xem tập dữ liệu có bất cân bằng và nếu có thì liệu có cần giải quyết sự mất cân bằng đó hay không.

Số xác suất có thể xảy ra và giá trị p

Khi có đủ thời gian và cơ hội đủ để xảy ra sự kiện không chắc sẽ xảy ra. Xem lý thuyết Thủ đoạn lừa đảo của nhà môi giới chứng khoán ở Bali để có một ví dụ khả thi.

Theo quan điểm khoa học thống nhất, một kết quả được coi là có ý nghĩa thống kê (và do đó có thể xuất bản) khi giá trị p nhỏ hơn 0,05. Điều đó có nghĩa là <5% khả năng kết quả tương tự hoặc một kết quả cực kỳ nghiêm trọng hơn sẽ xảy ra trong giả thuyết không rỗng—tức là, do tình cờ. Thông tục hơn, các nhà nghiên cứu chỉ có thể công bố nếu có tỷ lệ 1/20 hoặc ít hơn kết quả của chúng là kết quả của sự ngẫu nhiên. Ngoài ra, một cách đáng báo động hơn là khoảng một lần trong 20 thử nghiệm, kết quả giả sẽ xuất hiện đáng kể, mặc dù không đáng kể và 19 kết quả còn lại sẽ không đã xuất bản. Trong một bài báo năm 2005, "Tại sao hầu hết các phát hiện nghiên cứu đều là sai", John Ioannidis đã đưa ra nhiều yếu tố, từ số liệu thống kê đến tài chính, góp phần khiến công bố các kết quả giả.

Ví dụ: do có động lực mạnh mẽ để xuất bản, các nhà nghiên cứu đôi khi p-value khoảng 0,05 để giảm xuống dưới ngưỡng đó. Vào các thời điểm khác, nghiên cứu đã xuất bản kết quả, vốn được chọn một cách tự nhiên nhằm tìm ra các kết quả không mong muốn và bất thường, không thể tái tạo (và do đó có thể là kết quả tình cờ), đã dẫn đến đến tình trạng khủng hoảng niềm tin trong nhiều trường. Điều này cũng dẫn đến việc tạo ra chuyên thử nghiệm khả năng tái tạo.

Trong lĩnh vực học máy, các mô hình chỉ được xem là hiện đại nhất nếu chúng đáp ứng hoặc vượt qua điểm chuẩn đánh giá của hầu hết các mô hình cạnh tranh khác. Bây giờ những áp lực tương tự có thể xuất hiện xung quanh điểm đánh giá mô hình, điều này có thể được tăng một cách giả tạo nhờ sự cố rò rỉ điểm chuẩn.2

Giá trị P có thể hữu ích trong việc lựa chọn tính năng cho mô hình hồi quy. ANOVA (Phân tích phương sai) là phương pháp thống kê so sánh phương sai trong các nhóm tạo ra sự khác biệt giữa các nhóm, trả về một Thống kê F và giá trị p cho mỗi đối tượng. Việc chọn các tính năng quan trọng nhất có giá trị p thấp nhất có thể giảm số lượng tính năng mà một mô hình phải xem xét mà không mất đi nhiều thông tin dự đoán nguồn. Việc này vừa giúp tiết kiệm điện toán vừa tránh vấn đề có quá nhiều tính năng, được thảo luận trong phần sau. Xem Để biết thông tin chi tiết, hãy xem bài viết Hướng dẫn chọn tính năng.

Vấn đề nhiều phép so sánh

Vấn đề ngưỡng ý nghĩa đặc biệt nghiêm trọng trong những tình huống mà nhiều phép so sánh với giả thuyết không được tiến hành cùng một lúc bất cứ lúc nào. Đây là một vấn đề cụ thể trong các nghiên cứu về fMRI.

Trong fMRI, mỗi voxel (đơn vị thể tích) của não được kiểm tra độc lập về ý nghĩa thống kê hoạt động và đánh dấu nếu có. Điều này dẫn đến điều gì đó theo thứ tự 100.000 phép kiểm tra ý nghĩa độc lập được thực hiện cùng một lúc. Tại p=0,05 ngưỡng ý nghĩa, lý thuyết thống kê dự kiến có khoảng 5.000 sai dương tính xuất hiện trong một fMRI duy nhất.3

Vấn đề này có lẽ được minh hoạ rõ nhất qua nghiên cứu của Bennett và cộng sự năm 2009. áp phích, "Tương quan thần kinh của quan điểm tương quan giữa các loài cá hồi Đại Tây Dương sau khi chết," trò chơi nào giành chiến thắng Giải Nobel Ig. Các nhà nghiên cứu đã đưa ra 15 bức ảnh về con người trong những tình huống đầy cảm xúc trước con cá hồi đã chết trong máy fMRI, nhờ cá hồi chết xác định những cảm xúc mà con người trong ảnh trải qua. Họ đã tìm thấy một cụm có ý nghĩa thống kê các chất voxel hoạt động trong khoang não của cá hồi và kết thúc, lưỡi trong má, rằng con cá hồi chết thực sự đang tham gia vào việc xem xét viễn cảnh. Nghiêm trọng hơn, các nhà nghiên cứu đang chú ý đến vấn đề nhiều phép so sánh trong fMRI và các tình huống chụp ảnh tương tự và nhu cầu giảm nhẹ.

Một giải pháp rõ ràng, chi tiết là giảm giá trị p của ngưỡng cho thấy ý nghĩa. Giá trị vốn có sự đánh đổi giữa độ nhạy (thu thập được mọi kết quả dương tính thật) và độ đặc hiệu (xác định tất cả các trường hợp phủ định thực sự). Cuộc thảo luận về tính nhạy cảm, còn được gọi là tỷ lệ dương tính thực, trong mô-đun Phân loại của Khoá học nhanh về học máy.

Một biện pháp giảm thiểu khác là kiểm soát tỷ lệ lỗi phù hợp với gia đình (FWER), điều này là xác suất có ít nhất một kết quả dương tính giả. Một người khác đang điều khiển tỷ lệ phát hiện sai (FDR) hoặc tỷ lệ kết quả dương tính giả dự kiến cho mọi mặt tích cực. Xem bằng chứng trong quản trị và chính trị hướng dẫn cho bài toán nhiều phép so sánh, cũng như Lindquist và Mejia "Thiền và nghệ thuật so sánh nhiều lần," để xem nội dung giải thích về các phương pháp này và một vài hướng dẫn từng bước. Trong tình huống đó với cá hồi đã chết, việc kiểm soát FDR và FWER cho thấy không có chất voxel, trên thực tế, mang ý nghĩa thống kê.

Việc huấn luyện các mô hình học máy trên ảnh quét của fMRI và các phương pháp chụp ảnh khác ngày càng phổ biến trong lĩnh vực chẩn đoán y tế4 và trong việc lấy lại hình ảnh từ hoạt động của não bộ.5 Nếu các mô hình này được huấn luyện trên một thì điều này có thể làm giảm khả năng xảy ra sự cố từ nhiều bài toán so sánh. Tuy nhiên, đặc biệt là trong lĩnh vực chẩn đoán, mô hình có thể đưa ra suy luận không chính xác về các lần quét riêng lẻ mới nếu 20% tổng số lần quét "đang hoạt động" bài hát voxels thực sự là dương tính giả. Lưu ý rằng việc phân loại fMRI chẩn đoán các mô hình được mô tả trong Li và Zhao có độ chính xác khoảng 70-85%.

Quá nhiều biến trong dữ liệu phân tích hồi quy

Vấn đề so sánh nhiều lần mở rộng sang quy trình phân tích hồi quy nhiều lần. Phân tích hồi quy, hoặc hồi quy tuyến tính, chính là cốt lõi của nhiều mô hình dự đoán dạng số. Phân tích hồi quy sử dụng một trong nhiều phương pháp, như bình phương tối thiểu thông thường, để tìm hệ số hồi quy mô tả chính xác nhất mức độ ảnh hưởng của một biến khác. Các nhà nghiên cứu có thể hỏi xem độ tuổi và việc hút thuốc ảnh hưởng như thế nào đến tỷ lệ ung thư phổi thông qua thể hiện từng yếu tố dưới dạng một biến trong phân tích hồi quy ung thư tỷ lệ này ở người hút thuốc và người không hút thuốc ở các độ tuổi khác nhau. Mô hình hồi quy tuyến tính hoạt động theo cách tương tự và do đó đạt được có thể diễn giải so với các loại mô hình học máy khác. Tìm sự hồi quy hệ số của các biến đó sẽ mô tả mối quan hệ tuyến tính giữa các biến này và tỷ lệ ung thư phổi.

Bạn có thể muốn đưa tất cả các biến có thể có vào một phân tích hồi quy, điều quan trọng là việc không bao gồm một yếu tố quan trọng có thể dẫn đến sự đóng góp của yếu tố đó bị bỏ qua. Tuy nhiên, việc thêm quá nhiều biến vào một phân tích hồi quy làm tăng xác suất một biến không liên quan sẽ xuất hiện có ý nghĩa thống kê đáng kể. Nếu chúng ta thêm thêm 18 biến không liên quan vào phân tích của mình, như "phim đã xem" và "sở hữu chó", có thể một trong những điều đó biến không liên quan, do tình cờ, sẽ xuất hiện để liên kết với thì tỷ lệ ung thư phổi cao hơn.6

Trong bối cảnh ML, tình huống tương tự đang cung cấp quá nhiều tính năng cho mô hình phân bổ, có thể dẫn đến trang bị quá mức, v.v.

Suy luận và ra quyết định

Một cách để tránh né một số cạm bẫy tư duy này là xử lý số liệu thống kê và công nghệ học máy các mô hình có được từ số liệu thống kê làm công cụ đưa ra quyết định, thay vì trả lời câu hỏi. Đây là Jerzy Neyman và Egon Sharpe Pearson đảm nhận.7

Trong khuôn khổ này, dữ liệu, số liệu thống kê dữ liệu và các công cụ phái sinh, bao gồm cả mô hình học máy, đều phù hợp nhất để đưa ra các dự đoán mang tính xác suất, từ chối những tuyên bố chung, cải thiện và tập trung các câu hỏi nghiên cứu và hỗ trợ ra quyết định. Chúng không phù hợp lắm vì đã đưa ra những tuyên bố chắc chắn về sự thật.

Theo David Ritter, các quyết định dựa trên mối tương quan từ những lượng dữ liệu sẽ dựa trên hai yếu tố:

  • "Niềm tin rằng mối tương quan sẽ lặp lại một cách đáng tin cậy trong tương lai," thiết bị nào cả hai đều dựa trên tần suất xảy ra mối tương quan đó trong quá khứ và sự hiểu biết chính xác về nguyên nhân gây ra mối tương quan đó.
  • Rủi ro và lợi ích khi hành động.8

Tương tự, không phải câu hỏi nghiên cứu nào cũng phù hợp với AI. Anastassia Fedyk đưa ra 2 tiêu chí cho một vấn đề phù hợp với AI:

  • Bài toán này yêu cầu dự đoán chứ không hiểu được mối quan hệ nhân quả.
  • Dữ liệu được cung cấp cho AI chứa tất cả mọi thông tin cần biết về vấn đề; tức là vấn đề này độc lập.9

Tài liệu tham khảo

Bennett, Craig M., Abigail A. Baird, Michael B. Miller và George L. Sói. "Mối tương quan thần kinh của quan điểm tương quan khi xem xét sau khi thất bại Cá hồi Đại Tây Dương: Đối số cho sửa đổi nhiều phép so sánh." Neuroimage (2009).

Cairo, Alberto. Cách biểu đồ nói dối: Giúp thông tin trực quan trở nên thông minh hơn. New York: T.W. Norton, 2019.

Davenport, Thomas H. "Thông tin sơ bộ về số liệu phân tích dự đoán". Trong Hướng dẫn về dữ liệu HBR Kiến thức cơ bản về Analytics dành cho người quản lý (Boston: HBR Press, 2018) 81-86.

Ellenberg, Jordan. Cách để không mắc sai lầm: Sức mạnh của tư duy toán học. New York: Chim cánh cụt, 2014.

Fedyk, Anastassia. "Công nghệ học máy có thể giải quyết vấn đề của doanh nghiệp không?" Trong HBR Hướng dẫn về Khái niệm cơ bản về phân tích dữ liệu dành cho người quản lý (Boston: HBR Press, 2018) 111-119.

Gallo, Amy. "Ôn lại kiến thức về ý nghĩa thống kê." Trong Hướng dẫn về dữ liệu HBR Kiến thức cơ bản về Analytics dành cho người quản lý (Boston: HBR Press, 2018) 121-129.

Hừm, Darrell. Cách nói dối với số liệu thống kê. New York: W.W. Norton, 1954.

Ioannidis, John P.A. "Tại sao hầu hết các phát hiện nghiên cứu đã công bố đều là sai sự thật".. Trong PLoS Med 2 số 8: e124.

Jones, Ben. Tránh các cạm bẫy dữ liệu. Hoboken, New Jersey: Wiley, năm 2020.

Li, Khương Hưng và Peize Zhao. "Ứng dụng học sâu trong fMRI – một bài đánh giá" ICBBB 2023 (Tokyo, Nhật Bản, ngày 13-16 tháng 1 năm 2023): 75-80. https://doi.org/10.1145/3586139.3586150

Lindquist, Martin A. và Amanda Mejia. "Thiền và nghệ thuật so sánh." Y học tâm lý 77 không. 2 (Tháng 2 – Tháng 3 năm 2015): 114 – 125. doi: 10,1097/PSY.0000000000000148.

Ritter, David. "Khi nào nên hành động dựa trên mối tương quan và khi nào không nên". Trong Hướng dẫn về HBR để Kiến thức cơ bản về phân tích dữ liệu dành cho người quản lý (Boston: HBR Press, 2018) 103-109.

Tagaki, Yu và Shinji Nishimoto. "Tái tạo hình ảnh có độ phân giải cao bằng các mô hình khuếch tán tiềm ẩn từ hoạt động của não người." Hội nghị IEEE/CVF 2023 về Tầm nhìn máy tính và công nghệ nhận dạng mẫu (Vancouver, BC, Canada, 2023): 14453-14463. doi: 10.1109/CVPR52729.2023.01389.

Wheelan, Charles. Dữ liệu thống kê không rõ ràng: Loại bỏ dữ liệu đáng sợ khỏi dữ liệu. New York: T.W. Norton, 2013

Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Vinh Xin Zhao, Xu Chen, Yankai Lin, Ji-Rong Wen và Jiawei Han. "Đừng đặt LLM của bạn làm công cụ đánh giá điểm chuẩn đánh giá." arXiv:2311.01964 cs.CL.


  1. Cairo 182. 

  2. Zhou và đồng sự

  3. Lindquist và Mejia. 

  4. Li và Zhao 77-78. 

  5. Tagaki và Nishimoto. 

  6. Bánh xe 221. 

  7. Ellenberg 159. 

  8. Máy quét 104. 

  9. Fedyk 113.