생각하는 함정

인간은 다음과 같은 인간으로서의 인지편향에 의해 영향을 받습니다. 합리화와 확증 편향입니다. Alberto Cairo는 "합리화는 인간의 뇌의 기본 모드입니다."라고 말합니다.1 많은 경우 사람들은 해당 결과를 뒷받침하는 데이터나 증거를 찾아보세요.

데이터와 모델을 다루거나 평가할 때 편견의 잠재적 원인에 대해 질문하세요 예를 들면 다음과 같습니다.

  • 이 모델 또는 연구에 자금을 제공하는 사람은 누구인가요? 시장 또는 상업 무엇인가요?
  • 데이터 수집과 관련된 사람들에게는 어떤 종류의 인센티브가 제공됩니까?
  • 모델을 학습시키는 연구원에게 어떤 종류의 인센티브가 있는지 또는 연구 수행에 도움이 되는가?
  • 모델 라이선스를 제공하거나 연구를 게시하는 사람은 누구이며 인센티브

설명 통계

평균 (값의 합계를 개수로 나눈 값), 중앙값 (중간값, 값이 정렬되고) 모드 (가장 빈번한 값)가 일반적으로 데이터 세트의 형태를 파악하는 과정입니다. 중앙값과 평균이 차이가 나는 경우 그 외에, 예를 들어, 주어진 신경망에 극단적인 비대칭 값이 있을 수 있습니다.

범위: 최댓값과 최솟값 간의 차이 평균 제곱 차이인 분산 정확한 값을 파악할 수 있도록 해주는 유용한 정보도 제공합니다 데이터 세트의 형태와 분포도입니다.

데이터로 모델을 학습시키기 전에 데이터 세트가 불균형 그리고 만약 가능하다면 그 불균형을 해결해야 하는지를 판단할 수 있습니다.

확률 확률 및 p값

충분한 시간과 기회가 주어지면 발생 가능성이 매우 높아집니다. 자세한 내용은 볼티모어 주식 중개인 사기 한 가지 예로 들어 보겠습니다.

과학적 합의에 따라 결과가 통계적으로 유의미한 것으로 간주되고 p값이 0 .05 미만인 경우 게시 가능)입니다. 즉, 동일한 결과 또는 극단적인 상황이 발생할 확률은 5% 미만입니다. 무가설 — 우연의 결과인 가설입니다. 좀 더 구어로 하자면 연구자가 게시할 수 있는 확률이 결과는 무작위성의 결과입니다. 이와 반대로 더 놀랍게도 20번 정도의 실험 중 1회 정도 하는 경우 가짜 결과는 중요하지만 나머지 19개 결과는 게시되었습니다. 2005년 논문에서는 '대부분의 연구 결과가 거짓인 이유' John Ioannidis는 통계부터 허위 결과를 발표하는 데 기여했습니다.

예를 들어, 게시에 대한 강력한 동기가 있기 때문에 연구자들은 때때로 이 임곗값 아래로 떨어질 수 있습니다 기타 경우, 게시된 연구 예기치 않은 비정상적인 결과를 자연스럽게 선택하는 경우 반복 불가능해야 하며 (따라서 우연히 일어난 결과) 신뢰의 위기에 대응 여러 필드에 사용할 수 있습니다. 또한 재현성 테스트에 전념하는 조직입니다.

ML 분야에서는 모델이 고급 모델이라고 부르는 다른 경쟁 모델의 평가 벤치마크를 능가하는 것으로 나타났습니다. 그것은 모델 평가 점수에 대해서도 유사한 압박이 발생할 수 있습니다. 벤치마크 유출로 인해 인위적으로 증가할 수 있음2

p값은 회귀 모델의 특성 선택에 유용할 수 있습니다. ANOVA (분산 분석)은 한 문장의 다른 단어와 그룹 내 편차를 그룹 간 분산으로 변환하면 각 특성의 F-통계 및 p-값 p값이 가장 낮은 가장 중요한 특성을 선택하면 예측해야 할 특성의 개수를 크게 잃지 않으면서도 거듭제곱합니다 이렇게 하면 컴퓨팅이 절약되고 너무 많은 특성 문제가 방지됩니다. 나중에 설명하겠습니다 scikit' 자세한 내용은 특성 선택 가이드를 참조하세요.

다중 비교 문제

중요도-임곗값 문제는 다음과 같은 상황에서 특히 심각합니다. 동일한 시점에서 귀무 가설에 대한 여러 비교를 수행하는 경우 있습니다. 이는 fMRI 연구의 특별한 문제입니다.

fMRI에서 각 복셀은 뇌의 (볼륨 단위)를 통해 통계적으로 유의미한지 독립적으로 테스트 해당 활동이 있는 경우 강조 표시됩니다. 이것은 한 번에 100,000건의 독립적인 유의성 테스트 수행 p=0.05일 때 통계 이론에 약 5,000개의 거짓이 예상됨 양성의 수를 측정합니다.3

이 문제는 2009년 Bennett 외 다수가 이 문제를 가장 잘 설명했을 것입니다. 포스터, "사후 대서양 연어를 살펴보는 종 간 관점의 신경 상관 관계," 이 게임으로 Ig(노벨상 수상) 연구자들은 우주에서 벌어지는 은퇴를 알리는 매우 감정적인 상황에 있는 인간을 fMRI 기계의 죽은 연어에 이르기까지, 죽은 연어에게 그림에 나타난 인간의 감정을 알아내달라고 했습니다. 진실을 깨달았습니다. 통계적으로 유의미한 클러스터를 찾았고 활성 복셀이 연어 뇌속에 들어있는 것을 막을 수 있으며, 죽은 연어가 실제로 관점을 살펴보는 데 참여했다는 것을 알 수 있었습니다. 더 심각하게 연구자들은 이 연구의 다중 비교 문제에 대해 주의를 환기하고 fMRI 및 유사한 영상 상황, 완화의 필요성에 관한 것입니다.

명확하고 대략적인 솔루션 중요도를 나타내는 임곗값 p값을 낮추는 것입니다. 본질적인 민감도 (모든 참양성 포착)와 특이성 사이의 균형 (모든 참음성 식별) 감도에 대한 논의(또는 참양성률 이는 분류 모듈에서 확인할 수 있습니다. 머신러닝 단기집중과정을 마쳤습니다

또 다른 완화 방법은 가족별 오류율 (FWER)을 제어하는 것입니다. 한 개 이상의 거짓양성이 발생할 확률입니다. 다른 하나는 거짓 발견률 (FDR) 또는 예상 거짓양성 비율 양성입니다. '거버넌스 및 정치'의 증거를 확인해 보세요 다중 비교 문제 가이드 린드퀴스트와 메지아의 '선과 다중 비교의 기술' 에서 이러한 메서드에 관한 설명과 몇 가지 둘러보기를 확인하세요. 상황 FDR과 FWER를 통제한 결과 복셀이 하나도 없다는 것을 통계적으로 유의미합니다.

fMRI 및 기타 영상 방법을 통한 스캔으로 ML 모델을 학습시키는 경우가 점점 더 많아지고 있습니다. 의학적 진단 분야4와 이미지 재구성 분야에서 해답을 찾을 수 있습니다.5 이러한 모델이 충분히 큰 이를 통해 여러 실험에서 문제가 발생할 가능성을 줄일 수 있습니다 제공합니다. 그러나 특히 진단 영역에서 모델은 '활성' 상태의 20% 가 스캔되면 새로운 개별 스캔에 대해 부정확한 추론을 할 수 있습니다. 복셀 거짓양성인지 확인할 수 있습니다 fMRI 진단 분류는 Li와 Zhao에 설명된 모델의 정확성은 약 70~85% 입니다.

회귀 분석에 변수가 너무 많음

다중 비교 문제가 다중 회귀 분석으로 확장됩니다. 회귀 분석, 선형 회귀 많은 수치 예측 모델의 핵심입니다. 회귀 분석은 보통 최소 제곱, 하나의 변수가 모델에 미치는 영향을 가장 잘 설명하는 회귀 계수 찾기 있습니다. 연구자들은 흡연 능력이 폐암 발병률에 어떤 영향을 미치는지 암 회귀 분석에서 각 인자를 변수로 표현 다양한 연령대의 흡연자 및 비흡연자 발병률 선형 회귀 모델 거의 같은 방식으로 작동하므로 해석할 수 있는 다른 ML 모델과 비교할 수 있습니다 회귀 찾기 이러한 변수의 계수는 변이와 직선 사이의 선형 관계를 폐암 발생률을 살펴볼 것입니다

회귀 분석에 가능한 모든 변수를 포함하고 싶을 수 있지만 이는 중요한 요소를 포함하지 않는 경우 그 기여로 이어질 수 있기 때문입니다. 간과되고 있습니다. 하지만 회귀 분석에 변수를 너무 많이 추가하면 관련이 없는 변수가 통계적으로 나타날 가능성을 높임 크게 다르지 않습니다 분석에 관련성 없는 변수를 18개 더 추가하면 '시청한 영화' '애완견 소유'를 선택하면 그 중 하나가 관련이 없는 변수는 우연히 말하자면 폐암 발병률 증가6

ML 맥락에서 이와 유사한 상황은 머신러닝 모델에 너무 많은 특성을 모델을 학습시켜서 과적합, 가장 큰 문제점이 될 수 있습니다

추론 및 의사 결정

이러한 사고의 함정을 피하는 한 가지 방법은 통계와 ML을 운용하는 것입니다. 의사결정을 위한 도구로서 통계에서 파생된 모델 질문에 답하기보다는 이것이 바로 저지 네이먼과 에곤 샤프 피어슨이 촬영한 포지션7

이 프레임워크에서는 ML 모델을 비롯한 데이터, 데이터 통계, 파생물, 확률적 예측을 수행하는 데 가장 적합하며 보편적인 명제를 반증하고, 문제를 개선하고 리서치 질문, 의사결정 지원 등이 포함됩니다. 잘 맞지 않음 진실에 대해 긍정적으로 주장하기 위해 노력합니다

데이비드 리터(David Ritter)에 따르면 엄청난 수의 인구 집단과 데이터의 양은 다음 두 가지 요소를 기반으로 해야 합니다.

  • "상관관계가 미래에 안정적으로 반복될 것이라는 확신" 어떤 한 시간 동안 해당 상관관계가 발생한 빈도와 해당 상관관계를 유발하는 원인을 정확하게 이해할 수 있습니다.
  • 행동으로 인한 위험과 보상8

마찬가지로 모든 연구 질문이 AI에 적합한 것은 아닙니다. 아나스타샤 Fedyk은 AI에 적합한 문제에 대한 두 가지 기준을 제공합니다.

  • 이 문제에는 인과 관계를 이해하는 것이 아니라 예측이 필요합니다.
  • AI에 제공되는 데이터에는 문제가 될 수 있습니다. 즉, 문제가 독립적이어야 합니다.9

참조

베넷, 크레이그 M., 아비가일 A. 베어드, 마이클 B. 밀러, 조지 L. 울포드입니다. "사후 분석을 수행하는 종 간 관점의 신경 상관관계 Atlantic Salmon: 다중 비교 정정에 대한 논쟁." Neuroimage (2009년).

카이로, 알베르토 차트의 거짓말: 시각적 정보에 대해 스마트하게 활용하기 뉴욕: W.W. Norton, 2019년.

대븐포트, 토마스 H. "예측 분석 입문서." HBR Guide to Data(데이터에 대한 HBR 가이드) 관리자를 위한 애널리틱스 기본사항 (Boston: HBR Press, 2018) 81-86.

요르단 엘렌버그 잘못된 방법: 수학적 사고의 힘 뉴욕: 펭귄, 2014년.

페딕, 아나스타샤. "머신러닝이 비즈니스 문제를 해결할 수 있나요?" HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018) 111-119.

갤로, 에이미. "통계적 유의성에 대한 복습." HBR Guide to Data(데이터에 대한 HBR 가이드) 관리자를 위한 애널리틱스 기본사항 (Boston: HBR Press, 2018) 121-129.

허프, 대럴. 통계적으로 거짓말하는 방법. 뉴욕: W.W. 노턴, 1954년.

이오아니디스, 존 P.A. 'Why 대부분의 게시된 연구 결과가 거짓인 이유'. PLoS Med 2. 8: e124.

존스, 벤. 데이터 문제 방지. Hoboken, NJ: Wiley, 2020년.

Li, Jiangxue, Peize Zhao 'Deep learning Applications in fMRI – a Review Work' ICBBB 2023 (일본 도쿄, 2023년 1월 13~16일): 75~80. https://doi.org/10.1145/3586139.3586150

린드퀴스트, 마틴 A. 및 아만다 메지아 '선과 다중 비교의 기술' Psychosomatic Medicine 77호 2 (2015년 2월~3월): 114–125. 도이: 10.1097/PSY.0000000000000148입니다.

리터, 데이비드. “연관 관계에 대해 조치를 취해야 할 때와 그렇지 않을 때.” HBR 가이드에서 관리자를 위한 데이터 분석 기본사항 (Boston: HBR Press, 2018) 103-109.

다가키, 유, 니시모토 신지 "인간 뇌 활동의 잠재 확산 모델을 사용한 고해상도 이미지 재구성입니다." 2023년 IEEE/CVF 컨퍼런스 컴퓨터 비전 및 패턴 인식 (Vancouver, BC, Canada, 2023년): 14453-14463입니다. doi: 10.1109/CVPR52729.2023.01389).

윌란, 찰스. 기본 통계: 데이터에서 두려움 없애기 뉴욕: W.W. Norton, 2013년

Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen, 얀카이 린, 지롱 웬, 지아웨이 한입니다. "LLM을 평가 벤치마크로 악용하지 마세요." arXiv:2311.01964 cs.CL입니다.


  1. 카이로 182. 

  2. 저우 외.

  3. 린드퀴스트와 메히아 

  4. Li and Zhao 77-78. 

  5. 다가키와 니시모토입니다. 

  6. Wheelan 221. 

  7. 엘렌버그 159. 

  8. 리터 104. 

  9. 페딕 113입니다.