분석 트랩

"모든 모델이 잘못되었지만 유용한 모델도 있습니다." — 조지 박스, 1978년

통계 기법은 강력하지만 한계가 있습니다. 이해 이러한 한계는 연구자가 실수와 부정확한 주장을 방지하는 데 도움이 될 수 있습니다. BF Skinner가 셰익스피어의 표현이 반복 사용된 모든 반복 표현을 예측하도록 하는 것입니다. (스키너의 연구는 성능이 낮음.1)

불확실성 및 오류 막대

분석에서 불확실성을 지정하는 것이 중요합니다. 마찬가지로 다른 사람의 분석의 불확실성을 수치화할 수 있습니다. 표시되는 데이터 포인트 그래프에 추세를 표시할 수 있지만 오류 막대가 겹치면 어떤 패턴도 가능합니다. 불확실성이 너무 높아서 유용한 결과를 도출하지 못할 수도 있음 특정 연구 또는 통계적 검증의 결론 연구 조사가 불확실성이 +/- 500m인 지리정보 데이터 세트인 로트 수준의 정확성 필요 불확실성이 너무 커서 사용할 수 없다는 것입니다.

반면 불확실성 수준은 의사 결정 과정에 유용할 수 있습니다. 프로세스입니다 불확실성이 20% 인 특정 수처리를 뒷받침하는 데이터는 그 결과는 해당 물을 사용하는 것에 대한 권장 사항으로 이어질 수 있습니다. 불확실성을 해소하기 위해 프로그램을 지속적으로 모니터링했습니다.

베이즈 신경망 단일 데이터 대신 값의 분포를 예측하여 불확실성을 수치화할 수 있음 값으로 사용됩니다.

관련성이 없음

소개에서 논의했듯이, 둘 사이에는 항상 정답이 될 수 있습니다 기민한 ML 실무자는 ML 모델을 학습시키고 배포하는 데 데이터 세트가 질문하는 질문과 관련이 있습니다.

허프(Huff)는 미국인들이 백인을 사귀고 있다고 해서 흑인 미국인들이 얼마나 쉽게 좋은 일을 할 수 있었는지에 대한 답은 장애 아동 및 청소년의 삶과 반비례 관계에 동정심을 표합니다 인종 아니무스가 증가함에 따라 기대되는 경제적 기회에 대한 응답이 점점 더 많아지고 있음 낙관적입니다. 이는 발전의 신호로 잘못 이해했을 수 있습니다. 그러나 이 연구에서는 실제 인간의 생존에 대한 경제적 기회를 누리지 못했고 취업 시장의 현실에 대한 결론을 도출하는 데 적합하며 설문조사 응답자의 의견입니다. 수집된 데이터 실제로 취업 시장의 상태와 관련이 없었습니다.2

위에서 설명한 것과 같은 설문조사 데이터로 모델을 학습시킬 수 있습니다. 출력은 실제로 기회가 아닌 낙관론을 측정합니다. 하지만 예측 기회는 실제 기회와 관련이 없습니다. 모델이 실제 기회를 예측한다고 주장했다면 모델이 예측한 것을 허위로 진술

혼란

혼동 변수, 혼동 또는 공인은 변수입니다. 연구 중이 아님 영향을 미치고 결과를 왜곡할 수 있습니다. 예를 들어 입력 데이터의 사망률을 예측하는 ML 모델이 있다고 가정해 보겠습니다. 10억 개가 넘는 국가에서 한 걸음 더 나아간 것입니다. 중앙값이 연령은 특성이 아닙니다. 또한 일부 국가가 더 오래된 . 중앙값 연령의 혼란 변수를 무시함으로써 잘못하여 사망률을 예측할 수 있습니다

미국에서는 인종과 사회경제 사이의 밀접한 상관관계가 있는 경우가 많음 클래스가 아닌 인종만) 사망률 데이터와 함께 기록됩니다. 보건, 영양, 위험한 업무, 안전이 보장된 주택은 인종보다 사망률에 더 큰 영향을 미칠 수 있습니다 데이터 세트에 포함되지 않으므로 무시되어야 합니다.3 식별 이러한 혼란을 통제하고 통제하는 것은 유용한 모델을 구축하는 데 의미 있고 정확한 결론 도출

모델이 기존의 사망률 데이터(인종은 포함하지만 클래스가 더 강하더라도 인종에 따라 사망률을 예측할 수 있습니다. 사망률의 예측자입니다. 이로 인해 인과관계 및 환자 사망률에 대한 부정확한 예측을 제공합니다. ML 실무자 데이터에 혼란이 존재하는지, 어떤 의미가 있는지 변수가 데이터 세트에서 누락될 수 있습니다.

1985년, 간호사는 Health Study(하버드 대학교 관찰 동질 집단 연구) 의과대학과 하버드 공중보건대학원(Harvard School of Public Health)에서는 에스트로겐 대체 요법을 받은 경우 심장마비 발생률이 낮았습니다. 2019년 3분기에 한 번도 에스트로겐과 같습니다. 그 결과 의사들은 폐경기 및 폐경후기 환자들을 위해 연구해 왔습니다. 2002년에 장기적인 에스트로겐 요법으로 유발된 건강상의 위험이 확인되었습니다. 실천 폐경 후 여성에게 에스트로겐 처방을 받았지만, 그 이전에는 추산됩니다.

여러 혼동으로 인해 연관성이 발생했을 수 있습니다. 전염병 연구 결과 발견 호르몬 대체 요법을 받지 않는 여성과 비교했을 때 더 말랐고, 교육 수준이 높았고, 부유하고, 건강을 더 의식하는 경향이 있습니다. 운동할 가능성이 커진다고 합니다. 다른 연구에서는 교육과 재산이 심장 질환 위험을 줄여준다는 사실이 밝혀졌습니다. 이러한 영향으로 인해 에스트로겐 요법과 심장마비 사이의 명백한 상관관계를 밝혔습니다.4

음수가 있는 백분율

음수가 있을 때는 백분율을 사용하지 마세요.5 모호해질 수 있습니다 간단한 예를 들어 레스토랑 업계에는 2백만 개의 일자리가 있다고 생각합니다. 산업이 1 2020년 3월 말 기준 10개 일자리 중 10개 일자리의 순 변화가 2021년 2월 초에 전년 대비 90만 개의 일자리를 2021년 3월 초의 레스토랑 일자리 감소율은 5% 에 불과한 것으로 나타났습니다. 다른 변화가 없다고 가정하고 2월 말 전년 대비 비교 2022년에는 레스토랑 일자리가 90% 증가할 것으로 예상되며 이는 보여 드리겠습니다.

적절히 정규화된 실제 숫자를 사용합니다. 자세한 내용은 숫자를 사용하여 작업하기 Cata 확인하세요.

사후 오류 및 사용할 수 없는 상관관계

사후 오류는 이벤트 A 뒤에 이벤트 A로 인해 이벤트 B가 발생했음을 의미합니다. 간단히 말해서 이는 인과관계가 존재하지 않는 것입니다. 더 간단히 설명하면 다음과 같습니다. 상관 관계는 인과관계를 증명하지 못합니다.

명확한 인과 관계 외에도 상관관계는 발생:

  • 순수한 확률 (Tyler Vigen의 가짜 상관관계 이혼율과 이혼율 간의 밀접한 상관관계를 포함하여 (메인 및 마가린 소비)
  • 두 변수 간의 실제 관계 어떤 변수가 영향을 받는지 예측할 수 있습니다
  • 세 번째는 두 변수에 모두 영향을 미치는 별개의 원인이지만 상관관계가 있는 변수는 서로 관련이 없습니다. 세계 인플레이션, 요트와 셀러리의 가격을 모두 인상할 수 있습니다.6

또한 기존 데이터에 대한 상관관계를 추론하는 것도 위험합니다. 비가 오면 농작물은 좋아지지만 너무 많은 비가 오면 손해가 발생한다고 말합니다. 그들 비와 작물 수확량 간의 관계는 비선형적입니다.7 다음 두 섹션에서 비선형 관계에 대해 자세히 알아보세요.) 존스가 참여한 영화 세상은 예측할 수 없는 사건으로 가득 차 있으며 전쟁과 기근처럼 시계열 데이터의 미래 예측을 대단한 불확실성입니다.8

더욱이 원인과 결과에 근거한 진정한 상관관계가 있다고 해도 결정을 내리는 데 도움이 됩니다. 예를 들어, 허프는 결혼 생활 및 대학 교육에 대해 이야기했습니다. 출신 여성 대학에서 결혼할 확률이 낮았지만 그것으로 인해 대학에 진학한 여성은 처음부터 결혼을 할 가능성이 낮다는 것을 발견했습니다. 그렇다면 대학 교육으로 인해 입학 진전이 가장 높습니다.9

분석이 데이터 세트에서 두 변수 간의 상관관계를 감지하면 다음과 같이 질문합니다.

  • 어떤 종류의 상관 관계인가요? 원인과 결과, 허위, 알 수 없음 아니면 세 번째 변수 때문에 발생했는가?
  • 데이터에서 추론하는 것이 얼마나 위험합니까? 데이터에 대한 모든 모델 예측 사실상 보간 또는 추출해야 합니다.
  • 상관관계를 사용하여 유용한 결정을 내릴 수 있는가? 예를 들어 낙관주의는 임금 인상과 밀접한 상관관계를 가질 수 있지만 소셜 미디어와 같은 대규모 텍스트 데이터 코퍼스의 감정 분석 특정 국가의 사용자가 게시한 게시물을 기반으로 하는 임금 인상을 확인할 수 있습니다.

모델을 학습시킬 때 ML 실무자는 일반적으로 밀접하게 연관되어 있음을 보여줍니다. 특성 간의 관계가 라벨을 잘 이해하지 못하는 경우 설명된 문제가 발생할 수 있습니다 여기에는 가상 상관관계에 기반한 모델과 과거의 추세가 미래에도 계속될 것이라고 가정하는 없습니다.

선형 편향

포함 '비선형적 세계에서 선형적 사고' Bart de Langhe, Stefano Puntoni, 그리고 리처드 라릭은 선형 편향을 선형 관계를 기대하고 찾는 인간의 두뇌가 많은 현상은 비선형입니다. 인간의 태도와 행동의 관계는 예를 들어 선이 아닌 볼록 곡선입니다. 2007년 Journal of Journal 데 랑게 외 다수가 인용한 소비자 정책 논문 제니 반 두른 외 설문 조사 응답자 간의 관계를 모델링했으며 문제가 발생할 경우 응답자들이 유기농 제품의 구매 이 유기농 제품을 더 많이 구입하는 환경에 대한 가장 극단적인 우려, 정말 놀라운 일들이 있었죠. 차이가 거의 없음을 나타냅니다.

유기농 제품 구매와 환경 문제 점수 비교
  오른쪽 끝이 뾰족한 볼록 곡선을 그리는 대부분 평평한 선을 보여줌
반 도른 외(van Doorn)와 자료

모델 또는 연구를 설계할 때 비선형적 가능성 고려 관계를 맺을 수 있습니다. A/B 테스트로 인해 비선형 관계를 놓칠 수 있으므로 세 번째 중간 분포도 조건, C. 또한 초기 동작이 나타나는지 아니면 미래의 데이터가 계속 선형이 될지 로그 또는 기타 비선형적 동작을 더 많이 표시할 수 있습니다.

첫 번째 데이터에 적합함을 보여주는 로그 데이터에 대한 선형 적합
  그 이후에는 점점 더 적합하지 않은 상태가 될 수 있습니다.
대수 데이터에 대한 잘못된 선형적 적합성의 예

이 가상의 예는 로그 데이터에 대한 잘못된 선형 적합도를 보여줍니다. 처음 몇 개의 데이터 포인트만 사용할 수 있다면 둘 다 변수 간에 지속적인 선형 관계를 가정하는 것은 잘못된 것입니다.

선형 보간 유형

데이터 점 사이의 보간 유형 검사(보간은 가상의 지점이 발생하며 실제 측정 간의 간격은 의미 있는 변동이 있을 수 있습니다 예를 들어 다음을 고려해 보세요. 선형 보간법으로 연결된 네 개의 데이터 포인트를 시각화한 것입니다.

직선으로 연결된 네 개의 점을 보여주는 시간에 따른 진폭입니다.
선형 보간 유형 예

그런 다음 서로 다른 데이터 포인트 사이의 변동 예를 지울 수 있습니다.

이전과 같은 포인트이지만 2번째 포인트와 세 번째 포인트 사이에 큰 변동이 있습니다.
데이터 포인트 간의 의미 있는 변동 (지진)의 예

지진계는 연속 데이터를 수집하므로 놓칠 수 없겠죠. 하지만 Kubernetes에서 보간으로 이루어진 가정, 그리고 데이터가 입력되는 데이터를 놓칠 수 있습니다

룽게의 현상

렁지 현상뿐만 아니라 '다항식 흔들기'로 알려져 있으며, 인코더-디코더 모델의 스펙트럼과 스펙트럼을 변환할 수 있습니다. 다항식을 맞출 때 너무 높은 차수가 포함된 다항식을 사용할 수 있습니다. (차수 또는 순서로서 다항 방정식에서 가장 높은 지수). 이 가장자리에 홀수 진동이 생깁니다. 예를 들어 차수 11의 다항식 보간법으로, 대략 선형 데이터가 되도록 \(x^{11}\)를 갖는 다항 방정식의 결과는 다음과 같습니다. 예측이 매우 잘못되었다는 것을 데이터 범위:

거의 선형
  11차 다항식 보간법으로 맞춘 데이터로
  처음 두 데이터 포인트 사이의 급격한 상승 및 하향 급증
  마지막 두 데이터 포인트 사이
다항식 흔들기의 예

ML 컨텍스트에서 이와 유사한 현상은 과적합입니다.

감지해야 할 통계적 실패

때로는 통계 테스트가 너무 성능이 부족하여 특정 측정항목을 감지할 수 없을 수도 있습니다. 작은 효과입니다. 통계 분석의 낮은 전력은 거짓음성의 확률이 높기 때문입니다 캐서린 버튼 외 은 자연: '특정 분야의 연구가 20%의 거듭제곱으로 설계되었다는 것은 null이 아닌 100개의 이 연구를 통해 밝혀질 것으로 예상되는 효과는 겨우 20개 정도였죠." 샘플 크기를 키워도 도움이 될 수 있으므로 연구 설계를 살펴봤습니다

ML과 유사한 상황은 분류와 분류 임곗값을 선택할 수 있습니다. 더 높은 임곗값을 선택하면 거짓양성이 적고 거짓음성이 많으며 임계값이 낮습니다. 거짓양성과 거짓음성은 더 적습니다

통계적 검증 문제 외에도 상관관계는 선형 관계, 선형 회귀 사이의 비선형 상관관계를 누락될 수 있습니다 마찬가지로 변수는 통계적으로 상관관계가 없는 것을 볼 수 있습니다. 변수는 음의 상관관계가 있지만 전혀 관련이 없는 것으로 알려져 있습니다. 베르크슨의 역설 또는 베르크슨의 오류 버크슨 연구의 전형적인 예는 오류는 실험에서 발생한 위험과 병원 입원 환자 집단 (예: 이는 선택 과정( 입원이 필요할 정도로 심각한 경우).

다음 상황에 해당하는지 고려하세요.

오래된 모델 및 잘못된 가정

아무리 좋은 모델이라도 시간이 지나면서 성능이 저하될 수 있습니다. 왜냐하면 행동 (그리고 세상과 변경될 수 있습니다. Netflix의 초기 예측 모델은 고객층이 젊고 기술에 능통한 사용자에서 일반 사용자로 있습니다.10

또한 모델에 숨겨져 있는 조용하고 부정확한 가정이 포함될 수 있습니다. 모델을 학습시키는 데 도움이 되었습니다. 이 금융 산업의 위험 가치 (VaR) 모델을 투자자 포트폴리오에서 $100,000는 99% 의 확률로 예상됩니다. 하지만 비정상적 상황에서는 최대 $100,000의 손실이 예상되는 포트폴리오 때때로 잃음 $1,000,000 이상

VaR 모델은 다음과 같은 잘못된 가정을 기반으로 했습니다.

  • 과거의 시장 변화는 향후 시장 변화를 예측합니다.
  • 일반적인 (얇은 꼬리가 있어 예측 가능한) 분포가 예상 수익의 근간이 됩니다
가우시안 분포와 비슷하며 k=1, k=.2이고 k=5인 폰 미제스 분포입니다.
높은 K에서 얇은 꼬리를, 낮은 K에서 뚱뚱한 꼬리가 있는 폰 미세스 분포 그래프

사실, 근본적인 분포는 뚱뚱한 꼬리가 있는 '야생'이고 프랙탈, 이는 롱테일, 극단적인 문제가 발생할 가능성이 훨씬 더 높았다는 것을 의미합니다. 더 희귀한 이벤트일 수 있습니다. 꼬리의 특성은 실제 분포는 잘 알려져 있었지만 조치를 취하지 않았습니다. 실적이 낮았던 부분 인코더-디코더 아키텍처를 포함한 다양한 현상이 얼마나 복잡하고 밀접하게 연관되어 있는지 컴퓨터 기반 거래를 통한 자동 판매11

집계 문제

대부분의 인구통계 및 역학을 포함하는 집계된 데이터 특정 함정에 놓일 수 있기 때문입니다. 심슨의 역설 또는 금수의 역설은 뚜렷한 추세가 나타나지 않는 집계 데이터에서 발생합니다. 다시 말해 데이터가 다른 수준에서 집계된 경우 인과관계를 잘못 이해하는 것이 중요합니다.

생태적 오류는 생물학적 사물에 대한 정보를 잘못 추정하는 다른 집계 수준에서의 모집단을 구분할 수 있습니다. 소유권 주장이 유효하지 않을 수 있습니다. 독일 농업 종사자의 40% 가 질환을 앓고 있는 한 쪽이 다른 대륙에서도 동일한 보급률을 보일 수는 없지만 있습니다. 또한 고립된 농장이나 해당 주의 농촌 마을 중 비슷하지 않은 농촌 도시 알려 드리겠습니다. 영향을 받지 않는 사람들에게 유병률이 40% 라고 가정 오류가 있는 것입니다.

수정 가능한 면적 단위 문제 (MAUP)는 지리 공간 데이터(1984년 Stan Openshaw가 CATMOG 38을 참조하세요. 자르는 데 사용되는 영역의 모양과 크기에 따라 지리정보 데이터 실무자는 데이터를 집계하는 데 사용할 수 있는 거의 모든 상관관계를 분석합니다. 그림 투표 특정 정당 또는 다른 정당에 우호적인 선거구는 MAUP의 예입니다.

이 모든 상황은 모두 하나의 데이터에서 부적절한 추정을 다른 집계 수준으로 변경합니다. 분석 수준에 따라 전혀 다른 데이터 세트일 수도 있습니다.12

인구 조사, 인구통계, 역학 데이터는 일반적으로 개인 정보 보호를 위해 영역별로 집계되며 이러한 영역은 즉, 의미 있는 실제 경계를 기반으로 하지 않는 것입니다. 날짜 이러한 유형의 데이터로 작업할 때 ML 실무자는 모델이 데이터 레이크에 영역(zone)의 크기와 모양에 따라 성능 및 예측이 달라집니다. 집계 수준, 그리고 만약 그렇다면 모델 예측이 영향을 받는지 확인합니다

참조

버튼, 캐서린 외 "전원 장애: 표본 크기가 작을 경우 신경과학의 신뢰성을 믿습니다." 자연 Reviews Neuroscience권 14 (2013), 365~376. DOI: https://doi.org/10.1038/nrn3475

카이로, 알베르토 차트의 거짓말: 시각적 정보에 대해 스마트하게 활용하기 뉴욕: W.W. Norton, 2019년.

대븐포트, 토마스 H. "예측 분석 입문서." HBR Guide to Data(데이터에 대한 HBR 가이드) 관리자를 위한 애널리틱스 기본사항 (Boston: HBR Press, 2018) 81-86.

드 랑게, 바트, 스테파노 푼토니, 리차드 라릭입니다. '비선형적 세계에서 선형적 사고' 관리자를 위한 데이터 분석 기본사항에 대한 HBR 가이드 (Boston: HBR Press, 2018년) 131~154.

요르단 엘렌버그 잘못된 방법: 수학적 사고의 힘 뉴욕: 펭귄, 2014년.

허프, 대럴. 통계적으로 거짓말하는 방법. 뉴욕: W.W. 노턴, 1954년.

존스, 벤. 데이터 문제 방지. Hoboken, NJ: Wiley, 2020년.

Openshaw, Stan. "수정 가능한 영역 단위 문제"는 CATMOG 38 (영국 노리치: Geo Books 1984) 37.

금융 모델링의 위험: VaR 및 경제적 멜트다운, 제111대 의회 (2009) (나심 N. Taleb 및 Rich Bookstaber).

리터, 데이비드. “연관 관계에 대해 조치를 취해야 할 때와 그렇지 않을 때.” HBR 가이드에서 관리자를 위한 데이터 분석 기본사항 (Boston: HBR Press, 2018) 103-109.

툴친스키, 시어도어 H., 엘레나 A. 바라비코바. '3장: 인구 건강 측정, 모니터링, 평가' The New Public Health, 3rd ed. San Diego: Academic Press, 2014년, pp 91-147. DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

반 두른, 제니, 피터 C. Verhoef, Tammo H. A. Bijmolt에서 사용 가능합니다. "데이터 애널리스트의 정책에서 태도와 행동의 비선형 관계 연구할 수 있어." Journal of Consumer Policy, 30 (2007) 75~90. DOI: https://doi.org/10.1007/s10603-007-9028-3

이미지 참조

'Von Mises Distribution'을 기반으로 함. Rainald62, 2018년. 소스


  1. 엘렌버그 125. 

  2. 77~79 허프. 허프는 프린스턴대학의 여론조사국을 인용했지만 그는 아마도 그는 1944년 4월 보고서 작성한 논문입니다. 

  3. 툴친스키와 바라비코바. 

  4. 게리 타우베스, 우리가 건강에 어떤 것이 있는지 실제로 알고 있나요?" 2007년 9월 16일, The New York Times 매거진에 기고했습니다. 

  5. 엘렌버그 78. 

  6. 91-92 허프. 

  7. 허프 93. 

  8. Jones 157-167. 

  9. 허프 95. 

  10. 대븐포트 84. 

  11. 나심 N. Taleb과 Rich Bookstaber, The Risks of Financial Modeling: VaR and the Economic Meltdown, 111th Congress (2009) 11-67. 

  12. 카이로 155, 162.