요약

이 과정에서는 데이터 세트 품질부터 데이터 세트 품질, 시각화 및 통계 분석에 이르기까지 다양합니다.

ML 실무자가 질문해야 할 사항:

  • 내 데이터 세트의 특성을 얼마나 잘 이해하고 있는가 어떤 조건에서 데이터를 수집했는가?
  • 데이터에 어떤 품질 또는 편향 문제가 있나요? 혼란을 주는 요소 무엇인가요?
  • 이러한 특정 제품 사용으로 인해 발생할 수 있는 잠재적인 다운스트림 문제는 어떻게 해야 할까요?
  • 예측 또는 분류를 수행하는 모델을 학습시킬 때 다음을 수행합니다. 모델이 학습하는 데이터 세트에 모든 관련 변수가 포함되어 있나요?

조사 결과가 무엇이든 ML 실무자는 항상 확증 편향에 대해 알아보고, 그 결과를 자신의 연구 결과와 비교하여 직관과 상식을 기반으로 하고 데이터의 충돌이 발생하는 부분을 조사합니다. 사용할 수 있습니다.

추가 자료

카이로, 알베르토 차트의 거짓말: 시각적 정보에 대해 스마트하게 활용하기 뉴욕: W.W. Norton, 2019년.

허프, 대럴. 통계적으로 거짓말하는 방법. 뉴욕: W.W. 노턴, 1954년.

모니어, 마크. How to Lie with Maps, 3rd ed. Chicago: U of Chicago P, 2018.

존스, 벤. 데이터 문제 방지. Hoboken, NJ: Wiley, 2020년.

윌란, 찰스. 기본 통계: 데이터에서 두려움 없애기 뉴욕: W.W. Norton, 2013년