이 과정에서는 데이터 세트 품질부터 데이터 세트 품질, 시각화 및 통계 분석에 이르기까지 다양합니다.
ML 실무자가 질문해야 할 사항:
- 내 데이터 세트의 특성을 얼마나 잘 이해하고 있는가 어떤 조건에서 데이터를 수집했는가?
- 데이터에 어떤 품질 또는 편향 문제가 있나요? 혼란을 주는 요소 무엇인가요?
- 이러한 특정 제품 사용으로 인해 발생할 수 있는 잠재적인 다운스트림 문제는 어떻게 해야 할까요?
- 예측 또는 분류를 수행하는 모델을 학습시킬 때 다음을 수행합니다. 모델이 학습하는 데이터 세트에 모든 관련 변수가 포함되어 있나요?
조사 결과가 무엇이든 ML 실무자는 항상 확증 편향에 대해 알아보고, 그 결과를 자신의 연구 결과와 비교하여 직관과 상식을 기반으로 하고 데이터의 충돌이 발생하는 부분을 조사합니다. 사용할 수 있습니다.
추가 자료
카이로, 알베르토 차트의 거짓말: 시각적 정보에 대해 스마트하게 활용하기 뉴욕: W.W. Norton, 2019년.
허프, 대럴. 통계적으로 거짓말하는 방법. 뉴욕: W.W. 노턴, 1954년.
모니어, 마크. How to Lie with Maps, 3rd ed. Chicago: U of Chicago P, 2018.
존스, 벤. 데이터 문제 방지. Hoboken, NJ: Wiley, 2020년.
윌란, 찰스. 기본 통계: 데이터에서 두려움 없애기 뉴욕: W.W. Norton, 2013년