데이터 트랩

학습 목표

이 모듈에서 학습할 내용은 다음과 같습니다.

  • 다음을 포함하여 원시 또는 처리된 데이터 세트의 기저에 있는 잠재적인 문제를 조사합니다. 수집 및 품질 문제를 일으킬 수 있습니다.
  • 편향, 잘못된 추론, 합리화를 식별합니다.
  • 데이터 분석에서 상관관계, 관계성 및 비관련성입니다.
  • 차트를 검토하여 일반적인 문제, 오해, 디스플레이 및 디자인 선택에 혼동을 줄 수 있습니다

ML 동기부여

모델 아키텍처 및 기타 다운스트림 모델 작업만큼 화려하지는 않지만 데이터 탐색, 문서화 및 전처리가 살펴보겠습니다 ML 실무자는 니트야 삼바시반 외 호출됨 데이터 캐스케이드 2021 ACM 논문에서 이해할 수 없는 경우:

  • 데이터를 수집하는 조건
  • 데이터의 품질, 특성 및 한계
  • 표시할 수 없는 내용

잘못된 데이터로 모델을 학습시키는 것은 비용이 많이 들고 품질이 낮은 출력 시점에 문제가 있음을 발견했을 때만 데이터를 얻을 수 있습니다. 마찬가지로 데이터의 한계를 파악하지 못하면 인간이 데이터 수집의 편향 또는 인과관계로 상관관계를 오인하는 것을 허용하지 않습니다. 과다 게재 및 미달 게재로 이어질 수 있으며, 이로 인해 커질 수 있습니다

이 과정에서는 ML 및 데이터가 직면하는 일반적이지만 미묘한 데이터 함정에 대해 접하게 될 수 있는 몇 가지 주요 사례입니다.