데이터 세트, 일반화, 과적합

를 통해 개인정보처리방침을 정의할 수 있습니다.

소개

이 모듈은 유도 질문으로 시작합니다. 다음 답변 중 하나를 선택하세요.

다음 영역 중 하나를 개선하는 데 우선순위를 두어야 하는 경우 머신러닝 프로젝트에 가장 많은 시간을 쏟을 수 있을 것입니다 무엇인가요?
데이터 세트의 품질 개선
데이터가 모든 것을 우선합니다. 데이터 세트의 품질과 크기는 무엇보다도 가장 좋은 방법입니다.
모델 학습에 더 영리한 손실 함수 적용
맞습니다, 손실 함수가 개선되면 모델의 학습 속도가 더 빨라질 수 있지만 이 목록의 다른 항목보다 여전히 먼 거리입니다.

그리고 다음은 훨씬 더 중요한 질문입니다.

생각해 보기: 머신러닝 프로젝트에서 일반적으로 데이터 준비 및 변환에 비용을 지출하시나요?
프로젝트 시간의 절반 이상
예, ML 실무자가 대부분의 시간을 소비합니다 데이터 세트를 구성하고 특성 추출을 수행하는 방법을 알아봅니다
프로젝트 시간의 절반 미만
더 많은 것을 계획하세요! 일반적으로 머신러닝 작업 시간의 80% 는 데이터 세트를 구성하고 데이터를 변환하는 데 사용됩니다.

이 모듈에서는 머신러닝의 특성에 대해 자세히 알아봅니다. 데이터 세트, 데이터 세트, 데이터 세트에서 고품질의 결과를 얻을 수 있도록 데이터를 준비하는 방법을 모델을 학습시키고 평가하는 데 사용됩니다