데이터 세트: 데이터 특성

데이터 세트예시

많은 데이터 세트가 CSV 형식으로, 또는 스프레드시트에서 직접 생성할 수 있습니다 테이블은 기계의 직관적인 입력 형식임 모델을 학습합니다. 테이블의 각 행을 예시로 생각할 수 있습니다. 각 열을 잠재적 특성 또는 라벨로 정의합니다. 그렇긴 하지만 데이터 세트는 로그 파일 및 프로토콜 버퍼에 대한 정보를 찾을 수 있습니다.

형식과 상관없이 ML 모델의 성능은 학습에 사용되는 데이터입니다. 이 섹션에서는 주요 데이터 특성을 살펴봅니다.

데이터 유형

데이터 세트는 많은 종류의 데이터 유형을 포함할 수 있습니다. 다음에 국한되지 않음:

  • 이는 별도의 교육 자료 단위
  • 자세한 내용은 별도의 단위
  • 개별 단어와 문장을 포함하는 인간 언어에 이르기까지 전체 텍스트 문서
  • 멀티미디어 (예: 이미지, 동영상, 오디오 파일)
  • 다른 ML 시스템의 출력과
  • 임베딩 벡터와 이 과정의 뒷부분에서

위의 데이터 유형은 훨씬 더 세분화할 수 있습니다. 이 과정의 후속 모듈(예: 범주형 데이터 모듈: 세부정보 이러한 데이터 유형을 하위 카테고리로 분류합니다.

데이터 양

대략적으로 모델은 하나 이상의 주문에 대해 학습해야 합니다. 학습 가능한 매개변수보다 크기 (한두 개) 더 많은 예시입니다. 하지만 모델은 일반적으로 이보다 훨씬 더 많은 예시를 통해 학습합니다.

대규모 데이터 세트로 학습시킨 기능 일반적으로 작은 데이터 세트로 학습시킨 모델보다 다양한 기능을 제공합니다 Google은 지금까지 한 개의 기계에서 간단한 모델을 학습시켰고 대규모 데이터 세트입니다

다양한 머신러닝 프로그램의 다양한 데이터 세트에는 유용한 모델을 구축하기 위해 다양한 예시가 필요합니다 상대적으로 몇 가지 예시로도 충분할 수 있습니다 다른 문제의 경우 1조 개의 예시로는 충분하지 않을 수 있습니다.

데이터를 조정하는 경우 소규모 데이터 세트에서 좋은 결과를 얻을 수 있습니다. 학습시킨 기존의 모델을 사용하여 사용할 수 있습니다

데이터의 품질 및 신뢰성

누구나 낮은 품질보다 고품질을 선호하지만 품질이 매우 모호합니다. 다양한 방법으로 정의할 수 있다는 개념입니다. 이 과정에서는 품질을 실용적으로 개선할 수 있습니다.

고품질 데이터 세트는 모델이 목표를 달성하는 데 도움이 됩니다. 품질이 낮은 데이터 세트는 모델이 목표를 달성하는 데 방해가 됩니다.

또한 고품질 데이터 세트는 일반적으로 안정적입니다. 신뢰성은 데이터를 신뢰할 수 있는 정도를 나타냅니다. 신뢰할 수 있는 데이터 세트로 학습된 모델이 유용한 결과를 생성할 가능성이 높음 예측이 더 효율적입니다.

안정성을 측정할 때 다음을 결정해야 합니다.

  • 라벨 오류는 얼마나 일반적인가요? 예를 들어 데이터가 인간 평가자들이 실수를 얼마나 자주 했는가?
  • 특성에 노이즈가 많나요? 즉, 특성의 값을 포함되어 있나요? 현실적으로 데이터 세트를 삭제할 수 없음 노이즈를 더합니다. 약간의 노이즈는 정상입니다. 예를 들어 모든 종류의 GPS 측정이 위치가 항상 약간씩 변동합니다.
  • 데이터가 문제에 맞게 적절히 필터링되었나요? 예를 들어 데이터 세트에 봇의 검색어를 포함해야 할까요? 만약 답은 '예'일 가능성이 높습니다. 하지만 사람이 볼 수 있는 검색 결과를 개선하는 게 목적이면 안 되죠.

데이터 세트에서 데이터가 신뢰할 수 없는 일반적인 원인은 다음과 같습니다.

  • 생략된 값입니다. 예를 들어 사용자가 확인할 수 있습니다.
  • 중복 예시 예를 들어 서버에서 실수로 동일한 2배입니다
  • 특성 값이 잘못되었습니다. 예를 들어 사용자가 숫자를 더 입력했거나 온도계를 햇빛에 두었습니다.
  • 잘못된 라벨입니다. 예를 들어 어떤 사람이 실수로 사진에 라벨을 단풍나무로 표현한 참나무입니다.
  • 잘못된 데이터 섹션. 예를 들어 특정 특성은 매우 신뢰할 수 있습니다. 네트워크가 계속 다운되었던 하루만 빼고요.

자동화를 사용하여 신뢰할 수 없는 데이터를 신고하는 것이 좋습니다. 예를 들어 외부 공식 데이터 스키마를 정의하거나 의존하는 단위 테스트는 플래그를 지정할 수 있습니다.

완전한 예와 불완전한 예

완벽한 환경에서는 모든 예가 완전합니다. 즉, 각 예에는 각 특성의 값

그림 1. 5개의
       기능을 살펴보겠습니다
그림 1. 전체 예

 

안타깝게도 실제 사례는 불완전한 경우가 많습니다. 즉, 특성 값이 하나 이상 누락되었습니다.

그림 2. 5개 중 4개의 값을 포함하는 예시
            기능을 살펴보겠습니다 기능 1개가 누락된 것으로 표시되었습니다.
그림 2. 불완전한 예.

 

불완전한 예를 기반으로 모델을 학습시키지 마세요. 대신 이러한 문제를 해결하거나 다음 중 하나를 수행하여 불완전한 예제를 만들 수 있습니다.

  • 불완전한 예를 삭제하세요.
  • 누락된 값을 Impute합니다. 즉, 타당한 근거를 기반으로 추측할 수 있습니다
그림 3. 3개의 예가 포함된 데이터 세트(그 중 2개)
            불완전한 예가 있을 수 있습니다. 누군가가 이 두 가지 불완전한
            데이터 세트의 예입니다.
그림 3. 데이터 세트에서 불완전한 예시를 삭제하는 중입니다.

 

그림 4. 3개의 예가 포함된 데이터 세트 중 2개는
            불완전한 예가 포함됩니다. 일부 주체 (사람이
            또는 대치 소프트웨어)에 있는 모든 데이터 세트에 대해
            데이터 누락을 방지합니다
그림 4. 불완전한 예의 누락된 값 입력

 

데이터 세트에 유용한 모델을 학습시키기에 충분한 완전한 예시가 있다면 불완전한 예를 삭제하는 것이 좋습니다. 마찬가지로 하나의 특성에서만 상당량의 데이터가 누락되고 한 가지 특성은 모델에 큰 도움이 되지 않을 수 있으므로 특성 추출을 사용하여 특성의 품질 손실이 얼마나 발생하는지 삭제. 그것이 없어도 모델이 거의 또는 거의 잘 작동한다면 잘된 것입니다. 반대로 유용한 모델을 학습시키기에 완전한 예가 충분하지 않은 경우 누락된 값을 대입하는 것을 고려할 수 있습니다.

쓸모 없거나 중복된 예를 삭제할 수 있지만 삭제하는 것은 좋지 않습니다. 중요한 예입니다. 안타깝게도 구분하기가 어려울 수 있습니다. 구분해야 합니다. 계정을 생성할지 여부를 결정할 수 없다면 데이터를 삭제하려면 데이터 세트 2개를 빌드하는 것이 좋습니다. 나머지 하나는 귀속하여 보여주기 때문입니다. 그런 다음 더 나은 모델을 학습시키는 데이터 세트를 결정합니다.


<ph type="x-smartling-placeholder">

일반적인 알고리즘 중 하나는 평균 또는 중앙값을 대입 값으로 사용하는 것입니다. 결과적으로 숫자 특성을 나타내는 것은 Z-점수 대입된 값은 일반적으로 0입니다 (0은 일반적으로 평균 Z-점수이기 때문입니다).

연습문제: 학습 내용 점검하기

다음은 Timestamp에 따라 정렬된 데이터 세트의 두 열입니다.

타임스탬프 온도
2023년 6월 8일 09:00 12
2023년 6월 8일 10:00 18
2023년 6월 8일 11:00 결측치
2023년 6월 8일 12:00 24
2023년 6월 8일 13:00 38

다음 중 귀속되기에 적합한 값은 무엇인가요? 온도의 누락된 값

23
아마 그럴 거예요. 23은 인접한 값 (12, 18, 24, 38)의 평균입니다. 하지만 나머지 데이터 세트는 확인할 수 없으므로 23은 다른 날 11:00의 이상점일 것입니다.
31
가능성 낮음. 우리가 볼 수 있는 데이터 세트의 제한된 부분은 31이 11:00 온도보다 너무 높다는 것을 알 수 있습니다. 하지만 대칭을 기반으로 하지 않고는 확신할 수 없는데, 예로 들 수 있습니다
51
가능성은 거의 없습니다. 51이 표시된 값보다 훨씬 높음 평균보다 훨씬 높습니다.