이 페이지에는 측정항목 용어집 용어가 포함되어 있습니다. 모든 용어집 용어는 여기를 클릭하세요.
A
정확성
올바른 분류 예측 수를 총 예측 수로 나눈 값입니다. 이는 다음과 같은 의미입니다.
예를 들어 올바른 예측 40개와 잘못된 예측 10개를 한 모델의 정확도는 다음과 같습니다.
이진 분류는 올바른 예측과 잘못된 예측의 다양한 카테고리에 관한 구체적인 이름을 제공합니다. 따라서 이진 분류의 정확성 수식은 다음과 같습니다.
각 항목의 의미는 다음과 같습니다.
정확도 및 클래스 불균형 데이터 세트에 관한 세부정보를 보려면 아이콘을 클릭하세요.
자세한 내용은 머신러닝 단기집중과정의 분류: 정확성, 재현율, 정밀도, 관련 측정항목을 참고하세요.
PR 곡선 아래의 면적
PR AUC (PR 곡선 아래 영역)를 참고하세요.
ROC 곡선 아래 영역
AUC (ROC 곡선 아래 영역)를 참고하세요.
AUC (ROC 곡선 아래 영역)
이진 분류 모델이 양성 클래스를 음성 클래스에서 분리하는 능력을 나타내는 0.0과 1.0 사이의 숫자입니다. AUC가 1.0에 가까울수록 모델이 클래스를 서로 분리하는 기능이 우수합니다.
예를 들어 다음 그림은 양성 클래스 (녹색 타원)를 음성 클래스(보라색 직사각형)와 완벽하게 구분하는 분류 모델을 보여줍니다. 이 비현실적으로 완벽한 모델의 AUC는 1.0입니다.
반대로 다음 그림은 무작위 결과를 생성한 분류 모델의 결과를 보여줍니다. 이 모델의 AUC는 0.5입니다.
예. 위의 모델의 AUC는 0.0이 아닌 0.5입니다.
대부분의 모델은 두 극단 사이 어딘가에 있습니다. 예를 들어 다음 모델은 양성과 음성을 어느 정도 구분하므로 AUC가 0.5~1.0 사이입니다.
AUC는 분류 임곗값에 설정된 값을 무시합니다. 대신 AUC는 가능한 모든 분류 임곗값을 고려합니다.
아이콘을 클릭하여 AUC와 ROC 곡선 간의 관계를 알아보세요.
아이콘을 클릭하여 AUC의 보다 공식적인 정의를 확인하세요.
자세한 내용은 머신러닝 단기집중과정의 분류: ROC 및 AUC를 참고하세요.
k 기준 평균 정밀도
번호가 매겨진 도서 추천 목록과 같이 순위가 지정된 결과를 생성하는 단일 프롬프트에서 모델의 성능을 요약하는 측정항목입니다. k의 평균 정밀도는 각 관련 결과의 k의 정밀도 값의 평균입니다. 따라서 k의 평균 정밀도 공식은 다음과 같습니다.
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
각 항목의 의미는 다음과 같습니다.
- \(n\) 은 목록의 관련 항목 수입니다.
k에서의 재현율과 대비되는 개념입니다.
아이콘을 클릭하여 예시를 확인하세요.
B
기준
다른 모델 (일반적으로 더 복잡한 모델)의 성능을 비교하는 참조 지점으로 사용되는 모델입니다. 예를 들어 로지스틱 회귀 모델은 딥 모델의 좋은 기준이 될 수 있습니다.
특정 문제의 경우 기준은 모델 개발자가 새 모델이 유용하기 위해 새 모델이 달성해야 하는 최소 예상 성능을 수치화하는 데 도움이 됩니다.
C
비용
손실의 동의어입니다.
반사실적 공정성
분류기가 하나 이상의 민감한 속성을 제외하고 한 개인에 대해 첫 번째 개인과 동일한 다른 개인에 대해 동일한 결과를 생성하는지 확인하는 공정성 측정항목입니다. 대조 가정 공정성을 위해 분류기를 평가하는 것은 모델에서 잠재적인 편향의 원인을 표시하는 한 가지 방법입니다.
자세한 내용은 다음 중 하나를 참고하세요.
- 머신러닝 단기집중과정에서 공정성: 대조 가정 공정성
- 두 세계의 충돌: 공정성에 다양한 대안 가정 통합
교차 엔트로피
다중 클래스 분류 문제에 대한 로그 손실의 일반화입니다. 교차 엔트로피는 두 확률 분포 간의 차이를 계량합니다. 퍼플렉시티도 참고하세요.
누적 분포 함수 (CDF)
타겟 값 이하인 샘플의 빈도를 정의하는 함수입니다. 예를 들어 연속 값의 정규 분포를 생각해 보세요. CDF는 샘플의 약 50% 가 평균보다 작거나 같고 샘플의 약 84% 가 평균보다 1표준편차 이하여야 한다고 알려줍니다.
D
인구통계 동등성
모델 분류의 결과가 주어진 민감한 속성에 종속되지 않는 경우 충족되는 공정성 측정항목입니다.
예를 들어 릴리푸티안과 브로드빙낵인이 모두 글럽두브드리브 대학에 지원하는 경우, 한 그룹이 다른 그룹보다 평균적으로 더 자격이 있는지와 관계없이 합격한 릴리푸티안의 비율이 합격한 브로드빙낵인의 비율과 동일하면 인구통계적 동질성이 달성된 것입니다.
평등한 확률 및 기회 균등성과는 대조적입니다. 이 두 가지는 집계된 분류 결과가 민감한 속성에 종속되도록 허용하지만 특정 지정된 정답 라벨의 분류 결과가 민감한 속성에 종속되도록 허용하지 않습니다. 인구통계적 균등성을 위해 최적화할 때의 절충점을 보여주는 시각화를 확인하려면 '더 스마트한 머신러닝으로 차별을 타파하는 방법'을 참고하세요.
자세한 내용은 머신러닝 단기집중과정의 공정성: 인구통계 균등성을 참고하세요.
E
지구 이동 거리 (EMD)
두 분포의 상대적 유사성을 나타내는 척도입니다. 지구 이동 거리가 작을수록 분포가 더 유사합니다.
수정 거리
두 텍스트 문자열 간의 유사성을 측정한 값입니다. 머신러닝에서 수정 거리는 다음과 같은 이유로 유용합니다.
- 수정 거리는 계산하기 쉽습니다.
- 수정 거리를 사용하면 서로 유사한 것으로 알려진 두 문자열을 비교할 수 있습니다.
- 수정 거리를 사용하면 다른 문자열이 주어진 문자열과 얼마나 유사한지 확인할 수 있습니다.
수정 거리에는 여러 정의가 있으며 각 정의는 서로 다른 문자열 연산을 사용합니다. 예를 보려면 Levenshtein 거리를 참고하세요.
경험적 누적 분포 함수 (eCDF 또는 EDF)
실제 데이터 세트의 실험적 측정값을 기반으로 하는 누적 분포 함수입니다. x축의 임의 지점에서 함수의 값은 지정된 값보다 작거나 같은 관측값의 비율입니다.
엔트로피
정보 이론에서 확률 분포가 얼마나 예측할 수 없는지에 관한 설명입니다. 또는 엔트로피는 각 예시에 포함된 정보의 양으로 정의할 수도 있습니다. 확률 분포는 랜덤 변수의 모든 값이 동일한 확률을 보일 때 최대 엔트로피를 갖습니다.
가능한 두 값 '0'과 '1'이 있는 집합의 엔트로피(예: 이진 분류 문제의 라벨)는 다음과 같은 수식을 갖습니다.
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
각 항목의 의미는 다음과 같습니다.
- H는 엔트로피입니다.
- p는 '1' 예시의 비율입니다.
- q는 '0' 예시의 비율입니다. q = (1 - p)입니다.
- log는 일반적으로 log2입니다. 이 경우 엔트로피 단위는 비트입니다.
예를 들어 다음을 가정합니다.
- 100개의 예시가 '1' 값을 포함합니다.
- 300개의 예시가 '0' 값을 포함합니다.
따라서 엔트로피 값은 다음과 같습니다.
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81비트/예시
완벽하게 균형 잡힌 세트 (예: 200개의 '0'과 200개의 '1')의 경우 예당 엔트로피가 1.0비트입니다. 집합이 불균형해질수록 엔트로피는 0.0으로 이동합니다.
결정 트리에서 엔트로피는 정보 이득을 공식화하는 데 도움이 되며, 이를 통해 분할자가 분류 결정 트리가 성장하는 동안 조건을 선택할 수 있습니다.
엔트로피를 다음과 비교하세요.
- gini impurity
- 교차 엔트로피 손실 함수
엔트로피는 흔히 섀넌의 엔트로피라고 합니다.
자세한 내용은 결정 트리 과정의 숫자 특성이 있는 이진 분류를 위한 정확한 분할자를 참고하세요.
기회의 평등
모델이 민감한 속성의 모든 값에 대해 바람직한 결과를 동일하게 잘 예측하는지 평가하는 공정성 측정항목입니다. 즉, 모델의 바람직한 결과가 양성 클래스인 경우 목표는 모든 그룹에서 참양성률이 동일하도록 하는 것입니다.
기회의 균등은 평등한 확률과 관련이 있으며, 이 경우 참양성률과 거짓양성률이 모든 그룹에서 모두 동일해야 합니다.
Glubbdubdrib 대학에서 엄격한 수학 프로그램에 릴리푸티안과 브로드빙낵인 모두를 입학시키기로 했다고 가정해 보겠습니다. 릴리푸티안 중등학교에서는 수학 수업의 강력한 커리큘럼을 제공하며, 대다수의 학생이 대학 프로그램 자격 요건을 충족합니다. 브로드빙낵의 중등학교에서는 수학 수업을 전혀 제공하지 않으므로 자격 요건을 충족하는 학생이 훨씬 적습니다. 국적(Lilliputian 또는 Brobdingnagian)과 관련하여 선호되는 'admitted'(입학) 라벨에 대한 기회의 평등은 자격을 갖춘 학생이 Lilliputian인지 Brobdingnagian인지와 관계없이 동등하게 입학할 가능성이 있는 경우 충족됩니다.
예를 들어 100명의 릴리푸티안과 100명의 브로드빙낵인이 글럽두브드리브 대학에 지원하고 다음과 같이 입학 결정이 내려졌다고 가정해 보겠습니다.
표 1. Lilliputian 신청자 (90% 가 자격 요건을 충족함)
적격성 확인됨 | 자격 없음 | |
---|---|---|
Admitted(수락됨) | 45 | 3 |
거부됨 | 45 | 7 |
합계 | 90 | 10 |
자격 요건을 충족하는 학생의 합격률: 45/90 = 50% 자격 요건을 충족하지 않는 학생의 탈락률: 7/10 = 70% 리리푸티안 학생의 총 합격률: (45+3)/100 = 48% |
표 2. Brobdingnagian 신청자 (자격 요건을 충족하는 신청자: 10%):
적격성 확인됨 | 자격 없음 | |
---|---|---|
Admitted(수락됨) | 5 | 9 |
거부됨 | 5 | 81 |
합계 | 10 | 90 |
자격 요건을 충족하는 학생 중 합격한 비율: 5/10 = 50% 자격 요건을 충족하지 않는 학생 중 탈락한 비율: 81/90 = 90% 브로드빙거니아 학생 중 합격한 총 비율: (5+9)/100 = 14% |
위의 예시에서는 자격을 갖춘 릴리푸티안과 브로드빙거지안 모두 입학할 확률이 50% 이므로 자격을 갖춘 학생을 받아들이는 데 있어 기회의 평등을 충족합니다.
기회의 균등은 충족되지만 다음 두 가지 공정성 측정항목은 충족되지 않습니다.
- 인구통계 동등성: 릴리푸티안과 브로드빙낵인 학생이 대학에 합격하는 비율이 다릅니다. 릴리푸티안 학생의 48% 가 합격하지만 브로드빙낵인 학생의 경우 14% 만 합격합니다.
- 동등한 확률: 자격을 갖춘 릴리푸티안 학생과 브로드빙낵 학생 모두 합격할 확률이 동일하지만, 자격을 갖추지 못한 릴리푸티안 학생과 브로드빙낵 학생 모두 낙방할 확률이 동일하다는 추가 제약 조건은 충족되지 않습니다. 자격 요건을 충족하지 않는 릴리푸티안의 거부율은 70% 인 반면, 자격 요건을 충족하지 않는 브로드빙낵인의 거부율은 90% 입니다.
자세한 내용은 머신러닝 단기집중과정의 공정성: 기회의 평등을 참고하세요.
동률 배당
모델이 양성 클래스와 음성 클래스에 대해 민감한 속성의 모든 값에 대해 동일하게 잘 예측하는지 평가하는 공정성 측정항목입니다. 단지 한 클래스만이 아니라 두 클래스 모두에 대해 평가합니다. 즉, 참양성률과 거짓음성률은 모든 그룹에서 동일해야 합니다.
균등화된 확률은 단일 클래스의 오류율 (양수 또는 음수)에만 초점을 맞추는 기회의 균등과 관련이 있습니다.
예를 들어 Glubbdubdrib 대학에서 엄격한 수학 프로그램을 제공하고 있으며, Lilliputian과 Brobdingnagian 모두 이 프로그램에 참여한다고 가정해 보겠습니다. 릴리푸티안의 중등학교는 수학 수업의 강력한 커리큘럼을 제공하며, 대다수의 학생이 대학 프로그램에 참여할 자격을 갖추고 있습니다. 브로드빙낵의 중등학교에서는 수학 수업을 전혀 제공하지 않으므로 자격 요건을 충족하는 학생이 훨씬 적습니다. 신청자가 릴리푸티안이든 브로드빙거니안이든 관계없이 자격 요건을 충족하는 경우 프로그램에 합격할 가능성이 동일하고 자격 요건을 충족하지 않는 경우 거부될 가능성이 동일하다면 동등한 기회가 충족됩니다.
100명의 릴리푸티안과 100명의 브로드빙낵인이 글럽두브드리브 대학교에 지원했으며 다음과 같이 입학 결정이 내려졌다고 가정해 보겠습니다.
표 3. Lilliputian 신청자 (90% 가 자격 요건을 충족함)
적격성 확인됨 | 자격 없음 | |
---|---|---|
Admitted(수락됨) | 45 | 2 |
거부됨 | 45 | 8 |
합계 | 90 | 10 |
자격 요건을 충족하는 학생의 합격률: 45/90 = 50% 자격 요건을 충족하지 않는 학생의 탈락률: 8/10 = 80% 합격한 릴리푸트 학생의 총 비율: (45+2)/100 = 47% |
표 4. Brobdingnagian 신청자 (자격 요건을 충족하는 신청자: 10%):
적격성 확인됨 | 자격 없음 | |
---|---|---|
Admitted(수락됨) | 5 | 18 |
거부됨 | 5 | 72 |
합계 | 10 | 90 |
자격 요건을 충족하는 학생의 합격률: 5/10 = 50% 자격 요건을 충족하지 않는 학생의 탈락률: 72/90 = 80% 브로드빙거니아 학생의 총 합격률: (5+18)/100 = 23% |
자격을 갖춘 릴리푸티안과 브로드빙거지안 학생 모두 합격할 확률이 50% 이고 자격을 갖추지 못한 릴리푸티안과 브로드빙거지안 학생은 80% 의 비율로 거부되므로 동등한 확률이 충족됩니다.
동등한 확률은 '감독 학습의 기회 균등성'에서 다음과 같이 공식적으로 정의됩니다. '예측자 Ŷ가 Y를 조건으로 Ŷ와 A가 독립적인 경우 보호된 속성 A와 결과 Y에 대해 동등한 확률을 충족합니다.'
evals
주로 LLM 평가의 약어로 사용됩니다. 더 광범위하게는 evals는 모든 형태의 평가의 약어입니다.
평가
모델의 품질을 측정하거나 여러 모델을 서로 비교하는 프로세스입니다.
지도 학습 머신러닝 모델을 평가하려면 일반적으로 검증 세트와 테스트 세트를 기준으로 판단합니다. LLM 평가에는 일반적으로 더 광범위한 품질 및 안전 평가가 포함됩니다.
F
F1
정밀도와 재현율을 모두 사용하는 '롤업' 이진 분류 측정항목입니다. 공식은 다음과 같습니다.
아이콘을 클릭하여 예를 확인하세요.
공정성 측정항목
측정 가능한 '공정성'의 수학적 정의입니다. 일반적으로 사용되는 공정성 측정항목은 다음과 같습니다.
많은 공정성 측정항목은 상호 배타적입니다. 공정성 측정항목의 비호환성을 참고하세요.
거짓음성 (FN)
모델에서 네거티브 클래스로 잘못 예측한 예입니다. 예를 들어 모델에서 특정 이메일 메시지가 스팸이 아님(네거티브 클래스)이라고 예측했지만 실제로는 스팸인 경우를 말합니다.
거짓음성률
모델이 네거티브 클래스로 잘못 예측한 실제 양성 예시의 비율입니다. 다음 수식은 거짓 음성 비율을 계산합니다.
자세한 내용은 머신러닝 단기집중과정의 임곗값 및 혼동 행렬을 참고하세요.
거짓양성 (FP)
모델에서 포지티브 클래스로 잘못 예측한 예입니다. 예를 들어 모델에서 특정 이메일 메시지가 스팸 (포지티브 클래스)이라고 예측했지만 실제로는 스팸이 아닌 경우입니다.
자세한 내용은 머신러닝 단기집중과정의 임곗값 및 혼동 행렬을 참고하세요.
거짓양성률 (FPR)
모델이 포지티브 클래스로 잘못 예측한 실제 음성 예시의 비율입니다. 다음 수식으로 거짓양성률을 계산합니다.
거짓양성률은 ROC 곡선의 x축입니다.
자세한 내용은 머신러닝 단기집중과정의 분류: ROC 및 AUC를 참고하세요.
특성 중요도
변수 중요도의 동의어입니다.
성공 비율
ML 모델의 생성된 텍스트를 평가하기 위한 측정항목입니다. 성공 비율은 '성공'한 생성된 텍스트 출력 수를 총 생성된 텍스트 출력 수로 나눈 값입니다. 예를 들어 대규모 언어 모델이 10개의 코드 블록을 생성했는데 그중 5개가 성공했다면 성공 비율은 50%입니다.
성공률은 통계 전반에서 광범위하게 유용하지만 ML 내에서는 코드 생성이나 수학 문제와 같이 검증 가능한 작업을 측정하는 데 주로 유용합니다.
G
gini impurity
엔트로피와 유사한 측정항목입니다. 분할자는 지니 불순도 또는 엔트로피에서 파생된 값을 사용하여 분류 의사결정 트리의 조건을 구성합니다. 정보 이득은 엔트로피에서 파생됩니다. 지니 불순도에서 파생된 측정항목에 대해 보편적으로 인정되는 등가 용어는 없습니다. 그러나 이 이름 없는 측정항목은 정보 이득만큼이나 중요합니다.
지니 불순도는 지니 계수 또는 간단히 지니라고도 합니다.
지니 불순도에 관한 수학적 세부정보를 보려면 아이콘을 클릭하세요.
H
힌지 손실
각 학습 예시에서 최대한 멀리 떨어진 결정 경계를 찾아 예시와 경계 간의 마진을 극대화하도록 설계된 분류용 손실 함수 계열입니다. KSVM은 힌지 손실을 사용하거나 제곱 힌지 손실 등의 관련 함수를 사용합니다. 바이너리 분류의 경우 힌지 손실 함수는 다음과 같이 정의됩니다.
여기서 y는 -1 또는 +1의 참 라벨이고 y'는 분류 모델의 원시 출력입니다.
따라서 힌지 손실과 (y * y')의 그래프는 다음과 같습니다.
I
공정성 측정항목의 비호환성
일부 공정성 개념은 서로 호환되지 않으며 동시에 충족할 수 없다는 생각입니다. 따라서 모든 ML 문제에 적용할 수 있는 공정성을 수치화하는 단일 보편적인 측정항목은 없습니다.
공정성 측정항목이 호환되지 않는다고 해서 공정성 노력이 무익하다는 의미는 아닙니다. 대신 공정성은 사용 사례에 따른 피해를 방지하는 것을 목표로 주어진 ML 문제에 맞는 맥락 속에서 정의되어야 한다고 제안합니다.
공정성 측정항목의 비호환성에 관한 자세한 내용은 '공정성의(불)가능성'을 참고하세요.
개인 공정성
유사한 개인이 유사하게 분류되는지 확인하는 공정성 측정항목입니다. 예를 들어 Brobdingnagian Academy는 동일한 성적과 표준화된 시험 점수를 가진 두 학생이 동등하게 입학할 수 있도록 하여 개인의 공정성을 충족하고자 할 수 있습니다.
개인 공정성은 '유사성'(이 경우 성적 및 시험 점수)을 정의하는 방식에 전적으로 의존하며, 유사성 측정항목에서 중요한 정보 (예: 학생의 커리큘럼의 엄격도)를 놓치면 새로운 공정성 문제가 발생할 수 있습니다.
개인 공정성에 관한 자세한 내용은 '인식 기반 공정성'을 참고하세요.
정보 획득
의사결정 트리에서 노드의 엔트로피와 하위 노드의 엔트로피의 가중치 (예수에 따라) 합계 간의 차이입니다. 노드의 엔트로피는 해당 노드의 예시의 엔트로피입니다.
예를 들어 다음 엔트로피 값을 고려해 보겠습니다.
- 상위 노드의 엔트로피 = 0.6
- 관련 예시가 16개인 하위 노드의 엔트로피 = 0.2
- 관련 예시가 24개인 다른 하위 노드의 엔트로피 = 0.1
따라서 예시의 40% 는 한 하위 노드에 있고 60% 는 다른 하위 노드에 있습니다. 따라서 날짜는 다음과 같이 계산합니다.
- 하위 노드의 가중치 엔트로피 합계 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
따라서 정보 이득은 다음과 같습니다.
- 정보 이득 = 상위 노드의 엔트로피 - 하위 노드의 가중치 엔트로피 합계
- 정보 이득 = 0.6 - 0.14 = 0.46
대부분의 분할자는 정보 이득을 극대화하는 조건을 만들려고 합니다.
평가자 간 동의
인간 평가자가 태스크를 수행할 때 동의하는 빈도를 측정합니다. 평가자가 동의하지 않는 경우 태스크 안내를 개선해야 할 수 있습니다. 평정자 간 동의 또는 평가자 간 신뢰성이라고도 합니다. 가장 널리 사용되는 평가자 간 동의 측정 방식 중 하나인 Cohen's kappa를 참고하세요.
자세한 내용은 머신러닝 단기집중과정의 분류형 데이터: 일반적인 문제를 참고하세요.
L
L1 손실
실제 라벨 값과 모델이 예측하는 값 간의 차이의 절대값을 계산하는 손실 함수입니다. 예를 들어 다음은 예 5개로 구성된 배치의 L1 손실 계산입니다.
예시의 실제 값 | 모델의 예측값 | 델타의 절댓값 |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = L1 손실 |
평균 절대 오류는 예시당 평균 L1 손실입니다.
아이콘을 클릭하면 수학 공식을 확인할 수 있습니다.
자세한 내용은 머신러닝 단기집중과정의 선형 회귀: 손실을 참고하세요.
L2 손실
실제 라벨 값과 모델이 예측하는 값 간의 차이의 제곱을 계산하는 손실 함수입니다. 예를 들어 다음은 예 5개로 구성된 배치의 L2 손실 계산입니다.
예시의 실제 값 | 모델의 예측값 | 델타의 제곱 |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = L2 손실 |
제곱을 구하므로 L2 손실은 이상치의 영향을 증폭합니다. 즉, L2 손실은 L1 손실보다 잘못된 예측에 더 민감하게 반응합니다. 예를 들어 이전 배치의 L1 손실은 16이 아닌 8이 됩니다. 단일 외부값이 16개 중 9개를 차지합니다.
회귀 모델은 일반적으로 L2 손실을 손실 함수로 사용합니다.
평균 제곱 오차는 예시당 평균 L2 손실입니다. 제곱 손실은 L2 손실의 다른 이름입니다.
아이콘을 클릭하면 수학 공식을 확인할 수 있습니다.
자세한 내용은 머신러닝 단기집중과정의 로지스틱 회귀: 손실 및 정규화를 참고하세요.
LLM 평가 (evals)
대규모 언어 모델 (LLM)의 성능을 평가하기 위한 일련의 측정항목 및 벤치마크입니다. LLM 평가는 대략적으로 다음과 같은 작업을 실행합니다.
- 연구원이 LLM을 개선해야 하는 영역을 파악하도록 지원합니다.
- 다양한 LLM을 비교하고 특정 작업에 가장 적합한 LLM을 식별하는 데 유용합니다.
- LLM을 안전하고 윤리적으로 사용할 수 있도록 지원합니다.
자세한 내용은 머신러닝 단기집중과정의 대규모 언어 모델 (LLM)을 참고하세요.
손실
지도 학습 모델의 학습 중에 모델의 예측이 라벨에서 얼마나 먼지를 나타내는 척도입니다.
손실 함수는 손실을 계산합니다.
자세한 내용은 머신러닝 단기집중과정의 선형 회귀: 손실을 참고하세요.
손실 함수
학습 또는 테스트 중에 예시의 배치에서 손실을 계산하는 수학 함수입니다. 손실 함수는 잘 예측하는 모델의 경우 잘못 예측하는 모델보다 낮은 손실을 반환합니다.
학습의 목표는 일반적으로 손실 함수가 반환하는 손실을 최소화하는 것입니다.
다양한 종류의 손실 함수가 있습니다. 빌드하는 모델 유형에 적합한 손실 함수를 선택합니다. 예를 들면 다음과 같습니다.
M
평균 절대 오차 (MAE)
L1 손실을 사용할 때의 예시당 평균 손실입니다. 다음과 같이 평균 절대 오차를 계산합니다.
- 일괄의 L1 손실을 계산합니다.
- L1 손실을 배치의 예 수로 나눕니다.
아이콘을 클릭하면 수학 공식을 확인할 수 있습니다.
예를 들어 다음과 같은 5개 예시의 일괄에서 L1 손실을 계산해 보겠습니다.
예시의 실제 값 | 모델의 예측값 | 손실 (실제와 예측 간의 차이) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = L1 손실 |
따라서 L1 손실은 8이고 예시 수는 5입니다. 따라서 평균 절대 오차는 다음과 같습니다.
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
평균 절대 오차를 평균 제곱 오차 및 평균 제곱근 오차와 비교합니다.
k에서의 평균 정밀도 (mAP@k)
검증 데이터 세트에서 모든 k 기준 평균 정밀도 점수의 통계적 평균입니다. k에서의 평균 평균 정밀도의 한 가지 용도는 추천 시스템에서 생성된 맞춤 콘텐츠의 품질을 판단하는 것입니다.
'평균 평균'이라는 문구는 중복된 것처럼 들리지만 측정항목의 이름은 적절합니다. 이 측정항목은 여러 k에서의 평균 정밀도 값의 평균을 구합니다.
아이콘을 클릭하여 예를 확인하세요.
평균 제곱 오차 (MSE)
L2 손실을 사용할 때의 예시당 평균 손실입니다. 다음과 같이 평균 제곱 오차를 계산합니다.
- 일괄의 L2 손실을 계산합니다.
- L2 손실을 배치의 예 수로 나눕니다.
아이콘을 클릭하면 수학 공식을 확인할 수 있습니다.
예를 들어 다음과 같은 5개 예시의 배치에서 손실을 고려해 보겠습니다.
실제 금액 | 모델의 예측 | 손실 | 제곱 손실 |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = L2 손실 |
따라서 평균 제곱 오차는 다음과 같습니다.
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
평균 제곱 오차는 특히 선형 회귀에 많이 사용되는 학습 최적화 도구입니다.
평균 제곱 오차를 평균 절대 오차 및 평균 제곱근 오차와 비교합니다.
TensorFlow 플레이그라운드는 평균 제곱 오차를 사용하여 손실 값을 계산합니다.
아이콘을 클릭하면 이상치에 대한 자세한 내용을 확인할 수 있습니다.
측정항목
중요한 의미가 있는 통계입니다.
목표는 머신러닝 시스템에서 최적화하려는 측정항목입니다.
측정항목 API(Metrics API)(tf.metrics)
모델을 평가하기 위한 TensorFlow API입니다. 예를 들어 tf.metrics.accuracy
는 모델의 예측이 라벨과 일치하는 빈도를 결정합니다.
미니맥스 손실
생성된 데이터의 분포와 실제 데이터의 분포 간의 교차 엔트로피를 기반으로 하는 생성형 대립 네트워크의 손실 함수입니다.
Minimax 손실은 생성형 대립 네트워크를 설명하는 첫 번째 논문에서 사용됩니다.
자세한 내용은 생성형 대립 학습 과정의 손실 함수를 참고하세요.
모델 용량
모델이 학습할 수 있는 문제의 복잡성입니다. 모델이 학습할 수 있는 문제가 복잡할수록 모델 용량은 더 큽니다. 일반적으로 모델의 매개변수 수가 많을수록 모델 용량은 더 커집니다. 분류기 용량의 공식 정의는 VC 차원을 참고하세요.
N
음성 클래스
이진 분류에서는 클래스 중 하나는 양성으로, 다른 하나는 음성으로 규정됩니다. 포지티브 클래스는 모델에서 테스트하는 대상이나 이벤트이고, 네거티브 클래스는 그와 다른 가능성입니다. 예를 들면 다음과 같습니다.
- 의료 검사의 네거티브 클래스는 '종양 아님'일 수 있습니다.
- 이메일 분류기의 네거티브 클래스는 '스팸 아님'일 수 있습니다.
양성 클래스와 대비되는 개념입니다.
O
목표
알고리즘에서 최적화하려는 측정항목입니다.
목적 함수
모델이 최적화하고자 하는 수학 공식 또는 측정항목입니다. 예를 들어 선형 회귀의 목적 함수는 일반적으로 평균 제곱 손실입니다. 따라서 선형 회귀 모델을 학습시킬 때 학습의 목표는 평균 제곱 오차를 최소화하는 것입니다.
목적 함수를 최대화하는 것이 목표인 경우도 있습니다. 예를 들어 목적 함수가 정확도인 경우 목표는 정확도를 극대화하는 것입니다.
손실도 참고하세요.
P
k에서 패스 (pass@k)
대규모 언어 모델이 생성하는 코드 (예: Python)의 품질을 결정하는 측정항목입니다. 더 구체적으로, k에서 통과하면 생성된 k개의 코드 블록 중 하나 이상이 모든 단위 테스트를 통과할 가능성을 나타냅니다.
대규모 언어 모델은 복잡한 프로그래밍 문제에 적합한 코드를 생성하는 데 어려움을 겪는 경우가 많습니다. 소프트웨어 엔지니어는 대규모 언어 모델에 동일한 문제에 대한 다수 (k)의 솔루션을 생성하도록 요청하여 이 문제에 적응합니다. 그런 다음 소프트웨어 엔지니어가 단위 테스트를 기준으로 각 솔루션을 테스트합니다. k에서 통과 여부를 계산하는 방법은 단위 테스트의 결과에 따라 다릅니다.
- 이러한 솔루션 중 하나 이상이 단위 테스트를 통과하면 LLM은 해당 코드 생성 과제를 통과합니다.
- 솔루션 중 하나도 단위 테스트를 통과하지 못하면 LLM은 해당 코드 생성 과제를 실패합니다.
k에서 패스의 공식은 다음과 같습니다.
\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]
일반적으로 k 값이 클수록 k 점수에서 통과율이 높아집니다. 하지만 k 값이 클수록 더 많은 대규모 언어 모델과 단위 테스트 리소스가 필요합니다.
예시를 보려면 아이콘을 클릭하세요.
performance
다음과 같은 의미로 중복 정의된 용어입니다.
- 소프트웨어 공학에서 표준으로 사용되는 의미입니다. 즉, 특정 소프트웨어가 얼마나 빠르게 또는 효율적으로 실행되는지를 의미합니다.
- 머신러닝에서의 의미 여기서 성능은 다음 질문에 답합니다. 이 모델이 얼마나 정확한가요? 즉, 모델의 예측이 얼마나 효과적인지를 나타냅니다.
순열 변수 중요도
특성 값을 순열한 후 모델의 예측 오류 증가를 평가하는 변수 중요도의 한 유형입니다. 순열 변수 중요도는 모델과 무관한 측정항목입니다.
퍼플렉시티
모델의 작업 수행 능력을 나타내는 척도입니다. 예를 들어 사용자가 휴대전화 키보드에서 입력하는 단어의 처음 몇 글자를 읽고 가능한 완성 단어 목록을 제공하는 작업을 해야 한다고 가정해 보겠습니다. 이 작업의 혼동도(P)는 목록에 사용자가 입력하려는 실제 단어가 포함되도록 하기 위해 제공해야 하는 대략적인 추측 수입니다.
퍼플렉시티와 교차 엔트로피의 관계는 다음과 같습니다.
양성 클래스
테스트 중인 클래스입니다.
예를 들어 암 모델의 포지티브 클래스는 '종양'일 수 있습니다. 이메일 분류기의 포지티브 클래스는 '스팸'일 수 있습니다.
네거티브 클래스와 대비되는 개념입니다.
추가 메모를 보려면 아이콘을 클릭하세요.
PR AUC (PR 곡선 아래 영역)
보간된 정밀도-재현율 곡선 아래의 면적입니다. 이는 분류 임계값의 다양한 값에 대해 (재현율, 정밀도) 점을 표시하여 얻습니다.
precision
다음 질문에 답하는 분류 모델의 측정항목입니다.
모델이 양성 클래스를 예측했을 때 올바른 예측의 비율은 얼마였나요?
공식은 다음과 같습니다.
각 항목의 의미는 다음과 같습니다.
- 참양성은 모델이 포지티브 클래스를 정확하게 예측했음을 의미합니다.
- 거짓양성은 모델이 포지티브 클래스를 잘못 예측했음을 의미합니다.
예를 들어 모델이 200개의 긍정 예측을 했다고 가정해 보겠습니다. 이러한 200개의 긍정적인 예측 중:
- 참양성은 150개였습니다.
- 50건은 거짓양성이었습니다.
이 경우에는 다음과 같습니다.
자세한 내용은 머신러닝 단기집중과정의 분류: 정확성, 재현율, 정밀도, 관련 측정항목을 참고하세요.
k 기준 정밀도 (precision@k)
순위가 지정된 (정렬된) 항목 목록을 평가하는 측정항목입니다. k의 정밀도는 해당 목록의 첫 번째 k개 항목 중 '관련성'이 있는 항목의 비율을 나타냅니다. 이는 다음과 같은 의미입니다.
\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]
k 값은 반환된 목록의 길이보다 작거나 같아야 합니다. 반환된 목록의 길이는 계산에 포함되지 않습니다.
관련성은 주관적인 경우가 많습니다. 전문가 인간 평가자들조차 관련성 있는 항목에 동의하지 않는 경우가 많습니다.
비교 대상:
아이콘을 클릭하여 예를 확인하세요.
정밀도-재현율 곡선
예측 편향
예측의 평균이 데이터 세트의 라벨 평균과 얼마나 다른지 나타내는 값입니다.
머신러닝 모델의 바이어스 항 또는 윤리학 및 공정성의 편향과 혼동하지 마시기 바랍니다.
예측 패리티
주어진 분류기에 대해 고려 중인 하위 그룹의 정밀도 비율이 동일한지 확인하는 공정성 측정항목입니다.
예를 들어 대학 합격을 예측하는 모델은 정밀도가 릴리푸티안과 브로드빙낵인에서 동일한 경우 국적에 대한 예측 패리티를 충족합니다.
예측 동등성을 예측 요금 동등성이라고도 합니다.
예측 동등성에 관한 자세한 내용은 '공정성 정의 설명' (3.2.1 섹션)을 참고하세요.
예측 가격 패리티
예측 패리티의 다른 이름입니다.
확률 밀도 함수
특정 값을 정확히 갖는 데이터 샘플의 빈도를 식별하는 함수입니다. 데이터 세트의 값이 연속 부동 소수점 수인 경우 정확한 일치는 거의 발생하지 않습니다. 그러나 값 x
에서 값 y
까지 확률 밀도 함수를 적분하면 x
과 y
사이의 데이터 샘플의 예상 빈도가 나옵니다.
예를 들어 평균이 200이고 표준 편차가 30인 정규 분포를 생각해 보겠습니다. 211.4~218.7 범위에 포함되는 데이터 샘플의 예상 빈도를 확인하려면 211.4~218.7에서 정규 분포의 확률 밀도 함수를 통합하면 됩니다.
R
recall
다음 질문에 답하는 분류 모델의 측정항목입니다.
공식은 다음과 같습니다.
\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]
각 항목의 의미는 다음과 같습니다.
- 참양성은 모델이 포지티브 클래스를 정확하게 예측했음을 의미합니다.
- 거짓음성은 모델이 네거티브 클래스를 잘못 예측했음을 의미합니다.
예를 들어 모델이 정답이 포지티브 클래스인 예시에서 200번 예측했다고 가정해 보겠습니다. 이 200개의 예측 중
- 참양성은 180개였습니다.
- 거짓음성은 20건이었습니다.
이 경우에는 다음과 같습니다.
\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]
클래스 불균형 데이터 세트에 관한 메모 아이콘을 클릭합니다.
자세한 내용은 분류: 정확성, 재현율, 정밀도, 관련 측정항목을 참고하세요.
k 기준 재현율 (recall@k)
순위가 지정된 (정렬된) 항목 목록을 출력하는 시스템을 평가하기 위한 측정항목입니다. k의 재현율은 반환된 총 관련 항목 수 중 해당 목록의 첫 번째 k개 항목에 있는 관련 항목의 비율을 나타냅니다.
\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]
k 기준 정밀도와 대비되는 개념입니다.
아이콘을 클릭하여 예를 확인하세요.
수신자 조작 특성 곡선 (ROC 곡선, Receiver Operating Characteristic curve)
이진 분류에서 다양한 분류 기준에 대한 참양성률과 거짓양성률의 그래프입니다.
ROC 곡선의 모양은 이진 분류 모델이 양성 클래스를 음성 클래스와 구분하는 능력을 나타냅니다. 예를 들어 이진 분류 모델이 모든 음성 클래스를 모든 양성 클래스와 완벽하게 구분한다고 가정해 보겠습니다.
위의 모델의 ROC 곡선은 다음과 같습니다.
반대로 다음 그림은 음성 클래스를 양성 클래스와 전혀 구분할 수 없는 형편없는 모델의 원시 로지스틱 회귀 값을 그래프로 보여줍니다.
이 모델의 ROC 곡선은 다음과 같습니다.
한편 실제 환경에서는 대부분의 이진 분류 모델이 포지티브 클래스와 네거티브 클래스를 어느 정도 구분하지만 일반적으로 완벽하지는 않습니다. 따라서 일반적인 ROC 곡선은 두 극단 사이에 있습니다.
(0.0,1.0)에 가장 가까운 ROC 곡선의 점은 이론적으로 이상적인 분류 기준점을 나타냅니다. 그러나 이상적인 분류 기준을 선택하는 데는 다른 여러 실제 문제가 영향을 미칩니다. 예를 들어 거짓음성이 거짓양성보다 훨씬 더 큰 문제를 일으킬 수 있습니다.
AUC라는 수치 측정항목은 ROC 곡선을 단일 부동 소수점 값으로 요약합니다.
평균 제곱근 오차(RMSE)
평균 제곱 오차의 제곱근입니다.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
자동 요약 및 기계 번역 모델을 평가하는 측정항목 계열입니다. ROUGE 측정항목은 참조 텍스트가 ML 모델의 생성된 텍스트와 겹치는 정도를 결정합니다. ROUGE 계열의 각 요소는 다른 방식으로 중복을 측정합니다. ROUGE 점수가 높을수록 참조 텍스트와 생성된 텍스트 간의 유사성이 더 높다는 것을 나타냅니다.
각 ROUGE 계열은 일반적으로 다음 측정항목을 생성합니다.
- 정밀도
- 재현율
- F1
자세한 내용과 예는 다음을 참고하세요.
ROUGE-L
ROUGE 계열의 한 구성원은 참조 텍스트와 생성된 텍스트의 최장 공통 부분 수열 길이에 중점을 두었습니다. 다음 수식은 ROUGE-L의 재현율과 정밀도를 계산합니다.
그런 다음 F1을 사용하여 ROUGE-L 재현율과 ROUGE-L 정밀도를 단일 측정항목으로 롤업할 수 있습니다.
아이콘을 클릭하여 ROUGE-L 계산 예시를 확인합니다.
ROUGE-L은 참조 텍스트와 생성된 텍스트의 줄바꿈을 무시하므로 최장 공통 부분 수열이 여러 문장을 교차할 수 있습니다. 참조 텍스트와 생성된 텍스트에 여러 문장이 포함된 경우 일반적으로 ROUGE-L의 변형인 ROUGE-Lsum이 더 나은 측정항목입니다. ROUGE-Lsum은 구문의 각 문장에 대한 최장 공통 부분 수열을 결정한 다음 이러한 최장 공통 부분 수열의 평균을 계산합니다.
아이콘을 클릭하여 ROUGE-Lsum 계산 예시를 확인합니다.
ROUGE-N
ROUGE 계열 내의 측정항목 집합으로, 참조 텍스트와 생성된 텍스트에서 특정 크기의 공유 N-gram을 비교합니다. 예를 들면 다음과 같습니다.
- ROUGE-1은 참조 텍스트와 생성된 텍스트에서 공유되는 토큰 수를 측정합니다.
- ROUGE-2는 참조 텍스트와 생성된 텍스트에서 공유되는 바이그램 (2-그램) 수를 측정합니다.
- ROUGE-3는 참조 텍스트와 생성된 텍스트에서 공유되는 트라이그램 (3-그램) 수를 측정합니다.
다음 수식을 사용하여 ROUGE-N 계열의 모든 구성원의 ROUGE-N 재현율과 ROUGE-N 정밀도를 계산할 수 있습니다.
그런 다음 F1을 사용하여 ROUGE-N 재현율과 ROUGE-N 정밀도를 단일 측정항목으로 롤업할 수 있습니다.
예시를 보려면 아이콘을 클릭하세요.
ROUGE-S
skip-gram 일치를 사용 설정하는 관대한 형태의 ROUGE-N입니다. 즉, ROUGE-N은 정확하게 일치하는 N-그램만 집계하지만 ROUGE-S는 하나 이상의 단어로 구분된 N-그램도 집계합니다. 예를 들어 다음 사항을 고려해 보세요.
ROUGE-N을 계산할 때 2그램인 흰색 구름은 흰색 구름이 피어오름과 일치하지 않습니다. 하지만 ROUGE-S를 계산할 때는 흰 구름이 흰색 구름이 피어오름과 일치합니다.
R 제곱
개별 특성 또는 특성 세트로 인해 라벨의 변동이 얼마나 되는지 나타내는 회귀 측정항목입니다. 결정 계수는 0과 1 사이의 값으로 다음과 같이 해석할 수 있습니다.
- R 제곱이 0이면 라벨의 변동이 특성 집합으로 인한 것이 아닙니다.
- R 제곱이 1이면 라벨의 모든 변동이 특성 집합으로 인한 것임을 의미합니다.
- 0과 1 사이의 결정 계수는 특정 특성 또는 특성 세트에서 라벨의 변형을 예측할 수 있는 정도를 나타냅니다. 예를 들어 R 제곱이 0.10이면 라벨의 분산 중 10%가 특성 집합으로 인한 것이고, R 제곱이 0.20이면 20%가 특성 집합으로 인한 것임을 의미합니다.
R 제곱은 모델이 예측한 값과 실측값 간의 피어슨 상관 계수의 제곱입니다.
S
점수 매기기
후보 생성 단계에서 생성된 각 항목의 값 또는 순위를 제공하는 추천 시스템의 일부입니다.
유사도 측정
클러스터링 알고리즘에서 두 예의 유사성을 측정하는 데 사용되는 측정항목입니다.
희소성
벡터 또는 행렬에서 0 (또는 null)으로 설정된 요소 수를 해당 벡터 또는 행렬의 총 항목 수로 나눈 값입니다. 예를 들어 98개의 셀에 0이 포함된 100개 요소 행렬을 생각해 보겠습니다. 희소성 계산은 다음과 같습니다.
특성 희소성은 특성 벡터의 희소성을 나타내고 모델 희소성은 모델 가중치의 희소성을 나타냅니다.
제곱 힌지 손실
힌지 손실의 제곱입니다. 제곱 힌지 손실은 일반 힌지 손실보다 이상치를 더 가혹하게 처벌합니다.
제곱 손실
L2 손실의 동의어입니다.
T
테스트 손실
테스트 세트에 대한 모델의 손실을 나타내는 측정항목입니다. 모델을 빌드할 때는 일반적으로 테스트 손실을 최소화하려고 합니다. 낮은 테스트 손실은 낮은 학습 손실 또는 낮은 검증 손실보다 강력한 품질 신호이기 때문입니다.
테스트 손실과 학습 손실 또는 검증 손실 간에 큰 차이가 있는 경우 정규화 비율을 늘려야 할 수 있습니다.
top-k 정확성
생성된 목록의 처음 k개 위치 내에 '타겟 라벨'이 표시되는 빈도의 비율입니다. 목록은 맞춤 추천이거나 소프트맥스로 정렬된 항목 목록일 수 있습니다.
Top-k 정확도는 k의 정확도라고도 합니다.
예시를 보려면 아이콘을 클릭하세요.
유해
콘텐츠가 얼마나 악의적이거나 위협적이거나 불쾌감을 주는가에 대한 정도 많은 머신러닝 모델이 독성을 식별하고 측정할 수 있습니다. 이러한 모델의 대부분은 악성 언어의 수준, 위협적인 언어의 수준과 같은 여러 매개변수를 기준으로 악성을 식별합니다.
학습 손실
특정 학습 반복 중에 모델의 손실을 나타내는 측정항목입니다. 예를 들어 손실 함수가 평균 제곱 오차라고 가정해 보겠습니다. 10번째 반복의 학습 손실 (평균 제곱 오차)이 2.2이고 100번째 반복의 학습 손실이 1.9일 수 있습니다.
손실 곡선은 학습 손실과 반복 횟수를 비교하여 표시합니다. 손실 곡선은 학습에 관한 다음과 같은 힌트를 제공합니다.
- 하향 경사는 모델이 개선되고 있음을 의미합니다.
- 오르막은 모델이 점점 나빠지고 있음을 나타냅니다.
- 완만한 경사는 모델이 수렴에 도달했음을 의미합니다.
예를 들어 다음과 같이 다소 이상화된 손실 곡선은 다음을 보여줍니다.
- 초기 반복 중에 급격한 하향 경사가 나타나며 이는 빠른 모델 개선을 의미합니다.
- 학습이 거의 끝날 때까지 점차 평평해지지만 여전히 하향하는 경사선으로, 초기 반복보다 다소 느린 속도로 모델이 계속 개선되고 있음을 나타냅니다.
- 학습이 끝날 때 수렴을 나타내는 평평한 경사
학습 손실도 중요하지만 일반화도 참고하세요.
참음성 (TN)
모델에서 네거티브 클래스를 올바르게 예측한 예입니다. 예를 들어 모델에서 특정 이메일 메시지가 스팸이 아님이라고 추론했으며 실제로도 스팸이 아님인 경우가 여기에 해당합니다.
참양성 (TP)
모델에서 포지티브 클래스를 올바르게 예측한 예입니다. 예를 들어 모델에서 특정 이메일 메시지가 스팸인 것으로 추론했으며 실제로도 스팸이었던 경우가 여기에 해당합니다.
참양성률 (TPR)
재현율의 동의어입니다. 이는 다음과 같은 의미입니다.
참양성률은 ROC 곡선의 y축입니다.
V
검증 손실
특정 반복의 학습 중에 검증 세트에서 모델의 손실을 나타내는 측정항목입니다.
일반화 곡선도 참고하세요.
변수 중요도
모델에 대한 각 특성의 상대적 중요도를 나타내는 점수 집합입니다.
예를 들어 주택 가격을 추정하는 의사 결정 트리를 생각해 보겠습니다. 이 결정 트리에서 크기, 연령, 스타일이라는 세 가지 특성을 사용한다고 가정해 보겠습니다. 세 가지 특성에 대한 변수 중요성 집합이 {size=5.8, age=2.5, style=4.7}으로 계산되면 크기가 연령이나 스타일보다 결정 트리에 더 중요합니다.
ML 전문가에게 모델의 다양한 측면을 알릴 수 있는 다양한 변수 중요도 측정항목이 있습니다.
W
Wasserstein 손실
생성된 데이터의 분포와 실제 데이터의 분포 간의 이동 거리를 기반으로 생성형 대립 네트워크에서 일반적으로 사용되는 손실 함수 중 하나입니다.