로지스틱 회귀 모델은 학습 데이터와 동일한 프로세스를 사용하여 선형 회귀 두 가지 주요 차이점이 있습니다.
- 로지스틱 회귀 모델은 손실을 손실 함수로 기록합니다. 를 제곱 손실로 대체합니다.
- 정규화 적용하기 침투하지 못하도록 과적합.
다음 섹션에서는 이 두 가지 고려사항을 더 자세히 설명합니다.
로그 손실
선형 회귀 모듈에서는 제곱 손실 (다른 명칭: L2 손실)을 손실 함수. 제곱 손실은 선형 모델에서 출력값의 변화율이 일정한 모델입니다. 예를 들어 선형 모델 $y'가 주어지면 = b + 3x_1$로 바꾸어 입력합니다. 값이 $x_1$ 이면 1만큼 증가하면 출력 값 $y'$는 3만큼 증가합니다.
그러나 로지스틱 회귀 모델의 변화 속도는 일정하지 않습니다. 확률 계산에서 살펴본 것처럼 시그모이드 곡선은 s자형입니다. 살펴보겠습니다 로그 오즈 ($z$) 값이 0에 가까우면 작아집니다. $z$ 값이 증가하면 $z$ 값이 커질 때보다 $y$ 값이 훨씬 커집니다. 양 또는 음의 숫자입니다. 다음 표는 시그모이드 함수의 5~10 범위의 입력값 출력과 해당 정밀도 결과의 차이를 캡처하는 데 필요합니다.
입력 | 로지스틱 출력 | 필수 정밀도 자릿수 |
---|---|---|
5 | 0.993 | 3 |
6 | 0.997 | 3 |
7 | 0.999달러 | 3 |
8 | 0.9997 | 4 |
9 | 0.9999 | 4 |
10 | 0.99998 | 5 |
제곱 손실을 사용해 시그모이드 함수의 오차를 계산했다면
출력이 0
및 1
에 점점 가까워졌으며, 이를 위해서는 더 많은 메모리가 필요합니다.
정밀도를 유지할 수 있습니다.
대신 로지스틱 회귀의 손실 함수는 로그 손실. 이 로그 손실 방정식은 특정 시점이 아닌 훨씬 더 중요한 역할을 할 수 있습니다. 로그 손실은 다음과 같이 계산됩니다. 다음과 같습니다.
\(\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')\)
각 항목의 의미는 다음과 같습니다.
- \((x,y)\in D\) 는 라벨이 지정된 예가 많이 포함된 데이터 세트입니다. \((x,y)\) 페어링
- \(y\) 는 라벨이 있는 예의 라벨입니다. 이것은 로지스틱 회귀이므로 \(y\) 의 모든 값은 0 또는 1이어야 합니다.
- \(y'\) 는 해당 집합의 경우 모델의 예측입니다 (0~1 사이의 값). \(x\)의 기능
로지스틱 회귀의 정규화
정규화, 모델 복잡도에 페널티를 적용하는 것은 로지스틱 테스트에서 매우 중요합니다. 사용할 수 있습니다 정규화가 없으면 로지스틱의 점근성 특성이 회귀는 모델에 입력 값이 1이 되는 경우 많은 기능을 제공합니다 따라서 대부분의 로지스틱 회귀 모델은 모델의 복잡성을 줄이기 위한 다음 두 가지 전략이 있습니다.