머신러닝 용어집: ML 기초

이 페이지에는 ML 기초의 용어집 용어가 포함되어 있습니다. 모든 용어집 용어에 대해 여기를 클릭하세요.

A

정확성

#fundamentals

올바른 분류 예측 수를 나눈 값입니다. 계산할 수 있습니다. 이는 다음과 같은 의미입니다.

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

예를 들어 40번의 정확한 예측과 10번의 오답을 한 모델은 예측의 정확성은 다음과 같습니다.

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

이진 분류는 특정 이름을 제공함 여러 카테고리의 올바른 예측잘못된 예측. 이진 분류의 정확도 공식은 다음과 같습니다.

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

각 항목의 의미는 다음과 같습니다.

  • TP는 참양성 (올바른 예측)의 수입니다.
  • TN은 참음성 (올바른 예측)의 수입니다.
  • FP는 거짓양성 (잘못된 예측)의 수입니다.
  • FN은 거짓음성 (잘못된 예측)의 수입니다.

정확성 비교 및 대조 정밀도재현율

활성화 함수

#fundamentals

신경망이 학습할 수 있도록 하는 함수 특성 간의 nonlinear (복잡) 관계 라벨을 지정합니다

많이 사용되는 활성화 함수는 다음과 같습니다.

활성화 함수의 도표는 절대로 단일 직선이 아닙니다. 예를 들어 ReLU 활성화 함수의 도표는 두 개의 직선:

두 선의 데카르트 도표 첫 번째 줄에는
          x축을 따라 -무한대,0부터 0,-0까지 0의 y 값
          두 번째 줄은 0,0에서 시작합니다. 이 선의 경사는 +1이므로
          0,0에서 +무한대,+무한대까지입니다.

시그모이드 활성화 함수의 도표는 다음과 같습니다.

정의역에 걸쳐 있는 x값이 있는 2차원 곡선 플롯
          y값의 범위는 거의 0에서 +양까지입니다.
          거의 1. x가 0이면 y는 0.5입니다. 곡선의 기울기는 항상
          가장 높은 경사가 0.0.5에서 점차 감소하는 것을 보임
          x의 절댓값이 증가하면 기울기가 커집니다.

인공지능

#fundamentals

복잡한 작업을 해결할 수 있는 사람이 아닌 프로그램 또는 모델입니다. 예를 들어 텍스트를 번역하는 프로그램이나 모델이나 두 가지 모두 인공 지능을 보여주는 방사선 이미지를 통해 질병을 식별합니다.

공식적으로 머신러닝은 인공 신경망의 하위 분야입니다. 제공합니다 그러나 최근 몇 년 동안 일부 조직에서는 인공지능머신러닝이라는 용어는 동일한 의미로 사용되었습니다.

AUC (ROC 곡선 아래 영역)

#fundamentals

0.0에서 1.0 사이의 숫자로 이진 분류 모델의 포지티브 클래스네거티브 클래스를 사용합니다. AUC가 1.0에 가까울수록 모델의 분리 능력이 더 우수합니다. 클래스로 나눌 수 있습니다

예를 들어 다음 그림은 분류 기준 모델을 보여줍니다. 네거티브 클래스와 포지티브 클래스 (녹색 타원)를 구분하는 완벽하게 할 수 있습니다. 비현실적으로 완벽한 이 모델은 AUC 1.0:

한쪽에 양성 예 8개가 있는 수직선
          다른 쪽에는 부정적 예시가 9개 있습니다.

반대로 다음 그림은 분류 기준의 결과를 보여줍니다. 생성하는 모델입니다. 이 모델의 AUC는 0.5입니다.

양성 예 6개와 부정 예 6개가 있는 숫자 선입니다.
          예의 순서는 양성, 음성,
          긍정적, 부정적, 긍정적, 부정적, 긍정적, 부정적, 긍정적
          부정적, 긍정적, 부정적

예, 이전 모델의 AUC는 0.0이 아닌 0.5입니다.

대부분의 모델은 두 극단 사이의 어딘가에 있습니다. 예를 들어 모델이 양성을 음성과 다소 구분하므로 AUC가 0.5와 1.0 사이입니다.

양성 예 6개와 부정 예 6개가 있는 숫자 선입니다.
          예시의 순서는 부정, 부정, 부정, 음성,
          긍정적, 부정적, 긍정적, 긍정적, 부정적, 긍정적,
          긍정적입니다

AUC는 설정된 모든 값을 무시합니다 분류 임곗값입니다. 대신 AUC 가능한 모든 분류 임곗값을 고려합니다.

B

역전파

#fundamentals

인코더-디코더 아키텍처를 경사하강법신경망입니다.

신경망 학습에는 많은 반복이 포함됩니다. 다음 두 패스 사이클의 시작을 실행합니다.

  1. 정방향 전달 중에 시스템은 예시를 사용하여 예측을 도출합니다. 시스템은 각 포드를 각 label 값에 대한 예측을 수행합니다. Kubernetes와 해당 예의 손실입니다. 시스템은 모든 예시의 손실을 합산하여 합계를 계산합니다. 손실을 방지합니다.
  2. 역방향 전달 (역전파) 중에 시스템은 모든 뉴런의 가중치를 조정하면 히든 레이어.

신경망은 종종 여러 히든 레이어에 여러 뉴런을 포함합니다. 이러한 각 뉴런은 다양한 방식으로 전체 손실에 기여합니다. 역전파는 가중치를 늘리거나 줄일지 결정합니다. 특정 뉴런에 적용됩니다.

학습률은 각 역방향 전달이 각 가중치를 늘리거나 줄이는 정도입니다. 학습률이 크면 각 가중치가 기존 값보다 더 많이 학습률을 낮춥니다.

미적분 측면에서 역전파는 체인 규칙을 사용하여 새 연쇄 규칙을 적용할 수 있습니다. 알 수 있습니다. 즉, 역전파는 편미분 값을 인코더에 전달합니다.

몇 년 전만 해도 ML 실무자는 역전파를 구현하기 위해 코드를 작성해야 했습니다. 이제 TensorFlow와 같은 최신 ML API에서 역전파가 자동으로 구현됩니다. 다양한 혜택이 마음에 드셨나요?

일괄

#fundamentals

한 번의 학습에 사용된 예시의 집합 반복입니다. 배치 크기는 주어진 있습니다.

배치가 다음과 같은 관계에 어떻게 관련되는지에 관한 설명은 에포크를 참고하세요. 에포크를 기반으로 합니다.

배치 크기

#fundamentals

배치의 개수입니다. 예를 들어 배치 크기가 100이면 모델은 반복당 예시 100개

다음은 많이 사용되는 배치 크기 전략입니다.

  • 확률적 경사하강법 (SGD): 배치 크기가 1입니다.
  • 전체 배치, 배치 크기는 전체 예의 개수임 학습 세트와 일치합니다. 예를 들어 학습 세트가 예시가 백만 개 포함되어 있다면 배치 크기는 100만 개가 됩니다. 예로 들 수 있습니다 전체 배치는 일반적으로 비효율적인 전략입니다.
  • 미니 배치: 배치 크기는 일반적으로 10과 1000입니다. 일반적으로 미니 배치가 가장 효율적인 전략입니다.

편향(bias)(윤리학/공정성)

#fairness
#fundamentals

1. 특정 사물, 사람에 대한 고정 관념, 편견 또는 편견 할 수 있습니다. 이러한 편향은 데이터의 수집과 데이터 해석, 시스템 설계, 사용자 상호작용 방식 등 도움이 될 수 있습니다 이러한 유형의 편향은 다음과 같습니다.

2. 샘플링 또는 보고 절차로 인해 발생하는 계통 오차입니다. 이러한 유형의 편향은 다음과 같습니다.

머신러닝 모델의 편향 항과 혼동하지 마시기 바랍니다. 또는 예측 편향입니다.

편향(bias)(수학) 또는 편향 항

#fundamentals

원점으로부터의 절편 또는 오프셋입니다. 편향은 인코더-디코더 모델은 머신러닝 모델을 있습니다.

  • b
  • w0

예를 들어 다음 수식에서 편향은 b입니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

단순한 2차원 선에서 편향은 'y절편'을 의미합니다. 예를 들어 다음 그림에서 선의 편향은 2입니다.

기울기가 0.5이고 편향 (y절편)이 2인 선 도표입니다.

편향이 존재하는 이유는 모든 모델이 원점 (0,0)에서 시작하지 않기 때문입니다. 예를 들어 놀이공원이 입장료가 2유로이고 고객이 머무를 때마다 1시간에 0.5유로가 청구됩니다. 따라서 인코더-디코더 아키텍처를 최저 비용이 2유로이므로 총비용의 편향은 2입니다.

편향을 윤리 및 공정성의 편향과 혼동해서는 안 됩니다. 또는 예측 편향입니다.

이진 분류

#fundamentals

분류 작업의 한 유형으로, 다음 상호 배타적인 두 클래스 중 하나를 예측합니다.

예를 들어 다음 두 머신러닝 모델은 각각 이진 분류:

  • 이메일 메시지가 실제로 전송되는지 여부를 판단하는 스팸 (포지티브 클래스) 또는 스팸 아님 (네거티브 클래스)
  • 의학적 증상을 평가하여 어떤 사람이 감염되었는지를 판단하는 특정 질환이 있거나 (양성 클래스) 해당 질환이 없는 경우 정의합니다 (네거티브 클래스).

다중 클래스 분류와 대비되는 개념입니다.

로지스틱 회귀분류 임곗값.

버킷팅,

#fundamentals

단일 특성을 여러 바이너리 특성으로 변환 버킷 또는 일반적으로 값 범위를 기준으로 합니다. 잘린 지형지물은 일반적으로 연속 기능.

예를 들어 온도를 단일로 나타내는 대신 연속 부동 소수점 특성을 사용하여 다음과 같은 개별 버킷으로 분류할 수 있습니다.

  • 섭씨 10도 이하는 '추위' 버킷과 동기화할 수 있습니다
  • 섭씨 11~24도는 '온대'가 됩니다 버킷과 동기화할 수 있습니다
  • 섭씨 25도 이상이면 '따뜻하게' 버킷과 동기화할 수 있습니다

모델은 동일한 버킷의 모든 값을 동일하게 취급합니다. 대상 예를 들어 값 1322는 모두 임시 버킷에 있으므로 모델은 두 값을 동일하게 취급합니다.

C

범주형 데이터

#fundamentals

가능한 특정 값 집합을 갖는 특성입니다. 예를 들어 다음 중 하나에만 사용할 수 있는 traffic-light-state이라는 범주형 특성을 고려해 보세요. 다음 세 가지 값 중 하나를 갖습니다.

  • red
  • yellow
  • green

traffic-light-state를 범주형 특성으로 표현하면 모델이 학습하여 드라이버 동작에 미치는 red, green, yellow의 서로 다른 영향

범주형 특성은 범주형 특성 또는 불연속 특성.

수치 데이터와 대비되는 개념입니다.

클래스

#fundamentals

라벨이 속할 수 있는 카테고리입니다. 예를 들면 다음과 같습니다.

  • 이진 분류 모델에서는 스팸이라면 두 클래스는 스팸스팸 아님일 수 있습니다.
  • 다중 클래스 분류 모델 개의 품종을 식별하는 클래스로 푸들, 비글, 퍼그, 등등.

분류 모델은 클래스를 예측합니다. 반면에 회귀 모델은 숫자를 예측합니다. 수업이 아니라

분류 모델

#fundamentals

예측이 클래스모델입니다. 예를 들어 다음은 모두 분류 모델입니다.

  • 입력 문장의 언어 (프랑스어? 스페인어인가요? 이탈리아어).
  • 수종을 예측하는 모델 (단풍? 참나무? 바오밥?).
  • 특정 클래스의 포지티브 클래스 또는 네거티브 클래스를 예측하는 모델입니다. 있습니다.

반대로 회귀 모델은 숫자를 예측합니다. 아니었습니다.

분류 모델의 두 가지 일반적인 유형은 다음과 같습니다.

분류 임곗값

#fundamentals

이진 분류에서는 0과 1 사이의 숫자를 사용하여 로지스틱 회귀 모델 포지티브 클래스의 예측으로 변환 또는 네거티브 클래스를 구분할 수 있습니다. 분류 임곗값은 인간이 선택하는 값이며 모델 학습에서 선택한 값이 아닙니다.

로지스틱 회귀 모델은 0과 1 사이의 원시 값을 출력합니다. 그런 다음 아래를 실행합니다.

  • 이 원시 값이 분류 임곗값 보다 큰 경우 양성 클래스가 예측됩니다.
  • 이 원시 값이 분류 임곗값 미만이면 네거티브 클래스가 예측됩니다

예를 들어 분류 임계값이 0.8이라고 가정해 보겠습니다. 원시 값이 이 값이 0.9이면 모델이 포지티브 클래스를 예측합니다. 원시 값이 0.7이면 모델은 네거티브 클래스를 예측합니다.

분류 임곗값의 선택은 거짓양성거짓음성입니다.

클래스 불균형 데이터 세트

#fundamentals

총 개수가 각 클래스의 라벨 비율은 크게 다릅니다. 예를 들어 두 개의 라벨이 있는 이진 분류 데이터 세트를 가정해 보겠습니다. 다음과 같이 구분됩니다.

  • 제외 라벨 1,000,000개
  • 긍정 라벨 10개

음성 라벨 대 양성 라벨의 비율은 100,000 대 1이므로 클래스 불균형 데이터 세트입니다

반면에 다음 데이터 세트는 클래스 불균형이 아닙니다. 왜냐하면 양성 라벨에 대한 음성 라벨의 비율은 비교적 1에 가깝습니다.

  • 부정 라벨 517개
  • 긍정 라벨 483개

다중 클래스 데이터 세트는 클래스 불균형일 수도 있습니다. 예를 들어 다중 클래스 분류 데이터 세트 역시 클래스 불균형입니다. 이는 라벨이 하나인 에는 다른 두 가지보다 훨씬 많은 예시가 있습니다.

  • 클래스가 '녹색'인 라벨 1,000,000개
  • 클래스가 '보라색'인 라벨 200개
  • 'orange' 클래스가 있는 라벨 350개

엔트로피, 주요 클래스, 및 다수 범주에 대해 학습되었습니다.

클리핑

#fundamentals

이상점을 처리하는 기술 다음 중 하나 또는 둘 다:

  • 최댓값보다 큰 feature 값 줄이기 최대 임곗값까지 내려갑니다
  • 해당 값까지 최소 임곗값보다 작은 특성 값을 증가 최소 임곗값입니다.

예를 들어 특정 특성 값의 0.5% 미만이 40–60 범위를 벗어납니다. 이 경우 다음을 수행할 수 있습니다.

  • 60 (최대 임곗값)을 초과하는 모든 값을 정확히 60으로 자릅니다.
  • 40 (최소 임계값) 미만의 모든 값을 정확히 40으로 자릅니다.

이상점은 모델을 손상시켜 때때로 가중치를 유발할 수 있습니다. 오버플로가 발생할 수 있습니다. 일부 이상점은 또한 측정항목(예: 정확성) 클리핑은 없습니다.

경사 제한력 학습 중에 지정된 범위 내의 경사 값.

혼동 행렬

#fundamentals

올바른 예측과 잘못된 예측의 수를 요약하는 NxN 테이블 분류 모델에 의해 결정됩니다. 예를 들어, 다음 혼동 행렬을 떠올려 보세요 이진 분류 모델:

종양 (예측) 비종양 (예측)
종양 (정답) 18 (TP) 1 (FN)
비종양 (정답) 6 (FP) 452 (TN)

위의 혼동 행렬은 다음을 보여줍니다.

  • 정답이 종양이었던 예측 19개 중 모델이 18로 올바르게 분류하고 1로 잘못 분류했습니다.
  • 정답이 종양이 아닌 예측 458개 중에서 모델은 정확하게 분류한 452번과 6번 잘못 분류했습니다.

다중 클래스 분류의 혼동 행렬 문제는 실수의 패턴을 식별하는 데 도움이 될 수 있습니다. 예를 들어 클래스가 3개인 경우 다음과 같은 혼동 행렬을 떠올려 보세요. 세 가지 붓꽃 유형을 분류하는 다중 클래스 분류 모델 (Virginica, Versicolor 및 Setosa). 정답이 버지니카였을 때 혼동 행렬은 모델이 실수할 가능성이 훨씬 높다는 것을 Setosa 대비 Versicolor의 예측 예측:

  세토사 (예상) Versicolor (예측됨) 버지니카 (예상)
세토사 (정답) 88 12 0
Versicolor (정답) 6 141 7
버지니카 (정답) 2 27 109

또 다른 예로, 혼동 행렬을 통해 모델이 학습한 다음 손으로 쓴 숫자를 인식하면 4가 아닌 9를 잘못 예측하는 경향이 있습니다. 또는 7이 아닌 1로 잘못 예측한 것입니다.

혼동 행렬은 정밀도와 같은 다양한 성능 측정항목 및 재현율을 살펴보겠습니다.

연속 특성

#fundamentals

가능한 무한 범위가 있는 부동 소수점 특성 값을 포함할 수 있습니다.

불연속 특성과 대비되는 개념입니다.

수렴

#fundamentals

손실 값이 거의 변하지 않거나 각 반복에는 전혀 필요하지 않습니다. 예를 들어 손실 곡선은 약 700회의 반복에서 수렴을 나타냅니다.

데카르트 그래프 X축은 손실입니다. Y축은 학습 횟수
          있습니다. 처음 몇 번의 반복에서는 손실이 매우 높지만
          감소합니다 약 100회의 반복 후에도 손실은 여전히
          점점 더 점진적으로 내려가고 있습니다. 약 700회의 반복 후
          손실이 일정하지 않습니다.

추가 학습이 이루어지지 않으면 모델이 수렴됩니다. 모델을 개선할 수 있습니다

딥 러닝에서는 손실 값이 일정하거나 마침내 하강하기 전까지 여러 번 반복했습니다. 장기간 일시적으로 수렴이 잘못될 수 있습니다.

조기 중단을 참고하세요.

D

DataFrame

#fundamentals

데이터를 나타내는 데 널리 사용되는 Pandas 데이터 세트에 저장된 데이터 세트를 생성합니다

DataFrame은 테이블 또는 스프레드시트와 비슷합니다. 각 열의 각 열은 DataFrame에는 이름 (헤더)이 있고 각 행은 고유 번호입니다.

DataFrame의 각 열은 2D 배열처럼 구조화됩니다. 다만 각 열에 자체 데이터 유형을 할당할 수 있습니다.

자세한 내용은 pandas.DataFrame 참조 문서 페이지를 참고하세요.

데이터 세트는

#fundamentals

일반적으로 (그러나 배타적이지 않음) 하나로 구성된 원시 데이터 컬렉션입니다. 다음과 같은 형식으로 구성됩니다.

  • 스프레드시트
  • CSV (쉼표로 구분된 값) 형식의 파일

심층 모델

#fundamentals

둘 이상을 포함하는 신경망 히든 레이어.

심층 모델은 심층신경망이라고도 합니다.

와이드 모델과 대비되는 개념입니다.

밀집 특성(dense feature)

#fundamentals

대부분의 값 또는 모든 값이 0이 아닌 특성으로, 일반적으로 부동 소수점 값의 Tensor입니다. 예를 들어 요소가 10개인 텐서는 9개의 값이 0이 아니기 때문에 밀도가 높습니다.

8 3 7 5 2 4 0 4 9 6

희소 특성과 대비되는 개념입니다.

깊이

#fundamentals

신경망에서의 다음 총합은 다음과 같습니다.

예를 들어 히든 레이어 5개와 출력 레이어 1개가 있는 신경망 깊이가 6입니다.

입력 레이어는 영향을 줍니다.

불연속 특성

#fundamentals

가능한 값의 유한 집합을 갖는 특성입니다. 예를 들어 값이 동물, 채소, 광물 중 하나여야 하는 특성은 이산형 (또는 범주형) 특성입니다.

연속 특성과 대비되는 개념입니다.

동적

#fundamentals

자주 또는 지속적으로 수행되는 작업 머신러닝에서 동적온라인이라는 용어는 동의어입니다. 다음은 머신에서 동적온라인의 일반적인 용도입니다. 학습:

  • 동적 모델 (또는 온라인 모델)은 모델입니다. 재학습시키는 경우가 많습니다
  • 동적 학습 (또는 온라인 학습)은 학습 과정입니다. 관리할 수 있습니다
  • 동적 추론 (또는 온라인 추론)은 요청 시 예측 생성

동적 모델

#fundamentals

자주 (지속적일 수도 있음) 모델 있습니다 동적 모델은 '평생 학습자' 저것 진화하는 데이터에 지속적으로 적응합니다 동적 모델은 온라인 모델을 참조하세요.

정적 모델과 대비되는 개념입니다.

E

조기 중단

#fundamentals

종료를 포함하는 정규화 방법 학습 손실이 완료되기 학습 감소하고 있습니다. 조기 중단에서는 의도적으로 모델 학습을 중단합니다. 검증 데이터 세트의 손실이 increase; 즉, 일반화 성능이 악화됩니다.

임베딩 레이어

#language
#fundamentals

인코더-디코더에서 학습하는 특별한 히든 레이어는 고차원 범주형 특성을 사용하여 점진적으로 저차원 임베딩 벡터를 학습합니다. 임베딩 레이어를 사용하면 신경망이 더 효율적으로 사용하는 것이 좋습니다.

예를 들어 지구는 현재 약 73,000종의 수종을 지원합니다. 가정 수종은 모델의 특성이므로 모델의 특성은 원-핫 벡터 73,000을 포함하는 입력 레이어 요소의 긴 편입니다. 예를 들어 baobab는 다음과 같이 표현할 수 있습니다.

73,000개 요소의 배열 처음 6,232개의 요소는
     0. 다음 요소에는 값 1이 있습니다. 마지막 66,767개 요소는
     0으로 설정합니다.

요소 73,000개의 배열은 매우 깁니다. 임베딩 레이어를 추가하지 않는 경우 모델을 학습시키는 데 시간이 오래 걸리면 72,999개의 0을 곱합니다. 임베딩 레이어를 사용하여 12개 차원으로 이루어져 있습니다. 결과적으로 임베딩 레이어는 새로운 임베딩 벡터를 만들었습니다.

특정 상황에서는 해싱이 합리적인 대안입니다. 임베딩 레이어에 있습니다

에포크

#fundamentals

전체 학습 세트에 대한 전체 학습 패스 각 는 한 번씩 처리됩니다.

에포크는 N/배치 크기를 나타냅니다. 학습 반복으로, 여기서 N는 총 예시 수입니다.

예를 들어 다음과 같이 가정해 보겠습니다.

  • 데이터 세트는 1,000개의 예로 구성됩니다.
  • 배치 크기는 예시 50개입니다.

따라서 단일 에포크에는 20회의 반복이 필요합니다.

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

예시

#fundamentals

특성으로 구성된 한 행의 값과 필요한 경우 라벨입니다. 예시: 지도 학습은 일반 카테고리:

  • 라벨이 있는 예는 하나 이상의 특성으로 이루어져 있습니다. 라벨을 지정합니다 라벨이 있는 예는 학습 중에 사용됩니다.
  • 라벨이 없는 예는 하나 이상의 특성이 더 많지만 라벨은 없습니다 라벨이 없는 예는 추론 중에 사용됩니다.

예를 들어 모델을 학습시켜 모델 예측의 영향을 알아내고 기상 상황을 예측한 결과입니다. 다음은 라벨이 있는 3가지 예입니다.

기능 라벨
온도 습도 압력 테스트 점수
15 47 998 좋음
19 34 1020 매우 좋음
18 92 1012 나쁨

다음은 라벨이 없는 세 가지 예입니다.

온도 습도 압력  
12 62 1014  
21 47 1017  
19 41 1021  

데이터 세트의 행은 일반적으로 예의 원시 소스입니다. 즉, 한 예는 일반적으로 데이터 세트입니다. 또한 예시의 특성에는 합성 특성: 특성 교차를 수행합니다.

F

거짓음성 (FN)

#fundamentals

모델이 잘못된 예측을 수행하는 예는 네거티브 클래스와 비교됩니다. 예를 들어 모델은 특정 이메일 메시지가 스팸이 아님을 예측하는 경우 (네거티브 클래스)를 제공하지만, 해당 이메일 메시지는 실제로는 스팸입니다.

거짓양성 (FP)

#fundamentals

모델이 잘못된 예측을 수행하는 예는 포지티브 클래스와 같은 클래스입니다. 예를 들어 모델은 특정 이메일 메시지가 스팸 (포지티브 클래스)이지만 이메일 메시지가 사실 스팸이 아닙니다.

거짓양성률 (FPR)

#fundamentals

모델이 실수로 잘못 예측한 실제 음성 예시의 비율입니다. 양성 클래스를 예측했습니다. 다음 수식은 false를 계산합니다. 양성률:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

거짓양성률은 ROC 곡선의 x축입니다.

특징

#fundamentals

머신러닝 모델의 입력 변수입니다. 하나 이상의 기능으로 구성됩니다. 예를 들어 한 개의 신경망이 기상 조건이 학생의 시험 점수에 미치는 영향을 판단할 수 있습니다. 다음 표에는 세 가지 예가 나와 있으며 각 예에는 특성 3개, 라벨 1개:

기능 라벨
온도 습도 압력 테스트 점수
15 47 998 92
19 34 1020 84
18 92 1012 87

라벨과 대비되는 개념입니다.

특성 교차

#fundamentals

'교차'하여 형성되는 합성 특성 범주형 또는 버케팅 특성입니다.

예를 들어 '기분 예측'을 인코더-디코더 모델을 다음 네 개 버킷 중 하나에서 온도를 나타냅니다.

  • freezing
  • chilly
  • temperate
  • warm

다음 세 버킷 중 하나의 풍속을 나타냅니다.

  • still
  • light
  • windy

특성 교차가 없으면 선형 모델은 각 특성에 대해 독립적으로 학습합니다. 앞서 7개의 다양한 버킷이 있습니다 예를 들어 모델은 예를 들어 다음과 같은 학습과 관계없이 freezing를 사용할 수 있습니다. windy입니다.

또는 온도의 특성 교차와 풍속입니다. 이 합성 특성은 값:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

특성 교차 덕분에 모델이 기분 변화를 학습할 수 있습니다. freezing-windy일에서 freezing-still일 사이

각기 다른 많은 특성을 갖는 두 특성으로 합성 특성을 만들면 결과 특성 교차에는 엄청나게 많은 수의 조합할 수 있습니다. 예를 들어 한 특성에 1,000개의 버킷이 있고 다른 특성에는 버킷이 2,000개 있고 결과 특성 교차에는 2,000,000개의 버킷이 있습니다. 버킷과 동기화할 수 있습니다

공식적으로 십자가는 데카르트 곱.

특성 교차는 선형 모델에서 주로 사용되며 거의 사용되지 않습니다. 살펴보겠습니다

특성 추출 단계를 포함합니다

#fundamentals
#TensorFlow

프로세스에는 다음 단계가 포함됩니다.

  1. 유용한 특성 결정 매우 중요합니다
  2. 데이터 세트의 원시 데이터를 살펴보겠습니다

예를 들어 temperature가 유용할 수 있다고 판단할 수 있습니다. 기능을 사용할 수 있습니다. 그런 다음 버케팅을 실험해 볼 수 있습니다. 모델이 다양한 temperature 범위에서 학습할 수 있는 내용을 최적화합니다.

특성 추출이라고도 하며 특성 추출 또는 기능화.

특성 세트

#fundamentals

머신러닝의 특성 그룹 model을 학습합니다. 예를 들어 우편번호, 속성 크기, 속성 조건은 간단한 특성 세트를 구성하는 방법을 학습합니다.

특성 벡터

#fundamentals

요소를 구성하는 feature 값의 배열은 특성 벡터는 학습추론 도중에 발생합니다. 예를 들어 두 개의 개별 특성이 있는 모델의 특성 벡터입니다. 다음과 같을 수 있습니다.

[0.92, 0.56]

4개의 레이어: 입력 레이어, 히든 레이어 2개, 출력 레이어 1개
          입력 레이어에는 노드 두 개가 있으며, 그 중 하나는
          0.92이고 다른 하나는 값 0.56을 포함합니다.

각 예는 특성 벡터에 대해 서로 다른 값을 제공하므로 다음 예의 특성 벡터는 다음과 같을 수 있습니다.

[0.73, 0.49]

특성 추출은 특성 추출을 특성 벡터입니다. 예를 들어 5개의 가능한 값을 원-핫 인코딩. 이 경우 특성 벡터는 4개의 0으로 구성되고 다음과 같이 세 번째 위치에 단일 1.0을 표시합니다.

[0.0, 0.0, 1.0, 0.0, 0.0]

또 다른 예로, 모델이 다음 세 가지 특성으로 구성되어 있다고 가정해 보겠습니다.

  • 5개의 가능한 값을 갖는 이진 범주형 특성은 원-핫 인코딩 예: [0.0, 1.0, 0.0, 0.0, 0.0]
  • 3개의 가능한 값을 나타내는 또 다른 이진 범주형 특성 원-핫 인코딩을 사용합니다. 예: [0.0, 0.0, 1.0]
  • 부동 소수점 특성 예: 8.3

이 경우 각 예의 특성 벡터는 9개 값으로 나눈 값입니다. 위 목록의 예시 값을 고려할 때 특성 벡터는 다음과 같습니다.

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

피드백 루프

#fundamentals

머신러닝에서 모델의 예측이 모델 예측에 영향을 주는 상황은 학습 데이터를 얻는 방법을 학습하는 데 사용됩니다. 예를 들어 사람들이 보는 영화에 영향을 주게 되며, 후속 영화 추천 모델에 영향을 미칩니다.

G

일반화

#fundamentals

새로운 데이터 세트에 대해 올바른 예측을 수행하는 모델의 능력 데이터를 수집, 저장, 삭제할 수 있습니다 일반화할 수 있는 모델은 그 반대입니다 과적합 상태인 모델입니다.

일반화 곡선

#fundamentals

학습 손실유효성 검사 손실 반복입니다.

일반화 곡선을 사용하면 과적합입니다. 예를 들어 검증 손실로 인해 일반화 곡선이 과적합을 암시함 궁극적으로 학습 손실보다 훨씬 더 높아집니다.

y축에 손실 라벨이 지정되고 x축에 라벨이 지정된 데카르트 그래프
          반복 라벨이 지정되어 있습니다 두 개의 플롯이 나타납니다. 한 플롯은
          다른 하나는 검증 손실을
보여줍니다
          두 도표는 비슷하게 시작하지만 학습 손실은 결국
          감소하는 것을 확인할 수 있습니다.

경사하강법

#fundamentals

손실을 최소화하는 수학적 기법입니다. 경사하강법의 반복 조정 가중치편향, 점차적으로 손실을 최소화하기 위한 최적의 조합을 찾습니다.

경사하강법은 머신러닝보다 훨씬 오래되었으며 훨씬 더 오래되었습니다.

정답

#fundamentals

현실

실제로 발생한 일입니다.

예를 들어 이진 분류를 학생이 대학 진학 첫해인지 여부를 예측하는 모델 6년 이내에 졸업할 예정입니다 이 모델의 정답은 6년 안에 졸업한 건 아니다.

H

히든 레이어

#fundamentals

신경망의 레이어는 입력 레이어 (특성)와 출력 레이어 (예측)입니다. 각 히든 레이어는 하나 이상의 뉴런으로 구성됩니다. 예를 들어 다음 신경망에는 두 개의 히든 레이어가 있습니다. 첫 번째 모델에는 뉴런이 3개, 두 번째에는 뉴런이 2개 있습니다.

4개 레이어 첫 번째 레이어는 두 개의
          기능을 살펴보겠습니다 두 번째 레이어는 세 개의
          학습합니다. 세 번째 레이어는 두 개의
          학습합니다. 네 번째 레이어는 출력 레이어입니다 각 특성
          세 개의 모서리를 포함하며, 각 모서리는 서로 다른 뉴런을 가리킵니다.
          두 번째 레이어에 있습니다. 두 번째 레이어의 각 뉴런은
          두 개의 에지를 포함하며 각 모서리는 서로 다른 뉴런을 가리킵니다.
          세 번째 레이어에 있습니다 세 번째 레이어의 각 뉴런에는
          각각 출력 레이어를 가리키게 합니다.

심층신경망에는 둘 이상이 포함되어 있습니다. 히든 레이어입니다. 예를 들어 위 이미지는 모델이 2개의 히든 레이어를 포함하기 때문입니다.

초매개변수

#fundamentals

사용자 또는 초매개변수 조정 서비스가 사용하는 변수 모델을 학습시키는 과정에서 조정될 수 있습니다. 예를 들어 학습률은 초매개변수입니다. 다음과 같은 방법을 사용할 수 있습니다. 학습 세션 1회 전에 학습률을 0.01로 설정 만약 0.01이 너무 높다고 판단하는 경우 학습이 0.003으로 설정합니다

반면에 매개변수는 모델이 학습하는 가중치편향 학습하는 동안 학습합니다.

I

독립적이고 동일한 분포 (i.id)

#fundamentals

변하지 않는 분포에서 추출된 데이터 및 각 값이 이전에 그린 값에 의존하지 않습니다. i.i.d. 이상 기체는 기계의 유용한 수학적 구조이지만 생각해야 합니다. 예: 웹페이지 방문자 분포 i.i.d.일 수 있습니다. 짧은 기간 동안 즉, 분포가 한 사람의 방문은 일반적으로 정보를 전달합니다. 그러나 해당 기간을 확장하면 웹페이지 방문자 수에 따른 계절별 변동이 나타날 수 있습니다.

비고정성도 참고하세요.

추론

#fundamentals

머신러닝에서 모델을 학습시키는 데 사용된 학습된 모델을 라벨이 없는 예에 적용

추론은 통계에서 약간 다른 의미가 있습니다. 자세한 내용은 <ph type="x-smartling-placeholder"></ph> 자세한 내용은 통계적 추론에 대한 위키백과 문서를 참조하세요.

입력 레이어

#fundamentals

신경망의 하위 집합인 신경망특성 벡터를 보유합니다. 즉 입력 레이어는 학습에 대한 예시를 제공하거나 추론을 참조하세요. 예를 들어 아래의 입력 레이어는 신경망은 두 가지 특성으로 구성됩니다.

4개의 레이어: 입력 레이어, 히든 레이어 2개, 출력 레이어입니다.

해석 가능성

#fundamentals

ML 모델의 추론을 설명하거나 제시하는 능력 이해하는 것이 중요합니다.

예를 들어 대부분의 선형 회귀 모델은 해석할 수 있습니다 (학습된 각 모델에 대해 학습된 가중치만 feature.) 결정 포레스트는 해석 가능성이 높습니다. 그러나 일부 모델에서는 해석하기 위해서는 정교한 시각화가 필요합니다.

학습 통역 도구 (LIT) ML 모델을 해석하는 데 사용됩니다

반복

#fundamentals

모델의 매개변수(모델의 매개변수)에 대한 단일 업데이트 가중치편향: 학습을 참조하세요. 배치 크기는 모델이 한 번 반복으로 처리하는 예시의 수 예를 들면 다음과 같습니다. 배치 크기가 20이면 모델이 20개의 예를 처리한 다음 매개변수를 조정해야 합니다.

신경망 학습 시 1회 반복 다음 두 패스가 포함됩니다.

  1. 단일 배치의 손실을 평가하기 위한 정방향 전달입니다.
  2. 값을 조정하기 위한 역전파 (역전파) 손실과 학습률을 기준으로 모델의 매개변수를 조정할 수 있습니다

L

L0 정규화

#fundamentals

정규화의 한 유형은 0이 아닌 가중치총 개수에 페널티를 적용합니다. 나타냅니다. 예를 들어 0이 아닌 11개의 가중치를 갖는 모델은 0이 아닌 10개의 가중치를 갖는 유사 모델에 비해 더 페널티를 받게 됩니다.

L0 정규화를 L0-norm 정규화라고도 합니다.

L1 손실

#fundamentals

절댓값을 계산하는 손실 함수 실제 label 값과 모델이 예측하는 값입니다. 예를 들어 5인 배치의 L1 손실 계산 :

예시의 실제 값 모델의 예측값 델타의 절댓값
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 손실

L1 손실은 이상점에 덜 민감합니다. L2 손실 대비.

평균 절대 오차는 예시당 L1 손실

L1 정규화

#fundamentals

페널티를 주는 정규화의 일종으로 절댓값의 합에 비례하는 가중치 가중치를 부여하겠습니다. L1 정규화는 관련이 없는 가중치를 높여 거의 관련성 없는 특성을 정확히 0으로 설정할 수 있습니다 다음과 같은 특성 가중치 0은 모델에서 사실상 제거됩니다.

L2 정규화와 대비되는 개념입니다.

L2 손실

#fundamentals

제곱을 계산하는 손실 함수 실제 label 값과 모델이 예측하는 값입니다. 예를 들어 5인 배치에 대한 L2 손실 계산 :

예시의 실제 값 모델의 예측값 델타 제곱
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 손실

제곱으로 인해 L2 손실은 이상점. 즉, L2 손실은 L2 손실보다 잘못된 예측에 더 강하게 반응합니다. L1 손실. 예를 들어 L1 손실은 16이 아닌 8이 됩니다. 단일 포드가 이상점은 16개 중 9개를 차지합니다.

회귀 모델은 일반적으로 L2 손실을 사용합니다. 손실 함수로 사용합니다.

평균 제곱 오차는 예시당 L2 손실 제곱 손실은 L2 손실의 다른 이름입니다.

L2 정규화

#fundamentals

페널티를 주는 정규화의 일종으로 가중치의 제곱의 합에 비례하는 가중치입니다. L2 정규화는 이상점 가중치 (이러한 0에 가깝지만 0에 가깝지는 않습니다. 값이 0에 매우 가까운 특성은 모델에 남아 있습니다. 모델의 예측에는 큰 영향을 미치지 않습니다

L2 정규화는 선형 모델.

L1 정규화와 대비되는 개념입니다.

라벨

#fundamentals

지도 머신러닝에서 "답변" 또는 '결과' 일부 .

라벨이 있는 예는 하나 이상의 features 및 라벨이 포함됩니다. 예를 들어 감지 데이터 세트의 경우 라벨은 '스팸' 또는 또는 '스팸 아님'. 강우량 데이터 세트에서 라벨은 비가 내릴 수도 있습니다.

라벨이 있는 예

#fundamentals

하나 이상의 특성라벨을 포함할 수도 있습니다. 예를 들어, 다음 표에서는 라벨이 지정된 예시에는 각각 3가지 특성이 있으며 그리고 라벨 1개:

침실 수 욕실 수 연식 주택 가격 (라벨)
3 2 15 345,000달러
2 1 72 179,000달러
4 2 34 392,000달러

지도 머신러닝에서는 모델은 라벨이 있는 예를 학습하고 라벨이 없는 예.

라벨이 있는 예와 라벨이 없는 예를 비교합니다.

람다

#fundamentals

정규화율의 동의어입니다.

람다는 중복으로 정의된 용어입니다. 여기서는 정규화 내의 정의에 대해서도 다룹니다.

레이어

#fundamentals

모델의 뉴런 집합은 신경망입니다. 레이어의 일반적인 세 가지 유형 다음과 같습니다.

예를 들어 다음 그림은 신경망이 한 개의 입력 레이어, 두 개의 히든 레이어 및 한 개의 출력 레이어가 있습니다.

입력 레이어 1개, 히든 레이어 2개, 그리고 1개가 있는 신경망
          출력 레이어입니다. 입력 레이어는 두 가지 특성으로 구성됩니다. 첫 번째
          히든 레이어는 세 개의 뉴런과 두 번째 히든 레이어로 구성되며
          두 개의 뉴런으로 구성됩니다. 출력 레이어는 단일 노드로 구성됩니다.

TensorFlow에서 레이어는 또한 입력으로 사용되는 텐서 및 구성 옵션 다른 텐서를 출력으로 생성합니다.

학습률

#fundamentals

경사하강법을 알려주는 부동 소수점 수 각 레이어의 가중치와 편향을 얼마나 강하게 조정할지 반복입니다. 예를 들어 학습률이 0.3이면 학습률보다 3배 더 강력한 가중치와 편향 조정 0.1입니다.

학습률은 핵심적인 초매개변수입니다. 만약 학습률이 너무 낮으면 학습이 너무 오래 걸립니다 만약 학습률을 너무 높게 설정하면 경사하강법에서 종종 수렴 도달

선형

#fundamentals

단독으로 표현할 수 있는 둘 이상의 변수 간의 관계 덧셈과 곱셈을 통해 학습합니다.

선형 관계 도표는 선입니다.

nonlinear과 대비되는 개념입니다.

선형 모델

#fundamentals

1대당 하나의 가중치를 할당하는 모델 특성을 사용하여 예측을 수행합니다. 선형 모델에는 편향도 포함됩니다. 반면 심층 모델의 특성과 예측의 관계 일반적으로 nonlinear입니다.

선형 모델은 일반적으로 학습이 더 쉽고 해석 가능합니다. 하지만 심층 모델은 특성 복잡한 관계를 학습할 수 있습니다.

선형 회귀로지스틱 회귀는 선형 모델의 두 가지 유형입니다.

선형 회귀

#fundamentals

다음 두 가지 조건에 모두 해당하는 머신러닝 모델의 한 유형입니다.

  • 모델은 선형 모델입니다.
  • 예측은 부동 소수점 값입니다. (이는 선형 회귀회귀 부분).

선형 회귀를 로지스틱 회귀와 비교합니다. 또한 회귀를 분류와 대조합니다.

로지스틱 회귀

#fundamentals

확률을 예측하는 회귀 모델의 한 유형입니다. 로지스틱 회귀 모델에는 다음과 같은 특성이 있습니다.

  • 라벨은 범주형입니다. 로지스틱이라는 회귀는 일반적으로 이진 로지스틱 회귀를 의미합니다. 가능한 두 개의 값을 가진 라벨의 확률을 계산하는 모델로 변환합니다. 덜 일반적인 변형인 다항 로지스틱 회귀는 3개 이상의 가능한 값이 있는 라벨에 대한 확률을 계산합니다.
  • 학습 중 손실 함수는 로그 손실입니다. (라벨에 대해 여러 로그 손실 단위를 병렬로 배치할 수 있음 3개 이상의 값으로 구성된 경우)
  • 모델에 심층신경망이 아닌 선형 아키텍처가 있습니다. 그러나 이 정의의 나머지 부분은 확률을 예측하는 심층 모델 사용할 수 있습니다

예를 들어 로지스틱 회귀 모델이 있다고 가정해 보겠습니다. 입력 이메일이 스팸이거나 스팸이 아닐 가능성이 있습니다. 추론 중에 모델이 0.72를 예측한다고 가정해 보겠습니다. 따라서 예측하는 데 사용됩니다.

  • 이메일이 스팸일 가능성은 72% 입니다.
  • 이메일이 스팸이 아닐 확률은 28% 입니다.

로지스틱 회귀 모델은 다음과 같은 2단계 아키텍처를 사용합니다.

  1. 모델이 선형 함수를 적용하여 원시 예측 (y')을 생성 학습합니다.
  2. 모델은 이 원시 예측을 입력으로 사용하여 시그모이드 함수: 원시 데이터를 변환합니다. 0과 1 사이의 값(0과 1 제외)으로 설정할 수 있습니다

다른 회귀 모델과 마찬가지로 로지스틱 회귀 모델은 숫자를 예측합니다. 그러나 이 숫자는 일반적으로 이진 분류의 일부가 됩니다. 모델은 다음과 같습니다.

  • 예측된 숫자가 더 큰 경우 분류 임곗값인 포지티브 클래스를 예측합니다.
  • 예측된 숫자가 분류 임곗값보다 작은 경우 이진 분류 모델은 네거티브 클래스를 예측합니다.

로그 손실

#fundamentals

바이너리에 사용되는 손실 함수 로지스틱 회귀.

로그 오즈

#fundamentals

특정 이벤트의 확률에 대한 로그입니다.

손실

#fundamentals

학습을 진행하는 동안 지도 모델은 학습자가 각 단계에서 모델의 예측라벨에서 가져옵니다.

손실 함수는 손실을 계산합니다.

손실 곡선

#fundamentals

학습 횟수에 대한 함수로서의 손실 도표 반복입니다. 다음 도표는 전형적인 손실 곡선:

손실과 학습 반복의 데카르트 그래프로,
          손실이 급격히 감소한 후
점진적으로 감소하다가
          평평한 경사를 이루면서 최종 반복이
발생하는 것을 볼 수 있습니다

손실 곡선은 모델이 수렴 또는 과적합 중 하나입니다.

손실 곡선은 다음 유형의 손실을 모두 표시할 수 있습니다.

일반화 곡선도 참고하세요.

손실 함수

#fundamentals

학습 또는 테스트 중에 인코더-디코더의 예의 배치에 대한 손실입니다. 손실 함수는 더 낮은 손실을 반환 더 나은 예측을 제공하는 모델보다 잘못된 예측입니다.

학습의 목표는 일반적으로 손실 함수의 손실을 최소화하는 것입니다. 반환합니다.

다양한 종류의 손실 함수가 존재합니다. 적절한 손실 선택 함수를 만들 수 있습니다. 예를 들면 다음과 같습니다.

M

머신러닝

#fundamentals

학습시킨다고 학습하는 프로그램이나 model을 생성합니다. 학습된 모델은 Google Cloud에서 추출한 모델을 학습시키는 데 사용된 것과 동일한 분포가 생성됩니다

머신러닝은 머신러닝과 관련된 연구 분야도 뜻합니다. 문제가 발생할 수 있습니다.

다수 범주

#fundamentals

인코더에서 보다 일반적인 클래스 불균형 데이터 세트입니다. 예를 들어 99% 의 음성 라벨 및 1% 의 양성 라벨이 포함된 데이터 세트가 있을 경우 제외 라벨이 대다수 클래스입니다

다수 범주와 대비되는 개념입니다.

미니 배치

#fundamentals

한 번에 처리되는 배치 중 무작위로 선택된 소규모 하위 집합 반복입니다. 미니 배치의 배치 크기는 일반적으로 다음과 같습니다. 10개에서 1,000개 사이의 예시로 들 수 있습니다.

예를 들어 학습 세트 전체 (전체 배치)가 예시로 구성됩니다 또한 배치 크기를 20으로 설정합니다. 따라서 각 반복은 1,000개의 예시 중 무작위로 20개의 손실을 결정한 다음 는 이에 따라 가중치편향을 조정합니다.

미니 배치에서 손실을 계산하는 것이 손실을 예측한다는 것을 알 수 있습니다.

소수 범주

#fundamentals

클래스 불균형 데이터 세트입니다. 예를 들어 99% 의 음성 라벨 및 1% 의 양성 라벨이 포함된 데이터 세트가 있을 경우 양성 라벨은 소수 범주입니다.

주요 클래스와 대비되는 개념입니다.

모델

#fundamentals

일반적으로 입력 데이터를 처리하고 출력됩니다. 다른 표현으로, 모델은 매개변수와 구조 집합으로 표현됩니다. 매우 짧은 시간 안에 필요할 수 있습니다 지도 머신러닝에서는 모델은 예시를 입력으로 사용하여 predict를 출력으로 반환합니다. 지도 머신러닝에서는 약간의 차이가 있을 수 있습니다 예를 들면 다음과 같습니다.

  • 가중치 집합으로 구성되는 선형 회귀 모델 편향입니다.
  • 신경망 모델은 다음으로 구성됩니다. <ph type="x-smartling-placeholder">
      </ph>
    • 각각 하나 이상의 레이어를 포함하는 히든 레이어 집합 더 많은 뉴런을 학습합니다.
    • 각 뉴런과 관련된 가중치 및 편향입니다.
  • 결정 트리 모델은 다음으로 구성됩니다. <ph type="x-smartling-placeholder">
      </ph>
    • 나무의 모양 즉, 특정 입력 시퀀스에 대한 잎이 연결되어 있습니다.
    • 조건 및 종료

모델을 저장, 복원하거나 사본을 만들 수 있습니다.

또한 비지도 머신러닝은 일반적으로 입력 예시를 가장 적합한 클러스터를 찾습니다.

다중 클래스 분류

#fundamentals

지도 학습에서 분류 문제는 데이터 세트에 3개 이상 클래스의 라벨이 포함되어 있습니다. 예를 들어 Iris 데이터세트의 라벨은 다음 중 하나여야 합니다. 세 가지 클래스를 제공합니다

  • 이리스 세토사
  • 버지니카 붓꽃
  • 버시컬러 홍채

새로운 예에서 홍채 유형을 예측하는 Iris 데이터세트로 학습된 모델 다중 클래스 분류를 수행하고 있습니다.

반면에 정확히 두 개의 데이터 레이크를 클래스는 이진 분류 모델입니다. 예를 들어 스팸 또는 스팸 아님을 예측하는 이메일 모델 이진 분류 모델입니다.

클러스터링 문제에서 다중 클래스 분류는 두 개의 클러스터가 있습니다

N

네거티브 클래스

#fundamentals

이진 분류에서는 양성으로, 다른 하나를 음수라고 합니다. 포지티브 클래스는 모델이 테스트하는 대상 또는 이벤트이며 네거티브 클래스는 가능성이 있습니다. 예를 들면 다음과 같습니다.

  • 의료 검사의 네거티브 클래스는 '종양 아님'일 수 있습니다.
  • 이메일 분류기의 네거티브 클래스는 '스팸 아님'일 수 있습니다.

포지티브 클래스와 대비되는 개념입니다.

출력은

#fundamentals

하나 이상을 포함하는 모델 히든 레이어. 심층신경망은 신경망의 한 유형입니다. 둘 이상의 히든 레이어를 포함합니다 예를 들어 2개의 히든 레이어가 포함된 심층신경망을 보여줍니다.

입력 레이어, 히든 레이어 2개, 그리고
          출력 레이어입니다.

신경망의 각 뉴런은 다음 레이어의 모든 노드에 연결됩니다. 예를 들어 앞의 다이어그램에서 3개의 뉴런 각각은 첫 번째 히든 레이어에서 두 뉴런에 별도로 연결되고 두 번째 히든 레이어입니다.

컴퓨터에 구현된 신경망을 때때로 인공 신경망을 사용하여 고유한 신경망과 뇌와 다른 신경계에서 발견되는 신경망입니다.

일부 신경망은 매우 복잡한 비선형 관계를 모방할 수 있음 라벨을 지정합니다.

컨볼루셔널 신경망순환 신경망(RNN)입니다.

뉴런

#fundamentals

머신러닝에서 히든 레이어 내의 고유한 단위 신경망의 특성입니다. 각 뉴런은 다음 작업을 수행합니다. 2단계 작업:

  1. 입력 값의 가중치가 적용된 합계를 곱하여 계산합니다. 가중치를 할당합니다.
  2. 가중치가 적용된 합계를 활성화 함수.

첫 번째 히든 레이어의 뉴런이 특성값의 입력을 허용 입력 레이어에 위치하게 됩니다. 다음 히든 레이어에 있는 뉴런 첫 번째는 앞의 히든 레이어에 있는 뉴런의 입력을 받습니다. 예를 들어 두 번째 히든 레이어의 뉴런은 뉴런을 생성합니다.

다음 그림은 두 개의 뉴런과 인코더-디코더입니다

입력 레이어, 히든 레이어 2개, 그리고
          출력 레이어입니다. 두 개의 뉴런(첫 번째 뉴런 1개)이 강조표시됨
          다른 하나는 두 번째 히든 레이어에 있습니다. 하이라이트된
          두 특성의 입력을 받는 첫 번째 히든 레이어의 뉴런
          입력 레이어에 있습니다. 두 번째 히든 레이어에서 강조 표시된 뉴런
          첫 번째 히든 레이어에서 세 개의 뉴런으로부터
          레이어가 있습니다

신경망의 뉴런은 뇌의 뉴런 행동을 모방하고 신경계의 다른 부분이기 때문입니다.

노드 (신경망)

#fundamentals

히든 레이어뉴런

nonlinear

#fundamentals

단독으로 표현할 수 없는 둘 이상의 변수 간의 관계 덧셈과 곱셈을 통해 학습합니다. 선형 관계 선으로 표현할 수 있습니다. nonlinear 관계는 선으로 표현됩니다. 예를 들어, 각각 특성과 관련이 있는 두 개의 모델을 하나의 특성을 단일 라벨에 추가할 수 있습니다 왼쪽의 모델은 선형입니다. 오른쪽의 모델은 비선형입니다.

플롯 2개 한 도표는 선이므로 선형 관계입니다.
          다른 플롯은 곡선이므로 비선형 관계입니다.

비정상성

#fundamentals

하나 이상의 측정기준(일반적으로 시간)에서 값이 변경되는 특성입니다. 예를 들어 다음과 같은 비고정성의 예를 생각해 보세요.

  • 특정 매장에서 판매되는 수영복의 수는 계절에 따라 다릅니다.
  • 특정 지역에서 수확한 특정 과일의 수량 은 일 년 내내 0이지만 짧은 기간 동안은 큰 수치입니다.
  • 기후 변화로 인해 연간 평균 기온이 변화하고 있습니다.

정상성과 대비되는 개념입니다.

정규화

#fundamentals

일반적으로 변수의 실제 범위를 변환하는 과정 값을 표준 값 범위로 변환합니다. 예를 들면 다음과 같습니다.

  • -1 ~ +1
  • 0~1
  • 정규 분포

예를 들어 특정 특성의 실제 값 범위가 800~2,400입니다. 특성 추출의 일환으로 실제 값을 표준 범위로 정규화할 수 있습니다. -1에서 +1로 설정합니다.

정규화는 모델 아키텍처에서 특성 추출을 수행합니다. 일반적으로 모델의 학습 속도가 더 빠름 (그리고 더 나은 예측을 생성)할 수 있습니다. 특성 벡터의 범위가 거의 동일합니다.

수치 데이터

#fundamentals

정수 또는 실수로 표현되는 특성입니다. 예를 들어 주택 평가 모델은 가격을 기준으로 (제곱피트 또는 제곱미터로 표시한) 주택의 데이터를 수치 데이터로 얻을 수 있습니다. 대표성 숫자 데이터로서의 특성은 특성의 값이 라벨에 대한 수학적 관계입니다. 즉, 집의 제곱미터에는 집의 가치와 수학적 관계를 맺을 수 있습니다.

모든 정수 데이터를 수치 데이터로 표현해서는 안 됩니다. 예를 들어 우편번호는 정수입니다. 정수 우편 모델에서 숫자 데이터로 표현해서는 안 됩니다. 그 이유는 20000의 우편번호는 다음 우편번호보다 두 배 또는 절반 더 강력하지 않습니다. 10,000명입니다. 또한 서로 다른 우편번호는 서로 서로 다른 우편번호가 아닌 지역의 부동산 가격이 20000은 우편번호가 10000인 부동산 가치의 두 배입니다. 우편번호는 범주형 데이터로 표현되어야 합니다. 하세요.

숫자 특성은 연속 기능.

O

오프라인

#fundamentals

정적의 동의어입니다.

오프라인 추론

#fundamentals

모델에서 예측 배치를 생성하는 프로세스 이러한 예측을 캐시 (저장)할 수 있습니다. 그러면 앱은 추론된 이미지에 액세스할 수 있는 캐시에서 예측을 다시 실행할 수 있습니다.

지역 일기예보를 생성하는 모델을 예로 들어보겠습니다. 4시간마다 한 번) 모델이 실행될 때마다 시스템은 모든 지역 일기예보를 캐시합니다. 날씨 앱이 일기예보 검색 삭제합니다.

오프라인 추론을 정적 추론이라고도 합니다.

온라인 추론과 대비되는 개념입니다.

원-핫 인코딩

#fundamentals

범주형 데이터를 벡터로 표현하는 방법은 다음과 같습니다.

  • 요소 한 개가 1로 설정됩니다.
  • 다른 요소는 모두 0으로 설정됩니다.

원-핫 인코딩은 일반적으로 가능한 값의 유한한 집합을 갖는 것입니다. 예를 들어 이름이 Scandinavia에는 다음과 같은 5가지 값이 있을 수 있습니다.

  • '덴마크'
  • '스웨덴'
  • '노르웨이'
  • '핀란드'
  • "아이슬란드"

원-핫 인코딩은 5개의 값 각각을 다음과 같이 나타낼 수 있습니다.

국가 벡터
'덴마크' 1 0 0 0 0
'스웨덴' 0 1 0 0 0
'노르웨이' 0 0 1 0 0
'핀란드' 0 0 0 1 0
"아이슬란드" 0 0 0 0 1

원-핫 인코딩 덕분에 모델은 여러 네트워크 간의 기준으로 삼았습니다.

특성을 숫자 데이터로 표현하는 것은 원-핫 인코딩의 대안입니다 안타깝게도 숫자로 된 스칸디나비아 국가는 좋은 선택이 아닙니다. 예를 들어 다음과 같은 숫자 표현을 고려하세요.

  • '덴마크' 0
  • '스웨덴' 1
  • '노르웨이' 2
  • '핀란드' 3
  • "아이슬란드" 4

숫자 인코딩을 사용하면 모델은 원시 숫자를 해석하여 해당 숫자로 학습하려고 할 것입니다. 하지만 아이슬란드는 실제 몸과 비하면 이상한 결론에 도달하게 될 것입니다.

일대다

#fundamentals

N 클래스의 분류 문제가 주어지면 N 로 분리되어 있는 이진 분류기—하나의 이진 분류기 예측해 보겠습니다. 예를 들어 모델이 예시를 분류하는 경우 일대다 솔루션은 세 개의 개별적인 이진 분류기입니다.

  • 동물 또는 동물 아님
  • 식물성 대 식물 아님
  • 광물 대 광물 아님

online

#fundamentals

동적의 동의어입니다.

온라인 추론

#fundamentals

요청에 따라 예측을 생성합니다. 예를 들어 앱이 모델에 입력을 전달하고 모델에 대한 요청을 학습합니다. 온라인 추론을 사용하는 시스템은 다음을 실행하여 요청에 응답합니다. 앱에 예측을 반환합니다.

오프라인 추론과 대비되는 개념입니다.

출력 레이어

#fundamentals

'최종' 신경망 레이어입니다 출력 레이어에는 예측이 포함됩니다.

다음 그림은 입력이 있는 작은 심층신경망을 보여줍니다. 히든 레이어 2개, 출력 레이어로 구성됩니다.

입력 레이어 1개, 히든 레이어 2개, 그리고 1개가 있는 신경망
          출력 레이어입니다. 입력 레이어는 두 가지 특성으로 구성됩니다. 첫 번째
          히든 레이어는 세 개의 뉴런으로 구성되고 두 번째 히든 레이어는
          두 개의 뉴런으로 구성됩니다. 출력 레이어는 단일 노드로 구성됩니다.

과적합

#fundamentals

다음과 일치하는 모델 만들기 너무 가깝게 학습 데이터를 만들어 모델이 새로운 데이터에 대한 올바른 예측을 할 수 있습니다.

정규화는 과적합을 줄일 수 있습니다. 크고 다양한 학습 세트를 학습하면 과적합도 줄일 수 있습니다.

P

pandas

#fundamentals

Numpy를 기반으로 빌드된 열 기반 데이터 분석 API입니다. 많은 머신러닝 프레임워크, 를 포함하여 Pandas 데이터 구조를 입력으로 지원합니다. 자세한 내용은 Pandas 문서 참조하세요.

parameter

#fundamentals

모델이 학습하는 가중치편향 학습을 참조하세요. 예를 들어 선형 회귀 모델에서 매개변수는 다음과 같이 구성됩니다. 편향 (b)과 모든 가중치 (w1, w2, 등)을 다음 공식으로 계산합니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

반면에 초매개변수사용자 (또는 초매개변수 선회 서비스)가 모델에 공급합니다. 예를 들어 학습률은 초매개변수입니다.

양성 클래스

#fundamentals

테스트 중인 클래스입니다.

예를 들어, 암 모델의 포지티브 클래스는 '종양'일 수 있습니다. 이메일 분류기의 포지티브 클래스는 '스팸'일 수 있습니다.

네거티브 클래스와 대비되는 개념입니다.

후처리

#fairness
#fundamentals

모델이 실행된 모델의 출력을 조정합니다. 후처리를 사용하면 추가 작업 없이도 공정성 제약 조건을 적용할 수 있으며, 모델 자체를 수정합니다.

예를 들어 이진 분류기에 후처리를 적용할 수 있습니다. 분류 임곗값을 설정하여 기회의 균등이 유지됨 일부 속성의 경우 참양성률이 해당 속성의 모든 값에 대해 동일합니다.

예측

#fundamentals

모델의 출력입니다. 예를 들면 다음과 같습니다.

  • 이진 분류 모델의 예측은 양성 또는 네거티브 클래스와 같습니다.
  • 다중 클래스 분류 모델의 예측은 하나의 클래스입니다.
  • 선형 회귀 모델의 예측은 숫자입니다.

프록시 라벨

#fundamentals

데이터 세트에서 직접 사용할 수 없는 라벨의 근사치를 계산하는 데 사용되는 데이터입니다.

예를 들어 직원 수를 예측하도록 모델을 학습시켜야 한다고 가정하겠습니다. 도움이 됩니다. 데이터 세트에 많은 예측 특성이 포함되어 있지만 스트레스 수치라는 라벨이 없습니다. 당연히 '직장 내 사고'를 선택하죠. 에 대한 프록시 라벨로 도움이 됩니다. 결국 스트레스를 많이 받는 직원들은 사고를 더 많이 덜어줍니다. 아니면 실제로 발생했나요? 직장 내 사고일 수도 있음 실제로 여러 가지 이유로 오르락내리락을 하고 있습니다.

두 번째 예로, is it raining?을 부울 라벨이 되도록 하고 싶다고 가정해 보겠습니다. 데이터 세트에 비 데이터가 포함되어 있지 않습니다. 만약 사용할 수 있는 경우에는 사람들의 사진을 비가 오나요?에 대한 프록시 라벨로 우산을 들고 있습니다. 맞나요 좋은 프록시 라벨은 무엇일까요? 그럴 수도 있겠지만, 일부 문화의 사람들은 비보다 햇빛으로부터 보호하기 위해 우산을 가지고 다닐 가능성이 높습니다.

프록시 라벨은 불완전하는 경우가 많습니다. 가능한 경우 실제 라벨 대신 사용할 수 있습니다 즉, 실제 라벨이 없는 경우 라벨을 매우 신중히 선택하여 최악의 프록시 라벨 후보를 선택합니다.

R

RAG

#fundamentals

약어 검색 증강 생성.

평가자

#fundamentals

예시라벨을 제공하는 사람입니다. "주석자" 평가자의 또 다른 이름입니다.

정류 선형 유닛 (ReLU)

#fundamentals

다음과 같은 동작을 갖는 활성화 함수입니다.

  • 입력이 음수이거나 0이면 출력은 0입니다.
  • 입력이 양수이면 출력은 입력과 같습니다.

예를 들면 다음과 같습니다.

  • 입력이 -3이면 출력은 0입니다.
  • 입력이 +3이면 출력은 3.0입니다.

다음은 ReLU의 도표입니다.

두 선의 데카르트 도표 첫 번째 줄에는
          x축을 따라 -무한대,0부터 0,-0까지 0의 y 값
          두 번째 줄은 0,0에서 시작합니다. 이 선의 경사는 +1이므로
          0,0에서 +무한대,+무한대까지입니다.

ReLU는 매우 널리 사용되는 활성화 함수입니다. 간단한 동작에도 불구하고 ReLU는 여전히 신경망이 nonlinear을 학습할 수 있도록 합니다. 특성라벨 간의 관계를 나타냅니다.

회귀 모델

#fundamentals

비공식적으로 수치 예측을 생성하는 모델입니다. (반대로 분류 모델은 클래스를 생성합니다. prediction.) 예를 들어 다음은 모두 회귀 모델입니다.

  • 423,000유로와 같이 특정 주택의 가치를 예측하는 모델입니다.
  • 23.2년과 같이 특정 나무의 기대 수명을 예측하는 모델입니다.
  • 특정 도시에 강수량을 예측하는 모델 0.18인치와 같이 계산됩니다.

회귀 모델의 일반적인 두 가지 유형은 다음과 같습니다.

  • 선형 회귀: 가장 적합한 선을 찾습니다. 라벨 값을 특성에 맞춥니다.
  • 로지스틱 회귀는 0.0에서 1.0 사이의 확률로 시스템이 일반적으로 클래스에 매핑할 확률 학습합니다.

수치 예측을 출력하는 모든 모델이 회귀 모델인 것은 아닙니다. 경우에 따라 수치 예측은 실제로는 단순한 분류 모델일 뿐입니다. 숫자 클래스 이름이 있습니다. 예를 들어 숫자 우편번호는 회귀 모델이 아닌 분류 모델입니다.

정규화

#fundamentals

과적합을 줄이는 모든 메커니즘 정규화의 일반적인 유형은 다음과 같습니다.

정규화는 모델의 복잡도에 미치는 페널티로도 정의할 수 있습니다.

정규화율

#fundamentals

상대적 중요도를 지정하는 숫자 정규화: 목표 정규화율은 과적합을 줄여주지만 모델의 예측 성능이 저하됩니다 반대로 정규화율은 과적합을 증가시킵니다.

ReLU

#fundamentals

정류 선형 유닛의 약어입니다.

검색 증강 생성 (RAG)

#fundamentals

테크닉의 질을 대규모 언어 모델 (LLM) 출력 모델을 학습시킨 후 얻은 지식 소스로 그라운딩해야 합니다. RAG는 학습된 LLM에 다음과 같은 특성을 제공하여 신뢰할 수 있는 기술 자료 또는 문서에서 가져온 정보에 대한 액세스

검색 증강 생성을 사용하는 일반적인 동기는 다음과 같습니다.

  • 모델에서 생성된 응답의 사실 정확성을 높입니다.
  • 모델이 학습하지 않은 지식에 대한 액세스 권한 부여
  • 모델이 사용하는 지식 변경
  • 모델이 출처를 인용할 수 있도록 설정합니다.

예를 들어 화학 앱이 PaLM을 사용한다고 가정하겠습니다. API로 요약 생성 관련이 있습니다. 앱의 백엔드가 쿼리를 수신하면 백엔드는 다음을 충족해야 합니다.

  1. 사용자의 검색어와 관련된 데이터를 검색('검색')합니다.
  2. 사용자의 검색어에 관련 화학 데이터를 추가('보강')합니다.
  3. 추가된 데이터를 기반으로 요약을 만들도록 LLM에 지시합니다.

ROC (수신자 조작 특성) 곡선

#fundamentals

참양성률과 참양성률의 비교 그래프 다양한 거짓양성률 바이너리의 분류 임곗값 있습니다.

ROC 곡선의 모양은 이진 분류 모델의 능력을 시사함 포지티브 클래스를 네거티브 클래스와 분리합니다. 예를 들어 이진 분류 모델은 모든 음성과 모든 포지티브 클래스의 클래스:

오른쪽에 긍정적 예 8개가 있는 수직선
          왼쪽에는 부정적인 예시가 7개 있습니다.

이전 모델의 ROC 곡선은 다음과 같습니다.

ROC 곡선 x축은 거짓양성률이고 y축은
          참양성률입니다 곡선은 반전된 L 모양입니다. 곡선
          (0.0,0.0)에서 시작하여 (0.0,1.0)까지 곧장 올라갑니다. 그런 다음 곡선은
          (0.0,1.0)에서 (1.0,1.0)으로 변합니다.

반면에 다음 그림은 원시 로지스틱 회귀를 그래프로 나타낸 것입니다. 네거티브 클래스와 분리할 수 없는 열악한 모델의 경우 모두 긍정적 클래스:

양수 예와 음수 클래스가 있는 수직선
          완전히 섞여 있습니다.

이 모델의 ROC 곡선은 다음과 같습니다.

ROC 곡선은 실제로 (0.0, 0.0)에서부터 시작되는 직선입니다.
          (1.0,1.0)으로 변경합니다.

한편 현실에서는 대부분의 이진 분류 모델은 어느 정도는 정확하지만 일반적으로 완벽하지는 않습니다. 따라서 일반적인 ROC 곡선은 두 극단 사이의 어딘가에 있습니다.

ROC 곡선 x축은 거짓양성률이고 y축은
          참양성률입니다 불안정한 원호에 가까운 ROC 곡선
          서쪽에서 북쪽으로 나침반 지점을 가로지릅니다.

ROC 곡선상의 (0.0,1.0)에 가장 가까운 점은 이론적으로 이상적인 분류 임곗값입니다. 그러나 실질적으로는 몇 가지 다른 문제가 이상적인 분류 임곗값을 선택하는 데 영향을 미칩니다. 예를 들어 아마도 거짓음성은 거짓양성보다 훨씬 더 많은 문제를 야기할 것입니다.

AUC라는 숫자 측정항목은 ROC 곡선을 다음과 같이 요약합니다. 단일 부동 소수점 값입니다.

평균 제곱근 오차(RMSE)

#fundamentals

평균 제곱 오차의 제곱근입니다.

S

시그모이드 함수

#fundamentals

'스퀴시'하는 수학적 함수 제한된 범위로 제한하고 일반적으로 0~1 또는 -1~+1입니다. 즉, 어떤 숫자 (2, 백만, 음의 십억)을 시그모이드로 변환할 수 있으며 출력은 여전히 범위를 좁혀야 합니다. 시그모이드 활성화 함수의 도표는 다음과 같습니다.

정의역에 걸쳐 있는 x값이 있는 2차원 곡선 플롯
          y값의 범위는 거의 0에서 +양까지입니다.
          거의 1. x가 0이면 y는 0.5입니다. 곡선의 기울기는 항상
          가장 높은 경사가 0.0.5에서 점차 감소하는 것을 보임
          x의 절댓값이 증가하면 기울기가 커집니다.

시그모이드 함수는 머신러닝에서 다음과 같은 여러 용도로 사용됩니다.

소프트맥스

#fundamentals

데이터에서 가능한 각 클래스의 확률을 구하는 함수 다중 클래스 분류 모델. 확률의 합은 정확하게 1.0이 됩니다. 예를 들어 다음 표는 소프트맥스에서 확률 분포를 사용하여

이미지 유형 확률
0.85
고양이 0.13
0.02

소프트맥스는 전체 소프트맥스라고도 합니다.

후보 샘플링과 대비되는 개념입니다.

희소 특성

#language
#fundamentals

대부분의 값이 0이거나 비어 있는 특성입니다. 예를 들어 하나의 값 1개와 백만 개의 0 값을 포함하는 특성은 희소. 반대로 밀집 특성은 대부분의 경우 0이 아니거나 비어 있습니다.

머신러닝에서 희소 특성은 놀라울 정도로 많습니다. 범주형 특성은 일반적으로 희소 특성입니다. 예를 들어, 한 숲에서 300종의 수목 중에서 단풍나무만 식별할 수도 있습니다. 또는 수백만 개의 가장 가능성이 높은 동영상을 찾는다면 한 가지 예를 통해 '카사블랑카'만 입력하면 됩니다.

모델에서는 일반적으로 희소 특성을 원-핫 인코딩. 원-핫 인코딩이 큰 경우에는 임베딩 레이어를 레이어의 원-핫 인코딩을 사용해 효율성을 높입니다.

희소 표현

#language
#fundamentals

희소 지형지물에 0이 아닌 요소의 위치만 저장합니다.

예를 들어 species라는 범주형 특성이 볼 수 있습니다. 또한 각 example은 단일 종만 식별합니다.

원-핫 벡터를 사용하여 각 예에서 수종을 나타낼 수 있습니다. 원-핫 벡터에는 단일 1( 35개의 0 (해당 예의 특정 수종) 이 예에서는 없는 수종 35종). 즉, 원-핫 표현은 maple의 상태는 다음과 같을 수 있습니다.

위치 0에서 23까지의 값이 0, position을 보유하는 벡터입니다.
          24에는 값 1이 있고, 위치 25~35에는 값 0이 있습니다.

반면에 희소 표현은 단순히 주어진 요소의 위치를 식별합니다. 찾을 수 있습니다. maple이 위치 24에 있으면 희소 표현입니다. maple의 관계는 다음과 같습니다.

24

희소 표현은 원-핫보다 훨씬 간결하다는 것을 알 수 있습니다. 나타냅니다.

희소 벡터

#fundamentals

값이 대부분 0인 벡터입니다. 희소성도 참조하세요. 특성희소성을 모두 고려합니다.

제곱 손실

#fundamentals

L2 손실의 동의어입니다.

정적

#fundamentals

지속이 아닌 한 번만 수행하는 작업 용어 정적오프라인은 동의어입니다. 다음은 머신에서 정적오프라인의 일반적인 용도입니다. 학습:

  • 정적 모델 (또는 오프라인 모델)은 한 번 학습된 모델입니다. 한동안 사용되었습니다.
  • 정적 학습 (또는 오프라인 학습)은 정적 모델입니다.
  • 정적 추론 (또는 오프라인 추론)은 모델이 한 번에 일괄 예측을 생성하는 프로세스입니다.

동적과 대비되는 개념입니다.

정적 추론

#fundamentals

오프라인 추론의 동의어입니다.

정상성

#fundamentals

하나 이상의 측정기준(일반적으로 시간)에서 값이 변경되지 않는 특성입니다. 예를 들어 2021년에 값이 거의 같은 특성과 2023년 전시관이 정상성입니다.

실제로 정상성을 나타내는 기능은 거의 없습니다. 짝수 지형지물 시간의 경과에 따른 안정성 (해수면 등) 변화와 동의어입니다.

비고정성과 대비되는 개념입니다.

확률적 경사하강법 (SGD)

#fundamentals

경사하강법 알고리즘으로, 경사하강법은 batch size는 1입니다. 다시 말해 SGD는 균일하게 선택된 단일 예를 학습 세트에서 무작위로 선택합니다.

지도 머신러닝

#fundamentals

특성과 특성에서 모델을 학습시킵니다. 해당하는 라벨입니다. 지도 머신러닝은 일련의 질문을 공부하여 과목을 학습하고 표시됩니다. 질문과 답변 사이의 매핑을 마스터한 후 학생은 이전에 본 적 없는 새로운 질문에 대한 답변을 제공할 수 있습니다. 동일한 주제의 질문이 있습니다.

비교 대상 비지도 머신러닝입니다.

합성 특성

#fundamentals

입력 특성 중에는 없는 특성이지만 그것들 중 하나 이상으로 조립되었습니다. 합성 특성을 만드는 메서드 다음이 포함됩니다.

  • 연속 특성을 범위 빈으로 버케팅합니다.
  • 특성 교차를 생성합니다.
  • 하나의 특성 값에 다른 특성 값을 곱하거나 나누기 또는 자체로 수행됩니다. 예를 들어 ab가 입력 특성인 경우 다음은 합성 특성의 예입니다. <ph type="x-smartling-placeholder">
      </ph>
    • ab
    • a2
  • 특성 값에 초월 함수 적용 예를 들어 c 입력 특성인 경우 다음은 합성 특성의 예입니다. <ph type="x-smartling-placeholder">
      </ph>
    • sin(c)
    • ln(c)

정규화 또는 확장을 통해 생성된 특성 합성 특성으로 간주되지 않습니다.

T

테스트 손실

#fundamentals

모델의 손실을 나타내는 측정항목 테스트 세트 모델을 빌드할 때 테스트 손실을 최소화하려고 합니다 낮은 테스트 손실은 낮은 학습 손실보다 더 강한 품질 신호 또는 낮은 유효성 검사 손실입니다.

경우에 따라 테스트 손실과 학습 손실 또는 검증 손실 사이에 큰 격차가 있음 더 낮은 타겟 CPM의 값을 정규화율.

학습

#fundamentals

이상적인 매개변수 (가중치 및 편향)을 모델으로 구성해 보세요. 학습 중에 시스템은 예시와 점진적으로 매개변수를 조정합니다. 학습에서는 몇 번에서 수십억 회에 이르기도 합니다.

학습 손실

#fundamentals

일정 기간 동안 모델의 손실을 나타내는 측정항목 특정 학습 반복을 측정할 수 있습니다 예를 들어 손실 함수가 평균 제곱 오차입니다. 아마도 학습 손실 (평균 이때의 학습 손실은 10번째 반복에서 2.2이고 100번째 반복은 1.9입니다.

손실 곡선은 손실과 학습 손실의 수를 비교하여 표시합니다. 있습니다. 손실 곡선은 학습에 대해 다음과 같은 힌트를 제공합니다.

  • 하향 경사는 모델이 개선되고 있음을 의미합니다.
  • 위쪽 경사는 모델이 점점 더 나빠지고 있음을 의미합니다.
  • 기울기가 평평한 경우 모델이 수렴.

예를 들어 다음과 같이 다소 이상화된 손실 곡선은 표시:

  • 초기 반복 중 가파른 하향 경사로, 이는 다음을 의미합니다. 모델을 신속하게 개선할 수 있습니다.
  • 끝부분에 가까워질 때까지 점진적으로 평탄해지는 (그러나 계속 하향) 경사 이는 모델이 100%의 학습률로 계속 개선되고 있음을 의미합니다. 속도가 느리다는 것을 의미합니다
  • 학습이 종료될 때의 평평한 경사로, 수렴을 나타냅니다.

학습 손실 대 반복 플롯 이 손실 곡선은
     경사가 급격히 하강합니다. 기울기가 점진적으로 평평해지면
     기울기가 0이 됩니다.

학습 손실이 중요하지만 일반화.

학습-제공 편향

#fundamentals

일정 기간 동안 모델 성능 간의 학습과 동일한 모델의 성능을 게재.

학습 세트

#fundamentals

모델 학습에 사용되는 데이터 세트의 하위 집합입니다.

일반적으로 데이터 세트의 예는 다음 세 가지로 나뉩니다. 고유 하위 집합:

이상적으로 데이터 세트의 각 예는 다음 중 하나에만 속해야 합니다. 선행 하위 집합을 학습합니다. 예를 들어 하나의 예시가 학습 세트와 검증 세트에 모두 적용할 수 있습니다.

참음성 (TN)

#fundamentals

모델이 올바르게 예측한 네거티브 클래스에 속합니다. 예를 들어 모델은 특정 이메일 메시지가 스팸이 아니며 해당 이메일 메시지가 실제로 스팸인 경우 스팸 아님:

참양성 (TP)

#fundamentals

모델이 올바르게 예측한 포지티브 클래스 예를 들어 모델은 스팸인 경우를 생각해 볼 수 있습니다.

참양성률 (TPR)

#fundamentals

재현율의 동의어입니다. 이는 다음과 같은 의미입니다.

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

참양성률은 ROC 곡선의 y축입니다.

U

과소적합

#fundamentals

예측 능력이 떨어지는 모델 생성은 모델이 학습 데이터의 복잡성을 완전히 포착하지 못한 경우입니다. 문제 많음 다음과 같은 과소적합이 발생할 수 있습니다.

라벨이 없는 예

#fundamentals

특성은 포함하고 라벨은 포함하지 않는 예입니다. 예를 들어 다음 표에는 라벨이 지정되지 않은 주택의 세 가지 예시가 나와 있습니다. 3가지 특징이 있지만 주택 가치는 없음:

침실 수 욕실 수 연식
3 2 15
2 1 72
4 2 34

지도 머신러닝에서는 모델은 라벨이 있는 예를 학습하고 라벨이 없는 예.

준지도비지도 학습 라벨이 없는 예가 학습에 사용됩니다.

라벨이 없는 예를 라벨이 있는 예와 대조하세요.

비지도 머신러닝

#clustering
#fundamentals

데이터 세트에서 패턴을 찾도록 모델을 학습시킵니다. 일반적으로 라벨이 지정되지 않은 데이터 세트입니다.

비지도 머신러닝의 가장 일반적인 용도는 데이터를 클러스터링 그룹화할 수 있습니다. 예를 들어 비지도 머신은 다양한 속성을 기반으로 곡을 클러스터링할 수 있는 학습 알고리즘 있습니다. 결과 클러스터는 다른 머신에 대한 입력이 될 수 있음 음악 추천 서비스 등을 예로 들 수 있습니다. 클러스터링은 유용한 라벨이 없거나 없을 때 도움이 될 수 있습니다. 예를 들어 악용 및 사기 방지와 같은 영역에서 클러스터가 인간이 데이터를 더 잘 이해할 수 있게 되었습니다.

지도 머신러닝과 대비되는 개념입니다.

V

validation

#fundamentals

모델 품질의 초기 평가입니다. 검증은 모델의 예측 품질을 검증세트와 같습니다.

검증세트는 학습 세트와 다르기 때문에 검증은 과적합을 방지하는 데 도움이 됩니다.

검증세트를 기준으로 모델을 평가하는 것은 1차 테스트 및 6개월 예측을 통해 테스트 세트를 두 번째 테스트로 사용합니다.

검증 손실

#fundamentals

모델의 손실을 나타내는 측정항목 특정 기간에 검증 세트를 학습의 반복

일반화 곡선도 참고하세요.

검증 세트

#fundamentals

초기 데이터 세트를 수행하는 데이터 세트의 하위 집합 학습된 모델을 기준으로 평가합니다. 일반적으로 학습된 모델을 여러 검증 세트와 비교하여 테스트 세트를 기준으로 모델을 평가합니다.

일반적으로 데이터 세트의 예를 다음 세 가지로 나눕니다. 고유 하위 집합:

이상적으로 데이터 세트의 각 예는 다음 중 하나에만 속해야 합니다. 선행 하위 집합을 학습합니다. 예를 들어 하나의 예시가 학습 세트와 검증 세트에 모두 적용할 수 있습니다.

W

무게

#fundamentals

모델이 다른 값과 곱하는 값입니다. 학습은 모델의 이상적인 가중치를 결정하는 프로세스입니다. 추론은 학습된 가중치를 사용해 예측하기.

가중치가 적용된 합계

#fundamentals

모든 관련 입력 값의 합계에 해당하는 값을 곱한 값입니다. 학습합니다. 예를 들어 관련 입력이 다음과 같이 구성되어 있다고 가정해 보겠습니다.

입력 값 입력 가중치
2 -1.3점
-1 0.6
3 0.4

따라서 가중치가 적용된 합계는 다음과 같습니다.

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

가중치가 적용된 합계는 활성화 함수.

Z

Z-점수 정규화

#fundamentals

원시 데이터를 대체하는 조정 기술 feature 값을 해당 특성 평균으로부터의 표준 편차 수를 계산합니다. 예를 들어 평균이 800이고 표준이 0인 특성을 편차는 100입니다. 다음 표는 Z-점수 정규화를 보여줍니다. 다음과 같이 원시 값을 Z-점수에 매핑합니다.

원본 값 Z-점수
800 0
950 +1.5
575 -2.25

그런 다음 머신러닝 모델이 Z-점수를 학습합니다. 해당 특성에 대한 예측을 적극적으로 실행할 수 있습니다