머신러닝 용어집

이 용어집에서는 일반적인 머신러닝 용어 외에 용어를 알아봤습니다

A

절제

특성의 중요도를 평가하는 기법 또는 구성요소를 일시적으로 삭제하여 모델에서 삭제할 수 있습니다. 그런 다음 해당 특성 또는 구성요소 없이 모델을 재학습시키고, 재학습된 모델이 성능이 훨씬 더 악화되는 경우, 제거된 기능이나 구성요소가 중요할 수 있습니다

예를 들어 특정 분류 모델 10가지 특성의 정밀도를 88% 달성 테스트 세트. 중요도 확인 방법 9개의 다른 특성만 사용하여 모델을 재학습시킬 수 있습니다. 기능을 살펴보겠습니다 재학습된 모델의 성능이 훨씬 더 나쁜 경우 (예: 55% 의 정밀도) 제거된 특성이 중요했을 수 있습니다. 반대로 만약 재학습된 모델이 똑같이 잘 작동한다면 해당 특성은 아마도 그렇게 중요하지 않습니다.

절제는 다음 사항의 중요성을 판단하는 데에도 도움이 될 수 있습니다.

  • 더 큰 구성요소(예: 더 큰 ML 시스템의 전체 하위 시스템)
  • 프로세스 또는 기술(예: 데이터 전처리 단계)

두 경우 모두 시스템의 성능이 어떻게 변하는지 관찰하거나 변경되지 않음)이 표시됩니다.

A/B 테스트

두 가지 이상의 기법 (A)을 비교하는 통계적 방법 B를 반환합니다. 일반적으로 A는 기존의 기법이며 B는 새로운 기법입니다. A/B 테스트를 통해 어떤 기법의 실적이 더 우수한지를 파악할 수 있을 뿐 아니라 차이가 통계적으로 유의미한지도 알 수 있습니다.

A/B 테스트는 일반적으로 두 가지 기법에서 단일 측정항목을 비교합니다. 예를 들어 두 경우의 모델 정확도는 어떻게 해야 할까요? 그러나 A/B 테스트는 유한한 수의 실험과 측정항목입니다.

가속기 칩

#GoogleCloud

키 작업을 수행하도록 설계된 특수 하드웨어 구성요소의 카테고리입니다. 머신러닝 알고리즘에 필요한 컴퓨팅 속도에 더 많은 시간을 투자할 수 있습니다

가속기 칩 (또는 간단히 가속기)은 학습 및 추론 작업의 속도와 효율성 향상 훨씬 더 강력합니다. 학습 및 배포를 위한 신경망 및 이와 유사한 계산 집약적 작업에서 비롯됩니다.

가속기 칩의 예는 다음과 같습니다.

  • 전용 하드웨어가 포함된 Google의 Tensor Processing Unit (TPU) 딥 러닝을 지원합니다
  • NVIDIA의 GPU는 처음에 그래픽 처리용으로 설계되었지만, 병렬 처리를 가능하게 하여 설계되었으며, 처리 속도 향상

정확성

#fundamentals

올바른 분류 예측 수를 나눈 값입니다. 계산할 수 있습니다. 이는 다음과 같은 의미입니다.

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

예를 들어 40번의 정확한 예측과 10번의 오답을 한 모델은 예측의 정확성은 다음과 같습니다.

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

이진 분류는 특정 이름을 제공함 여러 카테고리의 올바른 예측잘못된 예측. 이진 분류의 정확도 공식은 다음과 같습니다.

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

각 항목의 의미는 다음과 같습니다.

  • TP는 참양성 (올바른 예측)의 수입니다.
  • TN은 참음성 (올바른 예측)의 수입니다.
  • FP는 거짓양성 (잘못된 예측)의 수입니다.
  • FN은 거짓음성 (잘못된 예측)의 수입니다.

정확성 비교 및 대조 정밀도재현율

분류: 정확성, 재현율, 정밀도 및 관련 항목 참조 측정항목 에서 머신러닝 단기집중과정을 참조하세요.

action

#rl

강화 학습에서는 에이전트가 에이전트에 의해 의 상태 간에 전환이 환경 에이전트는 정책

활성화 함수

#fundamentals

신경망이 학습할 수 있도록 하는 함수 특성 간의 nonlinear (복잡) 관계 라벨을 지정합니다

많이 사용되는 활성화 함수는 다음과 같습니다.

활성화 함수의 도표는 절대로 단일 직선이 아닙니다. 예를 들어 ReLU 활성화 함수의 도표는 두 개의 직선:

두 선의 데카르트 도표 첫 번째 줄에는
          x축을 따라 -무한대,0부터 0,-0까지 0의 y 값
          두 번째 줄은 0,0에서 시작합니다. 이 선의 경사는 +1이므로
          0,0에서 +무한대,+무한대까지입니다.

시그모이드 활성화 함수의 도표는 다음과 같습니다.

정의역에 걸쳐 있는 x값이 있는 2차원 곡선 플롯
          y값의 범위는 거의 0에서 +양까지입니다.
          거의 1. x가 0이면 y는 0.5입니다. 곡선의 기울기는 항상
          가장 높은 경사가 0.0.5에서 점차 감소하는 것을 보임
          x의 절댓값이 증가하면 기울기가 커집니다.

신경망: 활성화 함수 에서 머신러닝 단기집중과정을 참조하세요.

능동적 학습

학습 접근 방식에서는 알고리즘이 학습하는 데이터의 일부를 선택합니다. 능동적 학습 라벨이 있는 예가 있는 경우에 구하기가 부족하거나 비용이 많이 듭니다. 맹목적으로 다양한 종류의 콘텐츠를 라벨이 있는 예의 범위에 속하며, 능동적 학습 알고리즘은 학습에 필요한 특정 범위의 예시를 제공합니다.

AdaGrad

인코더-디코더의 크기를 재조정하는 정교한 경사하강법 알고리즘 각 매개변수의 경사를 통해 각 매개변수를 효과적으로 독립적인 학습률입니다. 자세한 설명은 다음을 참조하세요. 이 AdaGrad 자료를 참고하세요.

에이전트

#rl

강화 학습에서는 엔터티는 얻을 수 있는 예상 수익을 최대화하기 위한 정책 광고 항목의 상태 간에 환경.

좀 더 일반적으로 말하면 에이전트는 에이전트를 자율적으로 계획하고 실행하는 소프트웨어입니다. 변화에 적응하는 기능을 통해 목표를 추구하는 일련의 행동 활용할 수 있습니다 예를 들어 LLM 기반 에이전트는 강화 학습 정책을 적용하는 대신 LLM을 사용하여 계획을 생성합니다.

병합형 군집화

#clustering

계층적 군집화를 참고하세요.

이상 감지

이상점을 식별하는 프로세스입니다. 예를 들어 평균이 공식은 표준 편차가 10이고 특정 특성이 100인 경우 이상 감지는 200을 의심스러운 값으로 신고합니다.

AR

증강 현실의 약어입니다.

PR 곡선 아래 영역

PR AUC (PR 곡선 아래 영역)를 참고하세요.

ROC 곡선 아래 면적

AUC (ROC 곡선 아래 영역)를 참고하세요.

인공지능

광범위한 문제 해결을 보여주는 인간이 아닌 메커니즘 창의성, 적응성 등이 있습니다 예를 들어, 인공 신경망을 보여 주는 프로그램은 텍스트를 번역하고, 교향곡을 작곡하고, 그리고 아직 발명되지 않은 게임입니다.

인공지능

#fundamentals

복잡한 작업을 해결할 수 있는 사람이 아닌 프로그램 또는 모델입니다. 예를 들어 텍스트를 번역하는 프로그램이나 모델이나 두 가지 모두 인공 지능을 보여주는 방사선 이미지를 통해 질병을 식별합니다.

공식적으로 머신러닝은 인공 신경망의 하위 분야입니다. 제공합니다 그러나 최근 몇 년 동안 일부 조직에서는 인공지능머신러닝이라는 용어는 동일한 의미로 사용되었습니다.

Attention,

#language

신경망에서 사용되는 메커니즘으로, 특정 단어 또는 단어의 중요성을 나타냅니다. 시선 감지 모델이 다음 토큰/단어를 예측하는 데 필요한 정보의 양입니다. 일반적인 주목 메커니즘은 입력 세트에 대한 가중치가 적용된 합계로, 각 입력의 가중치는 학습합니다.

셀프 어텐션멀티 헤드 셀프 어텐션(multi-head self-Attention)으로 Transformer의 빌딩 블록과 일치합니다.

LLM: 대규모 언어란? 무엇인가요? 에서 머신러닝 단기집중과정을 시청하세요.

속성

#fairness

기능의 동의어입니다.

머신러닝 공정성에서 속성은 종종 다음을 나타냅니다. 개인에게 적용되는 특성을 말합니다.

속성 샘플링

#df

결정 포레스트를 학습시키기 위한 전략 결정 트리는 가능한 데이터의 무작위 하위 집합만 고려합니다. 특성을 사용하여 상태를 학습할 수 있습니다. 일반적으로 특성의 다른 하위 집합이 각 노드입니다. 반면에 의사 결정 트리를 학습시킬 때 속성을 샘플링하지 않으면 각 노드에 대해 가능한 모든 특성이 고려됩니다.

AUC (ROC 곡선 아래 영역)

#fundamentals

0.0에서 1.0 사이의 숫자로 이진 분류 모델의 포지티브 클래스네거티브 클래스를 사용합니다. AUC가 1.0에 가까울수록 모델의 분리 능력이 더 우수합니다. 클래스로 나눌 수 있습니다

예를 들어 다음 그림은 분류 기준 모델을 보여줍니다. 네거티브 클래스와 포지티브 클래스 (녹색 타원)를 구분하는 완벽하게 할 수 있습니다. 비현실적으로 완벽한 이 모델은 AUC 1.0:

한쪽에 양성 예 8개가 있는 수직선
          다른 쪽에는 부정적 예시가 9개 있습니다.

반대로 다음 그림은 분류 기준의 결과를 보여줍니다. 생성하는 모델입니다. 이 모델의 AUC는 0.5입니다.

양성 예 6개와 부정 예 6개가 있는 숫자 선입니다.
          예의 순서는 양성, 음성,
          긍정적, 부정적, 긍정적, 부정적, 긍정적, 부정적, 긍정적
          부정적, 긍정적, 부정적

예, 이전 모델의 AUC는 0.0이 아닌 0.5입니다.

대부분의 모델은 두 극단 사이의 어딘가에 있습니다. 예를 들어 모델이 양성을 음성과 다소 구분하므로 AUC가 0.5와 1.0 사이입니다.

양성 예 6개와 부정 예 6개가 있는 숫자 선입니다.
          예시의 순서는 부정, 부정, 부정, 음성,
          긍정적, 부정적, 긍정적, 긍정적, 부정적, 긍정적,
          긍정적입니다

AUC는 설정된 모든 값을 무시합니다 분류 임곗값입니다. 대신 AUC 가능한 모든 분류 임곗값을 고려합니다.

분류: ROC 및 AUC 에서 머신러닝 단기집중과정을 참조하세요.

증강 현실

#image

컴퓨터로 생성된 이미지를 사용자가 보는 화면에 겹쳐서 표시하는 기술 따라서 복합 보기를 제공합니다.

자동 인코더

#language
#image

데이터에서 가장 중요한 정보를 추출하는 방법을 학습하여 있습니다. 자동 인코더는 인코더디코더. 자동 인코더는 다음과 같은 2단계 프로세스에 의존합니다.

  1. 인코더는 일반적으로 손실이 있는 저차원에 입력을 매핑합니다. (중급) 형식으로 표시됩니다.
  2. 디코더는 인코더-디코더를 매핑하여 원본 입력의 손실 버전을 낮은 차원의 형식을 고차원 형식으로 원본으로 입력 형식을 사용합니다.

자동 인코더는 디코더가 자체 캡션 데이터 세트를 인코더의 중간 형식에서 원본 입력을 최대한 가깝게 하고 있습니다. 중간 형식이 더 작기 때문에 인코더가 원래 형식보다 (저차원)일 경우 자동 인코더가 어떤 정보가 중요한지 학습하기만 하면 출력은 입력과 완전히 동일할 것입니다.

예를 들면 다음과 같습니다.

  • 입력 데이터가 그래픽인 경우, 정확하지 않은 사본은 다음과 유사합니다. 원본 그래픽이지만 약간 수정되었습니다. 아마도 정확하게 일치하지 않는 카피는 원본 그래픽에서 노이즈를 제거하거나 일부 누락된 픽셀이 있습니다.
  • 입력 데이터가 텍스트이면 오토인코더는 원본 텍스트와 유사하지만 동일하지는 않습니다.

변분 자동 인코더도 참조하세요.

자동화 편향

#fairness

의사 결정권자가 자동화된 시스템의 추천을 더 선호하는 경우 자동화 없이 생성된 정보에 대한 의사결정 시스템을 데이터 애널리스트가 사용할 수 있도록 하는 것입니다.

공정성: 편향 에서 머신러닝 단기집중과정을 참조하세요.

AutoML

머신러닝 빌드를 위한 자동화된 프로세스 모델을 지원합니다. AutoML은 다음과 같은 작업을 자동으로 수행할 수 있습니다.

  • 가장 적절한 모델을 검색합니다.
  • 초매개변수를 조정합니다.
  • 데이터 준비( 특성 추출)에 사용할 수 있습니다.
  • 결과 모델을 배포합니다.

AutoML은 데이터 과학자에게 유용합니다. 시간을 절약하고 머신러닝 파이프라인을 개발하고 예측을 개선하기 위한 노력 있습니다. 또한 전문 용어에 얽매이지 않고 복잡하게 만들 수 있기 때문에 머신러닝 작업에 더 쉽게 액세스할 수 있습니다

자동화된 머신을 참조하세요. 학습 (AutoML) 에서 머신러닝 단기집중과정을 참조하세요.

자동 회귀 모델

#language
#image
#generativeAI

자체적인 이전 정보를 바탕으로 예측을 추론하는 모델 학습합니다. 예를 들어 자동 회귀 언어 모델은 token을 실행합니다. 모든 Transformer 기반 대규모 언어 모델은 자동 회귀적입니다.

반면에 GAN 기반 이미지 모델은 일반적으로 자동 회귀적이지 않습니다. 이미지를 하나의 정방향 패스로 생성하고 학습합니다. 하지만 특정 이미지 생성 모델은 자동 회귀적을 수행합니다. 단계별로 이미지를 생성합니다.

보조 손실

손실 함수: 손실 함수 신경망 모델의 기본 손실 함수를 사용하여 학습 도중에 학습을 가속화하는 데 도움이 되며 가중치가 무작위로 초기화되는 초기 반복

효과적인 경사를 푸시하는 보조 손실 함수 레이어로 변환합니다. 이렇게 하면 학습수렴 경사 소실 문제를 해결함으로써 이 문제를 해결할 수 있습니다.

평균 정밀도

순위가 지정된 결과의 실적을 요약하기 위한 측정항목입니다. 평균 정밀도는 각 관련 결과 (각 결과: 이전 결과에 비해 재현율이 증가하는 순위 목록).

PR 곡선 아래 영역도 참고하세요.

축 정렬 조건

#df

결정 트리에서 조건은 한 가지 기능만 포함합니다. 예를 들어 이 특성인 경우 다음은 축 정렬 조건입니다.

area > 200

경사 조건과 대비되는 개념입니다.

B

역전파

#fundamentals

인코더-디코더 아키텍처를 경사하강법신경망입니다.

신경망 학습에는 많은 반복이 포함됩니다. 다음 두 패스 사이클의 시작을 실행합니다.

  1. 정방향 전달 중에 시스템은 예시를 사용하여 예측을 도출합니다. 시스템은 각 포드를 각 label 값에 대한 예측을 수행합니다. Kubernetes와 해당 예의 손실입니다. 시스템은 모든 예시의 손실을 합산하여 합계를 계산합니다. 손실을 방지합니다.
  2. 역방향 전달 (역전파) 중에 시스템은 모든 뉴런의 가중치를 조정하면 히든 레이어.

신경망은 종종 여러 히든 레이어에 여러 뉴런을 포함합니다. 이러한 각 뉴런은 다양한 방식으로 전체 손실에 기여합니다. 역전파는 가중치를 늘리거나 줄일지 결정합니다. 특정 뉴런에 적용됩니다.

학습률은 각 역방향 전달이 각 가중치를 늘리거나 줄이는 정도입니다. 학습률이 크면 각 가중치가 기존 값보다 더 많이 학습률을 낮춥니다.

미적분 측면에서 역전파는 체인 규칙을 사용하여 새 연쇄 규칙을 적용할 수 있습니다. 알 수 있습니다. 즉, 역전파는 편미분 값을 인코더에 전달합니다.

몇 년 전만 해도 ML 실무자는 역전파를 구현하기 위해 코드를 작성해야 했습니다. Keras와 같은 최신 ML API는 이제 역전파를 자동으로 구현합니다. 다양한 혜택이 마음에 드셨나요?

신경망을 참고하세요. 에서 머신러닝 단기집중과정을 참조하세요.

자지 빼기

#df

앙상블 학습 메서드앙상블 학습의 무작위 하위 집합으로 구성요소 모델이 학습 대체를 통해 샘플링된 예 예를 들어 랜덤 포레스트는 배깅으로 학습된 결정 트리

배깅이라는 용어는 스트랩 집계의 줄임말입니다.

랜덤 포레스트 참고 결정 포레스트 과정에서 살펴 보세요

단어 집합

#language

구문이나 구절에서 단어를 표현하는 것 를 사용합니다. 예를 들어 단어 집합은 다음 세 구문이 동일합니다.

  • 개가 점프합니다
  • 개를 점프해요
  • 개가 점프하는

각 단어는 희소 벡터의 색인에 매핑됩니다. 여기서 벡터는 어휘의 모든 단어에 대한 색인을 갖습니다. 예를 들어 개가 점프라는 문구는 0이 아닌 특성 벡터에 매핑됩니다. the, dog, 점프. 0이 아닌 값은 다음 중 하나일 수 있습니다.

  • 1은 단어가 있음을 나타냅니다.
  • 모음에 단어가 나타나는 횟수입니다. 예를 들어 구문이 적갈색 강아지는 적갈색 털이 있는 강아지인 경우 둘 다 maroondog는 2로 표시되고 다른 단어는 1로 표현됩니다.
  • 다른 값(예: 선형 회귀의 수의 여러 번 반복할 수 있습니다.

기준

다른 모델의 성능을 비교하는 참조 지점으로 사용되는 모델 더 복잡한 모델 (일반적으로 더 복잡한 모델)의 성능을 예측할 수 있습니다 예를 들어 로지스틱 회귀 모델심층 모델의 적절한 기준으로 삼습니다.

모델 개발자는 특정 문제에 대해 기준선을 사용하여 모델 개발자가 새 모델이 새 모델에 대해 달성해야 하는 최소 예상 성능 유용할 수 있습니다

일괄

#fundamentals

한 번의 학습에 사용된 예시의 집합 반복입니다. 배치 크기는 주어진 있습니다.

배치가 다음과 같은 관계에 어떻게 관련되는지에 관한 설명은 에포크를 참고하세요. 에포크를 기반으로 합니다.

선형 회귀: 초매개변수 에서 머신러닝 단기집중과정을 참조하세요.

일괄 추론

#TensorFlow
#GoogleCloud

여러 데이터를 기반으로 예측을 추론하는 과정 라벨이 없는 예를 더 작은 단위로 나눔 하위 집합('배치')이 있습니다.

일괄 추론은 일괄 추론의 동시 로드 기능을 활용하여 가속기 칩. 즉, 여러 가속기가 라벨이 지정되지 않은 여러 배치에서 동시에 예측을 추론할 수 있고 예시로 돌아가 초당 추론 횟수를 급격히 늘릴 수 있었습니다.

프로덕션 ML 시스템: 정적 및 동적 비교 추론 에서 머신러닝 단기집중과정을 참조하세요.

배치 정규화

정규화: 활성화 기능 히든 레이어. 배치 정규화는 다음과 같은 이점이 있습니다.

배치 크기

#fundamentals

배치의 개수입니다. 예를 들어 배치 크기가 100이면 모델은 반복당 예시 100개

다음은 많이 사용되는 배치 크기 전략입니다.

  • 확률적 경사하강법 (SGD): 배치 크기가 1입니다.
  • 전체 배치, 배치 크기는 전체 예의 개수임 학습 세트와 일치합니다. 예를 들어 학습 세트가 예시가 백만 개 포함된다면 배치 크기는 100만 개가 됩니다. 예로 들 수 있습니다 전체 배치는 일반적으로 비효율적인 전략입니다.
  • 미니 배치: 배치 크기는 일반적으로 10과 1000입니다. 일반적으로 미니 배치가 가장 효율적인 전략입니다.

자세한 내용은 다음을 참조하세요.

베이즈 신경망

확률적 신경망가중치와 출력의 불확실성 표준 신경망은 회귀 모델은 일반적으로 스칼라 값을 예측합니다. 예를 들어 표준 모델은 주택 가격을 예측하고 853,000회입니다. 반대로 베이즈 신경망은 값 예를 들어, 베이즈 모델은 표준 편차 67,200입니다.

베이즈 신경망은 <ph type="x-smartling-placeholder"></ph> 베이즈 정리 가중치와 예측으로 불확실성을 계산해 보겠습니다. 베이즈 신경망 예측 모델은 불확실성을 수치화하는 것이 중요한 경우 제약 관련 모델 등이 있습니다. 베이즈 신경망도 과적합을 방지할 수 있습니다.

Bayesian 최적화

확률적 회귀 모델 최적화 기법으로 계산 비용이 많이 드는 서로게이트를 대신 최적화하여 목표 함수 에서 베이즈 학습 기법을 사용하여 불확실성을 수치화합니다. 이후 베이즈 최적화는 그 자체로 비용이 많이 들며 일반적으로 평가 비용이 많이 드는 작업(예: 초매개변수 선택

벨만 방정식

#rl

강화 학습에서는 Q 함수:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

강화 학습 알고리즘은 이를 적용합니다. 다음 업데이트 규칙을 통해 Q-learning을 만듭니다.

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

벨만 방정식은 강화 학습 외에도 사용할 수 있습니다. 자세한 내용은 <ph type="x-smartling-placeholder"></ph> 벨만 방정식에 대한 위키백과 항목

BERT (양방향 인코더) Transformer의 표현)

#language

텍스트 표현을 위한 모델 아키텍처 교육을 이수한 BERT 모델은 텍스트 분류를 위한 더 큰 모델의 일부로 ML 작업에 사용할 수 있습니다

BERT에는 다음과 같은 특징이 있습니다.

BERT의 변종은 다음과 같습니다.

  • ALBERT, 이는 A Light BERT의 약자입니다.
  • LaBSE.
를 통해 개인정보처리방침을 정의할 수 있습니다.

오픈소스 BERT: 자연어를 위한 최첨단 사전 학습'을 참조하세요. 처리 중 BERT의 개요를 확인하세요

편향(bias)(윤리학/공정성)

#fairness
#fundamentals

1. 특정 사물, 사람에 대한 고정 관념, 편견 또는 편견 할 수 있습니다. 이러한 편향은 데이터의 수집과 데이터 해석, 시스템 설계, 사용자 상호작용 방식 등 도움이 될 수 있습니다 이러한 유형의 편향은 다음과 같습니다.

2. 샘플링 또는 보고 절차로 인해 발생하는 계통 오차입니다. 이러한 유형의 편향은 다음과 같습니다.

머신러닝 모델의 편향 항과 혼동하지 마시기 바랍니다. 또는 예측 편향입니다.

공정성: 편향 머신러닝 단기집중과정을 참조하세요.

편향(bias)(수학) 또는 편향 항

#fundamentals

원점으로부터의 절편 또는 오프셋입니다. 편향은 인코더-디코더 모델은 머신러닝 모델을 있습니다.

  • b
  • w0

예를 들어 다음 수식에서 편향은 b입니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

단순한 2차원 선에서 편향은 'y절편'을 의미합니다. 예를 들어 다음 그림에서 선의 편향은 2입니다.

기울기가 0.5이고 편향 (y절편)이 2인 선 도표입니다.

편향이 존재하는 이유는 모든 모델이 원점 (0,0)에서 시작하지 않기 때문입니다. 예를 들어 놀이공원이 입장료가 2유로이고 고객이 머무를 때마다 1시간에 0.5유로가 청구됩니다. 따라서 인코더-디코더 아키텍처를 최저 비용이 2유로이므로 총비용의 편향은 2입니다.

편향을 윤리 및 공정성의 편향과 혼동해서는 안 됩니다. 또는 예측 편향입니다.

선형 회귀를 참조하세요. 에서 머신러닝 단기집중과정을 참조하세요.

양방향

#language

두 단어 에 있는 텍스트를 평가하는 시스템을 설명하는 데 사용되는 용어 텍스트의 타겟 섹션 뒤에 표시됩니다. 반면에 단방향 시스템만 텍스트의 대상 섹션 앞에 있는 텍스트를 평가합니다.

예를 들어 다음과 같은 마스크 언어 모델이 있다고 가정해 보겠습니다. 에서 밑줄을 나타내는 단어에 대한 확률을 다음 질문에 답해야 합니다.

당신에게 어떤 _____이(가) 있습니까?

단방향 언어 모델은 확률만 기반으로 하면 되며 'What', 'is', 'the'라는 단어에 의해 제공되는 맥락에 관해 자세히 알아보겠습니다. 반면 양방향 언어 모델은 'with'에서 컨텍스트를 획득할 수도 있습니다. '귀하', 모델이 더 나은 예측을 생성하는 데 도움이 될 수 있습니다.

양방향 언어 모델

#language

특정 단어가 될 확률을 판단하는 언어 모델 특정 위치에 주어진 토큰의 텍스트 발췌 부분을 텍스트에 있습니다.

Bigram

#seq
#language

N=2인 N-그램입니다.

이진 분류

#fundamentals

분류 작업의 한 유형으로, 다음 상호 배타적인 두 클래스 중 하나를 예측합니다.

예를 들어 다음 두 머신러닝 모델은 각각 이진 분류:

  • 이메일 메시지가 실제로 전송되는지 여부를 판단하는 스팸 (포지티브 클래스) 또는 스팸 아님 (네거티브 클래스)
  • 의학적 증상을 평가하여 어떤 사람이 감염되었는지를 판단하는 특정 질환이 있거나 (양성 클래스) 해당 질환이 없는 경우 정의합니다 (네거티브 클래스).

다중 클래스 분류와 대비되는 개념입니다.

로지스틱 회귀분류 임곗값.

분류를 참조하세요. 에서 머신러닝 단기집중과정을 참조하세요.

바이너리 조건

#df

결정 트리에서 조건은 일반적으로 또는 아니요의 두 가지 결과만 나타납니다. 예를 들어 다음은 바이너리 조건입니다.

temperature >= 100

비바이너리 조건과 대비되는 개념입니다.

조건 유형을 참고하세요. 결정 포레스트 과정에서 살펴 보세요

비닝

버케팅의 동의어입니다.

BLEU (이중 언어 평가 연구)

#language

번역의 품질을 나타내는 0.0에서 1.0 사이의 점수입니다. 있습니다 (예: 영어와 러시아어). BLEU 1.0은 완벽한 번역을 나타냅니다. BLEU 점수가 0.0이면 끔찍한 번역이네요.

부스팅

여러 개의 단순 유형과 인간 데이터를 반복적으로 결합하는 정확도가 떨어지는 분류기('약한' 분류기)를 '강한' 분류기('strong'분류기')를 사용하여 모델이 현재 적용된 예를 가중치 상향 조정합니다. 있습니다.

그래디언트 부스티드 의사 결정 참고 나무? 결정 포레스트 과정에서 살펴 보세요

경계 상자

#image

이미지에서 특정 영역을 중심으로 하는 직사각형의 (x, y) 좌표 예를 들어 아래 이미지에 나온 강아지와 같은 요소가 포함되어 있습니다

소파에 앉아 있는 강아지의 사진입니다. 녹색 경계 상자
          (275, 1271)의 왼쪽 상단 좌표와 오른쪽 하단
          (2954, 2761)의 좌표는 개의 몸을 한정함

브로드캐스팅

행렬 수학 연산에서 피연산자의 모양을 크기를 사용할 수 있습니다. 예를 들어 선형 대수에서는 행렬 덧셈 연산의 두 피연산자가 는 크기가 같아야 합니다. 따라서 도형의 행렬을 (m, n)을 길이 n의 벡터로 변환합니다. 브로드캐스팅을 사용하면 다음과 같이 길이가 n인 벡터를 (m, n) 형태의 행렬로 가상 동일한 값을 각 열에 복제하는 것입니다

예를 들어, 다음과 같은 정의가 주어지면 선형대수는 A+B는 A와 B의 차원이 다르기 때문입니다.

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

그러나 브로드캐스팅을 사용하면 B를 다음과 같이 확장하여 A+B 연산이 가능합니다.

 [[2, 2, 2],
  [2, 2, 2]]

따라서 이제 A+B는 유효한 연산입니다.

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

다음 설명을 참고하세요. NumPy에서 브로드캐스팅을 참조하세요.

버킷팅,

#fundamentals

단일 특성을 여러 바이너리 특성으로 변환 버킷 또는 일반적으로 값 범위를 기준으로 합니다. 잘린 지형지물은 일반적으로 연속 기능.

예를 들어 온도를 단일로 나타내는 대신 연속 부동 소수점 특성을 사용하여 다음과 같은 개별 버킷으로 분류할 수 있습니다.

  • 섭씨 10도 이하는 '추위' 버킷과 동기화할 수 있습니다
  • 섭씨 11~24도는 '온대'가 됩니다 버킷과 동기화할 수 있습니다
  • 섭씨 25도 이상이면 '따뜻하게' 버킷과 동기화할 수 있습니다

모델은 동일한 버킷의 모든 값을 동일하게 취급합니다. 대상 예를 들어 값 1322는 모두 임시 버킷에 있으므로 모델은 두 값을 동일하게 취급합니다.

수치 데이터: 비닝 에서 머신러닝 단기집중과정을 참조하세요.

C

보정 레이어

일반적으로 고려되는 사후 예측 조정 예측 편향과 같습니다. 조정된 예측과 확률은 관찰된 라벨 집합의 분포와 일치해야 합니다.

후보 생성

#recsystems

광고주가 선택한 초기 추천 집합은 추천 시스템. 예를 들어 10만 권의 책을 판매하는 서점입니다. 후보 생성 단계에서는 500권과 같이 특정 사용자에게 적을 만한 도서 목록을 찾을 수 있습니다. 그러나 500권은 사용자에게 추천하기에는 너무 많습니다. 그 후에는 비용이 더 많이 들고 추천 시스템의 단계 (예: 채점순위를 재지정)하여 이러한 500을 훨씬 작게 줄여줍니다. 더 유용한 추천을 제공합니다

후보 생성 참조 개요 추천 시스템 과정을 참조하세요.

후보 샘플링

학습 시간 최적화에서는 양성 라벨(예: 소프트맥스를 사용하며 음성 라벨의 샘플입니다. 예를 들어 beagle, dog의 경우 후보 샘플링이 예측 확률을 계산 다음과 같은 손실 항을 사용합니다.

  • 비글
  • 나머지 네거티브 클래스의 무작위 하위 집합 (예: cat, 롤리팝, 펜스)

즉, 네거티브 클래스는 빈도가 낮은 클래스로부터 학습할 수 있으며 부정적인 강화를 포지티브 클래스는 항상 양성을 적절히 얻습니다. 이것은 실제로 경험적으로 관찰됩니다.

후보 샘플링은 알고리즘 학습보다 계산 효율성이 더 높음 특히 다음과 같은 경우 모든 네거티브 클래스에 대한 예측을 계산합니다. 네거티브 클래스 수가 매우 큽니다.

범주형 데이터

#fundamentals

가능한 특정 값 집합을 갖는 특성입니다. 예를 들어 다음 중 하나에만 사용할 수 있는 traffic-light-state이라는 범주형 특성을 고려해 보세요. 다음 세 가지 값 중 하나를 갖습니다.

  • red
  • yellow
  • green

traffic-light-state를 범주형 특성으로 표현하면 모델이 학습하여 red, green, yellow가 드라이버 동작에 미치는 다양한 영향

범주형 특성은 범주형 특성 또는 불연속 특성.

수치 데이터와 대비되는 개념입니다.

자세한 내용은 범주형 데이터 데이터 에서 머신러닝 단기집중과정을 참조하세요.

인과 언어 모델

#language

단방향 언어 모델의 동의어입니다.

다음 내용은 양방향 언어 모델을 참고하세요. 언어 모델링의 다양한 방향성 접근 방식을 대조해 봅니다.

centroid

#clustering

k-평균 또는 k-중앙값 알고리즘입니다. 예를 들어 k가 3이면 k-평균 또는 k-중앙값 알고리즘은 3개의 중심을 찾습니다.

클러스터링 알고리즘을 참조하세요. '클러스터링' 과정에서 확인하시기 바랍니다

중심 기반 군집화

#clustering

데이터를 구성하는 클러스터링 알고리즘의 카테고리입니다. 비계층적 클러스터로 분할합니다 k-평균이 가장 널리 사용됩니다. 중심 기반 군집화 알고리즘을 사용했습니다.

계층적 군집화와 대비되는 개념 사용할 수 있습니다.

클러스터링 알고리즘을 참조하세요. '클러스터링' 과정에서 확인하시기 바랍니다

생각의 연쇄 프롬프팅

#language
#generativeAI

프롬프트 엔지니어링 기법은 대규모 언어 모델 (LLM)을 사용해 차근차근 살펴보겠습니다 예를 들어 다음과 같은 프롬프트를 살펴보겠습니다. 두 번째 문장에 특히 주의하세요.

자동차에서 운전자가 경험하는 g 힘은 0에서 60 사이입니다. 7초 만에 시속 마일을 얻을 수 있을까? 답변에서 모든 관련 계산을 표시합니다.

LLM의 응답은 다음과 같을 것입니다.

  • 0, 60, 7 값을 연결하여 물리학 공식 표시 배치해야 합니다.
  • 그 공식을 선택한 이유와 다양한 변수의 의미를 설명하십시오.

생각 체인 프롬프팅은 LLM이 모든 계산을 수행하도록 더 정확한 답이 될 수 있습니다 또한 사용자는 프롬프팅을 통해 LLM의 단계를 검토하여 답이 말이 되지 않습니다

채팅

#language
#generativeAI

ML 시스템과 주고받는 대화의 내용은 일반적으로 대규모 언어 모델을 지원합니다. 이전 채팅 대화 (입력한 내용 및 대규모 언어 모델이 응답한 방식)이 컨텍스트를 제공합니다.

챗봇은 대규모 언어 모델을 적용한 애플리케이션입니다.

체크포인트

모델의 매개변수 상태를 캡처하는 데이터는 학습 중 또는 학습이 완료된 후에 발생할 수 있습니다 예를 들어 학습 중에 다음과 같은 이점을 누릴 수 있습니다.

  1. 의도적으로 또는 학습의 결과로 학습 중단 확인할 수 있습니다
  2. 체크포인트를 캡처합니다.
  3. 나중에 다른 하드웨어에서 체크포인트를 새로고침할 수 있습니다.
  4. 학습을 다시 시작합니다.
를 통해 개인정보처리방침을 정의할 수 있습니다.

클래스

#fundamentals

라벨이 속할 수 있는 카테고리입니다. 예를 들면 다음과 같습니다.

  • 이진 분류 모델에서는 스팸이라면 두 클래스는 스팸스팸 아님일 수 있습니다.
  • 다중 클래스 분류 모델 개의 품종을 식별하는 클래스로 푸들, 비글, 퍼그, 등등.

분류 모델은 클래스를 예측합니다. 반면에 회귀 모델은 숫자를 예측합니다. 수업이 아니라

분류를 참조하세요. 에서 머신러닝 단기집중과정을 참조하세요.

분류 모델

#fundamentals

예측이 클래스모델입니다. 예를 들어 다음은 모두 분류 모델입니다.

  • 입력 문장의 언어 (프랑스어? 스페인어인가요? 이탈리아어).
  • 수종을 예측하는 모델 (단풍? 참나무? 바오밥?).
  • 특정 클래스의 포지티브 클래스 또는 네거티브 클래스를 예측하는 모델입니다. 있습니다.

반대로 회귀 모델은 숫자를 예측합니다. 아니었습니다.

분류 모델의 두 가지 일반적인 유형은 다음과 같습니다.

분류 임곗값

#fundamentals

이진 분류에서는 0과 1 사이의 숫자를 사용하여 로지스틱 회귀 모델 포지티브 클래스의 예측으로 변환 또는 네거티브 클래스를 구분할 수 있습니다. 분류 임곗값은 인간이 선택하는 값이며 모델 학습에서 선택한 값이 아닙니다.

로지스틱 회귀 모델은 0과 1 사이의 원시 값을 출력합니다. 그런 다음 아래를 실행합니다.

  • 이 원시 값이 분류 임곗값 보다 큰 경우 양성 클래스가 예측됩니다.
  • 이 원시 값이 분류 임곗값 미만이면 네거티브 클래스가 예측됩니다

예를 들어 분류 임계값이 0.8이라고 가정해 보겠습니다. 원시 값이 이 값이 0.9이면 모델이 포지티브 클래스를 예측합니다. 원시 값이 0.7이면 모델은 네거티브 클래스를 예측합니다.

분류 임곗값의 선택은 거짓양성거짓음성입니다.

기준점과 혼동 매트릭스 에서 머신러닝 단기집중과정을 참조하세요.

클래스 불균형 데이터 세트

#fundamentals

총 개수가 각 클래스의 라벨 비율은 크게 다릅니다. 예를 들어 두 개의 라벨이 있는 이진 분류 데이터 세트를 가정해 보겠습니다. 다음과 같이 구분됩니다.

  • 제외 라벨 1,000,000개
  • 긍정 라벨 10개

음성 라벨 대 양성 라벨의 비율은 100,000 대 1이므로 클래스 불균형 데이터 세트입니다

반면에 다음 데이터 세트는 클래스 불균형이 아닙니다. 왜냐하면 양성 라벨에 대한 음성 라벨의 비율은 비교적 1에 가깝습니다.

  • 부정 라벨 517개
  • 긍정 라벨 483개

다중 클래스 데이터 세트는 클래스 불균형일 수도 있습니다. 예를 들어 다중 클래스 분류 데이터 세트 역시 클래스 불균형입니다. 이는 라벨이 하나인 에는 다른 두 가지보다 훨씬 많은 예시가 있습니다.

  • 클래스가 '녹색'인 라벨 1,000,000개
  • 클래스가 '보라색'인 라벨 200개
  • 'orange' 클래스가 있는 라벨 350개

엔트로피, 주요 클래스, 및 다수 범주에 대해 학습되었습니다.

클리핑

#fundamentals

이상점을 처리하는 기술 다음 중 하나 또는 둘 다:

  • 최댓값보다 큰 feature 값 줄이기 최대 임곗값까지 내려갑니다
  • 해당 값까지 최소 임곗값보다 작은 특성 값을 증가 최소 임곗값입니다.

예를 들어 특정 특성 값의 0.5% 미만이 40–60 범위를 벗어납니다. 이 경우 다음을 수행할 수 있습니다.

  • 60 (최대 임곗값)을 초과하는 모든 값을 정확히 60으로 자릅니다.
  • 40 (최소 임계값) 미만의 모든 값을 정확히 40으로 자릅니다.

이상점은 모델을 손상시켜 때때로 가중치를 유발할 수 있습니다. 오버플로가 발생할 수 있습니다. 일부 이상점은 또한 측정항목(예: 정확성) 클리핑은 없습니다.

경사 제한력 학습 중에 지정된 범위 내의 경사 값.

수치 데이터: 정규화 에서 머신러닝 단기집중과정을 참조하세요.

Cloud TPU

#TensorFlow
#GoogleCloud

기계의 속도를 높이기 위해 설계된 특수 하드웨어 가속기 Google Cloud의 학습 워크로드를 예로 들 수 있습니다

클러스터링

#clustering

관련 그룹화(특히 비지도 학습입니다. 모든 인간은 선택적으로 각 클러스터에 의미를 제공할 수 있습니다.

클러스터링 알고리즘은 많이 존재합니다. 예를 들어 k-평균은 알고리즘이 모델에 대한 근접성을 기준으로 중심을 나타냅니다.

x축에 트리 너비 라벨이 지정되는 2차원 그래프
          y축에는 트리 높이 라벨이 지정됩니다. 그래프에 두 개의
          수십 개의 데이터 포인트로 구성됩니다. 데이터 포인트는
          위치를 기준으로 분류됩니다. 즉, 데이터 포인트는
          한 중심에 가장 가까운 값은 클러스터 1로 분류되지만
          다른 중심에 가장 가까운 지점은 클러스터 2로 분류됩니다.

그런 다음 연구원이 클러스터를 검토하고, 예를 들어 클러스터 1을 "소수의 나무"로 라벨 지정 클러스터 2를 '원본 크기의 나무'로 지정하겠습니다.

또 다른 예로, 모델 아키텍처에 기반한 클러스터링 알고리즘을 예의 중심점으로부터의 거리를 보여줍니다.

수십 개의 데이터 포인트가 거의 동심원형으로 배열된다.
          다트판의 중앙에 빙 둘러싸여 있는 구멍처럼 말이죠. 가장 안쪽 링
          클러스터 1로 분류되고 데이터 포인트의
          2로 분류되고 가장 바깥쪽 링은
          클러스터 3에 대해 알아봤습니다

클러스터링 과정 참조 를 참조하세요.

공동 적응

뉴런이 학습 데이터의 패턴을 예측하고 다른 특정 뉴런의 출력에만 의존하지 않고 영향을 미칠 수 있습니다 공동 적응을 유발하는 패턴이 공동 적응으로 인해 과적합이 발생합니다. 드롭아웃 정규화로 인한 공동 적응 감소 드롭아웃은 뉴런이 다른 특정 뉴런에만 의존할 수 없도록 하기 때문입니다.

협업 필터링

#recsystems

한 사용자의 관심분야를 예측하기 관심분야에 기반합니다. 협업 필터링 추천 시스템에서 자주 사용됩니다.

공동작업 필터링 추천 시스템 과정을 참조하세요.

개념 드리프트

특성과 라벨 간의 관계 변화 시간이 지남에 따라 개념 드리프트로 인해 모델의 품질이 저하됩니다.

학습 중에 모델은 특성과 학습 세트에 있는 라벨입니다. 학습 세트의 라벨이 모델이 충분해야 합니다. 실제로 예측한 것입니다. 하지만 개념 드리프트로 인해 모델의 시간이 지날수록 성능이 저하되는 경향이 있습니다

예를 들어 이진 분류를 '연료 효율' 모델인지 여부를 예측하는 모델입니다. 즉, 특성은 다음과 같을 수 있습니다.

  • 차량 무게
  • 엔진 압축
  • 전송 유형

라벨은 다음 중 하나입니다.

  • 연비
  • 연비가 효율적이지 않음

하지만 '연료 효율 자동차'라는 개념은 유지 있습니다. 1994년에 연료 효율이라는 라벨이 지정된 자동차 모델이라면 2024년에는 연비 아님 라벨이 지정될 예정입니다. 개념 드리프트가 발생한 모델 시간이 지남에 따라 더 적은 수의 유용한 예측을 하는 경향이 있습니다.

비정상성과 비교 및 대조합니다.

조건

#df

의사 결정 트리에서 표현식을 평가합니다. 예를 들어 결정 트리에는 두 가지 조건이 포함됩니다.

(x > 0) 및 2의 조건으로 구성된 결정 트리
          (y > 0).

조건은 분할 또는 테스트라고도 합니다.

조건을 leaf와 대조합니다.

관련 주제에 대한 추가 정보

조건 유형을 참고하세요. 결정 포레스트 과정에서 살펴 보세요

혼돈

#language

할루시네이션의 동의어입니다.

컨퍼런스는 아마도 할루시네이션보다 기술적으로 더 정확한 용어일 것입니다. 하지만 할루시네이션이 먼저 인기를 끌었습니다.

구성

모델을 학습시키는 데 사용되는 초기 속성 값을 할당하는 프로세스입니다. 포함:

머신러닝 프로젝트에서는 특별한 구성 파일을 사용하거나 다음과 같은 구성 라이브러리를 사용할 수 있습니다.

확증 편향

#fairness

특정 환경에서 정보를 검색, 해석, 선호, 재현하는 경향 확고한 믿음이나 가설을 확증하는 것입니다. 머신러닝 개발자가 의도치 않게 데이터를 수집하거나 기존의 접근 방식을 뒷받침하는 결과에 영향을 미치는 방식으로 믿음을 갖고 있습니다. 확증 편향은 일종의 내재적 편향입니다.

실험자 편향은 확증 편향의 한 형태로 기존 모델이 학습될 때까지 계속해서 가설을 검증합니다.

혼동 행렬

#fundamentals

올바른 예측과 잘못된 예측의 수를 요약하는 NxN 테이블 분류 모델에 의해 결정됩니다. 예를 들어, 다음 혼동 행렬을 떠올려 보세요 이진 분류 모델:

종양 (예측) 비종양 (예측)
종양 (정답) 18 (TP) 1 (FN)
비종양 (정답) 6 (FP) 452 (TN)

위의 혼동 행렬은 다음을 보여줍니다.

  • 정답이 종양이었던 예측 19개 중 모델이 18로 올바르게 분류하고 1로 잘못 분류했습니다.
  • 정답이 종양이 아닌 예측 458개 중에서 모델은 정확하게 분류한 452번과 6번 잘못 분류했습니다.

다중 클래스 분류의 혼동 행렬 문제는 실수의 패턴을 식별하는 데 도움이 될 수 있습니다. 예를 들어 클래스가 3개인 경우 다음과 같은 혼동 행렬을 떠올려 보세요. 세 가지 붓꽃 유형을 분류하는 다중 클래스 분류 모델 (Virginica, Versicolor 및 Setosa). 정답이 버지니카였을 때 혼동 행렬은 모델이 실수할 가능성이 훨씬 높다는 것을 Setosa 대비 Versicolor의 예측 예측:

  세토사 (예상) Versicolor (예측됨) 버지니카 (예상)
세토사 (정답) 88 12 0
Versicolor (정답) 6 141 7
버지니카 (정답) 2 27 109

또 다른 예로, 혼동 행렬을 통해 모델이 학습한 다음 손으로 쓴 숫자를 인식하면 4가 아닌 9를 잘못 예측하는 경향이 있습니다. 또는 7이 아닌 1로 잘못 예측한 것입니다.

혼동 행렬은 정밀도와 같은 다양한 성능 측정항목 및 재현율을 살펴보겠습니다.

선거구 파싱

#language

문장을 더 작은 문법적 구조('구성성')로 나누는 것을 말합니다. ML 시스템의 후반부인 자연어 이해 모델 더 쉽게 구성요소들을 파싱할 수 있습니다. 예를 들어 다음 문장을 생각해 보세요.

제 친구가 고양이 두 마리를 입양했어요.

선거구 파서는 이 문장을 다음과 같이 나눌 수 있습니다. 2가지 구성요소:

  • Myfriend는 명사구입니다.
  • adopted two cats는 동사구입니다.

이러한 성분은 더 작은 성분으로 더 세분화될 수 있습니다. 예를 들어 동사구는

고양이 두 마리를 입양했습니다.

다음으로 더 세분화할 수 있습니다

  • adopted는 동사입니다.
  • two cats는 또 다른 명사구입니다.

컨텍스트화된 언어 임베딩

#language
#generativeAI

'이해'에 가까운 임베딩 단어 이해할 수 있도록 돕는 것입니다. 상황별 언어 임베딩은 복잡한 구문, 시맨틱, 컨텍스트를 이해할 수 있습니다.

예를 들어 영어 단어 cow의 임베딩을 고려해 보세요. 이전 임베딩 word2vec는 영어를 나타낼 수 있습니다. 임베딩 공간 내 거리가 에서 황소까지의 거리는 ewe (암양)에서 다음까지의 거리와 비슷합니다. (수컷 수) 또는 암컷에서 수컷으로 변경합니다. 상황별 언어 임베딩이 한 걸음 더 나아갈 수 있으며, 영어 사용자가 종종 간단히 를 사용하여 소나 황소를 의미합니다.

컨텍스트 윈도우

#language
#generativeAI

주어진 시간 동안 모델이 처리할 수 있는 토큰프롬프트. 컨텍스트 윈도우가 클수록 더 많은 정보 모델이 일관되고 일관된 응답을 제공하는 데 사용할 수 있는 생성합니다.

연속 특성

#fundamentals

가능한 무한 범위가 있는 부동 소수점 특성 값을 포함할 수 있습니다.

불연속 특성과 대비되는 개념입니다.

간편 샘플링

빠른 실행을 위해 과학적으로 수집되지 않은 데이터 세트 사용 있습니다. 이후에는 과학적으로 수집된 정보를 바탕으로 데이터 세트로 그룹화됩니다.

수렴

#fundamentals

손실 값이 거의 변하지 않거나 각 반복에는 전혀 필요하지 않습니다. 예를 들어 손실 곡선은 약 700회의 반복에서 수렴을 나타냅니다.

데카르트 그래프 X축은 손실입니다. Y축은 학습 횟수
          있습니다. 처음 몇 번의 반복에서는 손실이 매우 높지만
          감소합니다 약 100회의 반복 후에도 손실은 여전히
          점점 더 점진적으로 내려가고 있습니다. 약 700회의 반복 후
          손실이 일정하지 않습니다.

추가 학습이 이루어지지 않으면 모델이 수렴됩니다. 모델을 개선할 수 있습니다

딥 러닝에서는 손실 값이 일정하거나 마침내 하강하기 전까지 여러 번 반복했습니다. 장기간 일시적으로 수렴이 잘못될 수 있습니다.

조기 중단을 참고하세요.

모델 수렴 및 손실을 참조하세요. 곡선 에서 머신러닝 단기집중과정을 참조하세요.

볼록 함수

함수 그래프 위의 영역이 볼록 집합. 볼록 함수의 전형적인 예는 다음과 같습니다. U와 같은 모양을 하고 있습니다. 예를 들어 모두 볼록 함수입니다.

각각 하나의 최소 점이 있는 U자형 곡선입니다.

반면에 다음 함수는 볼록 함수가 아닙니다. 포드의 볼록 집합이 아닙니다.

두 개의 국소 최솟값이 서로 다른 W자형 곡선입니다.

순볼록 함수는 국소 최저점이 정확히 하나만 있으며 전역 최저점이기도 합니다. 고전적인 U자형 함수는 엄격히 볼록 함수입니다. 그러나 일부 볼록 함수는 (예: 직선)은 U자형이 아닙니다.

수렴 및 볼록 함수 에서 머신러닝 단기집중과정을 참조하세요.

볼록 최적화

다음과 같은 수학적 기법을 사용하는 과정은 경사하강법을 사용하여 볼록 함수의 최솟값입니다. 머신러닝에 대한 많은 연구는 다양한 모델 프로세스를 공식화하는 데 볼록 최적화 문제로 간주하고 해결하는데 효율적으로 사용할 수 있습니다

자세한 내용은 Boyd와 Vandenberghe의 Convex 최적화.

볼록 집합

유클리드 공간의 하위 집합으로, 주어진 경계에서 임의의 두 점 사이에 선을 그립니다. 하위 집합은 완전히 하위 집합에 포함됩니다. 예를 들어 볼록 집합입니다.

직사각형 그림 1개 타원의 또 다른 그림입니다.

반면에 다음 두 도형은 볼록 집합이 아닙니다.

누락된 조각이 있는 원형 차트의 그림입니다.
          매우 불규칙한 다각형의 또 다른 그림입니다.

컨볼루션

#image

수학적으로 가볍게 말하자면 두 가지 함수가 혼합된 것입니다. 머신 내 컨볼루션은 학습된 모델에 따라 컨볼루셔널 필터와 입력 행렬입니다. 이는 가중치를 학습시키기 위함입니다.

'컨볼루션'이라는 용어 머신러닝에서는 종종 이는 컨볼루셔널 연산이나 컨볼루셔널 레이어를 정의할 수 있습니다

컨볼루션이 없으면 머신러닝 알고리즘은 학습해야 합니다. 큰 텐서의 모든 셀에 별도의 가중치. 예를 들어 2,000x2,000 크기의 이미지를 학습하는 머신러닝 알고리즘은 4백만 개의 개별 가중치를 찾습니다. 컨볼루션 덕분에 모든 셀에 대한 가중치만 컨볼루셔널 필터: 모델을 학습시키는 데 필요한 메모리와 컨볼루셔널 필터가 단순히 셀 전체에 걸쳐 복제되어 각 셀에 곱하기 필터링할 수 있습니다.

자세한 내용은 컨볼루셔널 신경망 소개 네트워크 이미지 분류 과정에서 확인하시기 바랍니다.

컨볼루셔널 필터

#image

이 영화에서 두 배우 중 한 명은 컨볼루셔널 연산에 해당합니다. (다른 행위자는 입력 행렬의 슬라이스입니다.) 컨볼루셔널 필터는 순위이지만 도형은 더 작습니다. 예를 들어 입력 행렬이 28x28인 경우 필터는 28x28보다 작은 경우

사진 조작에서 컨볼루셔널 필터의 모든 셀은 일반적으로 1과 0의 일정한 패턴으로 설정됩니다. 머신러닝에서 컨볼루셔널 필터는 일반적으로 랜덤 숫자로 시드된 다음 네트워크는 이상적인 값을 학습합니다.

컨볼루션을 참조하세요. 이미지 분류 과정에서 확인하시기 바랍니다.

컨볼루셔널 레이어

#image

심층신경망의 레이어로, 컨볼루셔널 필터는 입력을 전달합니다. 행렬입니다. 예를 들어 다음과 같은 3x3 크기를 컨볼루셔널 필터:

[[0,1,0], [1,0,1], [0,1,0]] 값을 포함하는 3x3 행렬입니다.

다음 애니메이션은 9로 구성된 컨볼루셔널 레이어를 보여줍니다. 5x5 입력 행렬과 관련된 컨볼루셔널 연산입니다. 각 포드는 컨볼루셔널 연산은 입력 행렬의 다른 3x3 슬라이스에서 이루어집니다. 그 결과로 나온 3x3 행렬 (오른쪽)은 컨볼루셔널 연산:

두 개의 행렬을 보여주는 애니메이션 첫 번째 행렬은 5x5입니다.
          행렬: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]
          두 번째 행렬은 3x3 행렬입니다.
          [[181,303,618], [115,338,605], [169,351,560]]
          두 번째 행렬은 컨볼루셔널 행렬을
          필터 [[0, 1, 0], [1, 0, 1], [0, 1, 0]]
          5x5 행렬의 서로 다른 3x3 하위 집합입니다.

완전히 연결됨 레이어 이미지 분류 과정에서 확인하시기 바랍니다.

컨볼루셔널 신경망

#image

하나 이상의 레이어가 다음에 해당하는 신경망입니다. 컨볼루셔널 레이어. 일반적인 컨볼루셔널 신경망은 다음 레이어의 조합으로 구성됩니다.

컨볼루셔널 신경망은 특정 종류에서 큰 성공을 거두었습니다 문제가 발생할 수 있습니다.

컨볼루셔널 연산

#image

다음은 2단계로 구성된 수학 연산입니다.

  1. 요소별 컨볼루셔널 필터와 입력 행렬입니다. (입력 행렬의 슬라이스는 순위가 동일하고 컨볼루셔널 필터로 설정할 수 있습니다.)
  2. 곱셈의 결과로 얻어지는 행렬 내 모든 값의 합계입니다.

예를 들어 다음과 같은 5x5 입력 행렬을 살펴보겠습니다.

5x5 행렬: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]

이제 다음과 같은 2x2 컨볼루셔널 필터가 있다고 생각해 보세요.

2x2 행렬: [[1, 0], [0, 1]]

각 컨볼루셔널 연산은 입력 행렬입니다. 예를 들어, 입력 행렬의 왼쪽 상단입니다. 여기서 컨볼루션 연산은 이 슬라이스는 다음과 같습니다.

왼쪽 상단에 컨볼루셔널 필터 [[1, 0], [0, 1]] 적용
          입력 행렬의 2x2 섹션([[128,97], [35,22]])입니다.
          컨볼루셔널 필터는 128과 22는 그대로 유지하지만 0은
          97과 35를 봅시다. 결과적으로 컨볼루션 연산은
          값은 150 (128+22)입니다.

컨볼루셔널 레이어는 각각 다른 슬라이스에 대해 작동하는 일련의 컨볼루셔널 연산 인코더-디코더입니다.

비용

손실의 동의어입니다.

공동 학습

준지도 학습 접근 방식 다음 조건이 모두 충족될 때 특히 유용합니다.

공동 학습은 본질적으로 독립적인 신호를 더 강력한 신호로 증폭합니다. 예를 들어 다음과 같은 분류 모델이 있다고 가정해 보겠습니다. Google은 개별 중고차를 양호 또는 나쁨으로 분류합니다. 한 세트 예측 특성은 연도, 지수 또는 자동차의 제조업체, 모델 등을 확인할 수 있습니다. 중점을 두는 또 다른 예측 특성 세트 이전 소유자의 운전 기록과 자동차의 유지관리 내역입니다.

공동 학습에 관한 핵심 자료는 라벨이 지정된 데이터와 라벨이 지정되지 않은 데이터를 공동 학습, 개발자 블룸과 미첼.

반사실적 공정성

#fairness

분류기의 다음 기준을 충족하는지 확인하는 공정성 측정항목 한 개인에 대해 다른 개인과 동일한 결과를 생성합니다. 첫 번째와 동일한 민감한 속성. 다음에 대한 분류기 평가 반사실적 공정성은 문제의 잠재적 소스를 편향을 나타낼 수 있습니다.

자세한 내용은 다음 중 하나를 참고하세요.

포함 편향

#fairness

표본 선택 편향을 참고하세요.

중의적 구문

#language

모호한 의미를 가진 문장이나 구입니다. 자연스러운 현상은 중요한 문제를 야기한다. 학습합니다. 예를 들어 광고 제목 Red Tape Holds Up Skyscraper는 이는 NLU 모델이 헤드라인을 문자 그대로 해석하거나 비유적으로 말이죠.

비평가

#rl

딥 Q-Network의 동의어입니다.

교차 엔트로피

로그 손실을 일반화하면 다중 클래스 분류 문제. 교차 엔트로피 두 확률 분포 간의 차이를 수치화합니다. 참고 항목 퍼플렉시티.

교차 검증

모델이 다음 단어로 얼마나 잘 일반화될지 추정하기 위한 메커니즘 하나 이상의 중첩되지 않는 데이터 하위 집합을 대상으로 모델을 테스트하여 새 데이터 생성 학습 세트에서 보류됩니다.

누적 분포 함수 (CDF)

이 함수는 샘플의 빈도를 타겟 값입니다. 예를 들어 연속된 값의 정규 분포를 생각해 보세요. CDF는 샘플의 약 50% 가 샘플의 약 84% 가 작거나 같아야 한다는 것을 표준 편차가 1보다 크도록 할 수 있습니다.

D

데이터 분석

샘플, 측정값, 시각화할 수 있습니다. 데이터 분석은 데이터가 데이터 세트가 먼저 수신된 후 첫 번째 모델이 빌드됩니다. 또한 실험을 이해하고 실험과 관련된 문제를 디버깅하는 데에도 있습니다.

데이터 증강

#image

인공적으로 신경망의 training 예시 기존 애플리케이션을 예시를 사용하여 추가 예시를 만듭니다. 예를 들어 이미지가 이미지 중 하나이고 features를 지원하지만 데이터 세트는 모델이 유용한 연결을 학습하기에 충분한 이미지 예시가 있어야 합니다. 이 문제를 해결하려면 라벨이 지정된 이미지를 데이터 세트로 추가하여 모델을 올바르게 학습시킬 수 있습니다 그렇게 할 수 없다면 데이터 증강을 통해 각 이미지를 회전, 확대 및 반사하여 이미지의 다양한 변형을 고품질 이미지를 얻을 수 있도록 라벨이 지정된 데이터를 충분히 생성할 수 있음 Vertex AI Feature Store에서 제공되는

DataFrame

#fundamentals

데이터를 나타내는 데 널리 사용되는 Pandas 데이터 세트에 저장된 데이터 세트를 생성합니다

DataFrame은 테이블 또는 스프레드시트와 비슷합니다. 각 열의 각 열은 DataFrame에는 이름 (헤더)이 있고 각 행은 고유 번호입니다.

DataFrame의 각 열은 2D 배열처럼 구조화됩니다. 다만 각 열에 자체 데이터 유형을 할당할 수 있습니다.

자세한 내용은 pandas.DataFrame 참조 문서 페이지를 참고하세요.

데이터 동시 로드

학습 또는 추론을 확장하는 방법 이 모델은 전체 모델을 입력 데이터의 하위 집합을 각 기기에 전달합니다. 데이터 동시 로드를 사용하면 대규모 데이터에서 학습 및 추론을 배치 크기 데이터 병렬 처리에는 모든 기기에 맞도록 충분히 작아야 합니다.

데이터 동시 로드는 일반적으로 학습 및 추론 속도를 높입니다.

모델 동시 로드를 참조하세요.

데이터 세트는

#fundamentals

일반적으로 (그러나 배타적이지 않음) 하나로 구성된 원시 데이터 컬렉션입니다. 다음과 같은 형식으로 구성됩니다.

  • 스프레드시트
  • CSV (쉼표로 구분된 값) 형식의 파일

Dataset API (tf.data)

#TensorFlow

데이터 읽기 및 읽기를 위한 고급 TensorFlow API 머신러닝 알고리즘이 필요한 형태로 변환하는 과정입니다. tf.data.Dataset 객체는 일련의 요소를 나타내며, 각 요소에는 하나 이상의 텐서가 포함됩니다. tf.data.Iterator 객체는 Dataset의 요소에 대한 액세스를 제공합니다.

결정 경계

구분선 학습한 클래스model 형식의 바이너리 클래스 또는 다중 클래스 분류 문제. 예를 들어 이는 이진 분류 문제를 나타냅니다. 결정 경계는 주황색 클래스와 주황색 클래스 사이의 경계선입니다. 블루 클래스입니다.

한 클래스와 다른 클래스 간의 잘 정의된 경계입니다.

결정 포레스트

#df

여러 결정 트리에서 생성된 모델 결정 포레스트는 특정 가계의 예측을 집계하여 결정 트리를 살펴보겠습니다 인기 있는 결정 포레스트 유형은 다음과 같습니다. 랜덤 포레스트경사 강화 트리입니다.

자세한 내용은 결정 숲 섹션을 참조하세요.

결정 임곗값

분류 임곗값의 동의어입니다.

결정 트리

#df

일련의 집합으로 구성된 지도 학습 모델 조건리프는 계층적으로 구성됩니다. 예를 들어 다음은 결정 트리입니다.

배열된 4개의 조건으로 구성된 결정 트리
          계층적으로는 다섯 잎으로 이어집니다.

decoder

#language

일반적으로 처리되고 밀집된 또는 학습 데이터에서 변환되는 모든 ML 시스템은 보다 원시적이고 희소하거나 외부 표현으로 변환할 수 있습니다.

디코더는 종종 대규모 모델의 구성요소이지만, 인코더와 페어링됩니다.

시퀀스-시퀀스 작업에서 디코더는 인코더가 생성한 내부 상태로 시작하여 시퀀스입니다.

내부에서 디코더의 정의는 Transformer를 참조하세요. 살펴보겠습니다

대규모 언어 모델을 참조하세요. 에서 머신러닝 단기집중과정을 참조하세요.

심층 모델

#fundamentals

둘 이상을 포함하는 신경망 히든 레이어.

심층 모델은 심층신경망이라고도 합니다.

와이드 모델과 대비되는 개념입니다.

심층신경망

심층 모델의 동의어입니다.

Deep Q-Network (DQN)

#rl

Q-learning에서는 심층적인 Q-learning이 는 Q-함수를 예측합니다.

Critic은 Deep Q-Network의 동의어입니다.

인구통계 동등성

#fairness

다음 경우에 충족되는 공정성 측정항목 모델의 분류 결과는 민감한 속성이 있는 경우).

예를 들어, 선박과 진영이 모두 글러브덥드리브대학교의 경우 브로딩나기아인의 비율과 동일 한 그룹이 평균적으로 더 높은 수준의 자격을 갖췄는지 여부와 관계없이 더 커질 수 있습니다.

등가화된 확률기회의 균등을 통해 민감한 속성에 따라 분류 결과를 집계하여 하지만 지정된 특정 단어에 대한 분류 결과는 허용되지 않습니다. 민감한 속성에 종속되는 정답 라벨. 자세한 내용은 "공격은 '더 스마트한 머신러닝으로 차별하는 것'을 시각화하여 인구통계 동등성 최적화의 장단점을 살펴봅니다.

공정성: 인구통계를 참조하세요. 동등성 에서 머신러닝 단기집중과정을 참조하세요.

노이즈 제거

#language

자기 지도 학습의 일반적인 접근 방식 여기에서

  1. 노이즈는 데이터 세트에 인위적으로 추가됩니다.
  2. 모델은 노이즈를 제거하려고 시도합니다.

노이즈 제거를 통해 라벨이 지정되지 않은 예시로부터 학습할 수 있습니다. 원래 데이터 세트는 대상 또는 대상 label 및 노이즈가 있는 데이터를 입력으로 사용할 수 있습니다.

일부 마스크된 언어 모델은 노이즈 제거 기능을 방법은 다음과 같습니다.

  1. 노이즈는 텍스트 중 일부를 마스킹하여 라벨이 지정되지 않은 문장에 생성합니다.
  2. 모델은 원래 토큰을 예측하려고 시도합니다.

밀집 특성(dense feature)

#fundamentals

대부분의 값 또는 모든 값이 0이 아닌 특성으로, 일반적으로 부동 소수점 값의 Tensor입니다. 예를 들어 요소가 10개인 텐서는 9개의 값이 0이 아니기 때문에 밀집됩니다.

8 3 7 5 2 4 0 4 9 6

희소 특성과 대비되는 개념입니다.

밀집 레이어

완전 연결 레이어의 동의어입니다.

깊이

#fundamentals

신경망에서의 다음 총합은 다음과 같습니다.

예를 들어 히든 레이어 5개와 출력 레이어 1개가 있는 신경망 깊이가 6입니다.

입력 레이어는 영향을 줄 수 있습니다.

깊이별 분리 가능한 컨볼루셔널 신경망 (sepCNN)

#image

컨볼루셔널 신경망 아키텍처 기반의 시작, Inception 모듈이 깊이별 분리 가능 모듈로 대체되는 경우 컨볼루션을 생성합니다. Xception이라고도 합니다.

깊이별 분리 가능한 컨볼루션 (분리 가능한 컨볼루션이라고도 함) 표준 3D 컨볼루션을 두 개의 개별 컨볼루션 연산으로 인수분해합니다. 심도별 컨볼루션을 살펴보겠습니다. 깊이 1 (n ✕ n ✕ 1)이고 두 번째는 점별 컨볼루션입니다. 길이와 너비가 1 (1 ✕ 1 ✕ n)입니다.

자세한 내용은 Xception: 심층 분리형을 사용한 딥 러닝을 참조하세요. 컨볼루션

파생 라벨

프록시 라벨의 동의어입니다.

기기

#TensorFlow
#GoogleCloud

다음 두 가지 정의가 가능한 중복 용어입니다.

  1. 다음과 같이 TensorFlow 세션을 실행할 수 있는 하드웨어 카테고리입니다. CPU, GPU, TPU.
  2. 가속기 칩에서 ML 모델을 학습시킬 때 (GPU 또는 TPU), 시스템에서 실제로 조작하는 부분 Tensor임베딩. 기기가 가속기 칩에서 실행됩니다. 반면에 호스트는 CPU에서 실행됩니다.

개인 정보 차등 보호

머신러닝에서 민감한 정보를 보호하기 위한 익명처리 접근 방식 (예: 개인의 개인 정보)을 모델의 데이터에 학습 세트가 노출되지 않도록 합니다. 이러한 접근 방식은 모델이 특정 주제에 대해 많이 학습하거나 기억하지 못하는 있습니다. 이는 모델 학습 중에 샘플링하고 노이즈를 추가하는 방식으로 이루어집니다. 개별 데이터 포인트를 모호하게 하여 데이터 노출 위험을 학습 데이터를 얻는 방법을 학습합니다.

개인 정보 차등 보호는 머신러닝 외부에서도 사용됩니다. 예를 들어 데이터 과학자들은 개인 정보를 보호하기 위해 개인 정보 차등 보호를 사용하여 다른 인구통계에 대한 제품 사용 통계를 계산할 때 개인정보 보호가 적용됩니다.

차원 축소

특정 특성을 나타내는 데 사용되는 차원의 수 줄이기 특성 벡터로 변환되며 일반적으로 임베딩 벡터로 변환할 수 있습니다.

측정기준

다음과 같은 정의로 중복 정의된 용어입니다.

  • Tensor의 좌표 수준 수입니다. 예를 들면 다음과 같습니다.

    • 스칼라에는 차원이 0입니다. 예: ["Hello"]
    • 벡터에는 한 차원이 있습니다. 예: [3, 5, 7, 11]
    • 행렬에는 두 개의 차원이 있습니다. 예: [[2, 4, 18], [5, 7, 14]] 1차원 벡터의 특정 셀을 고유하게 지정할 수 있음 1개의 좌표가 있는 한 쪽의 각 코너를 고유하게 지정하려면 두 개의 좌표가 2차원 행렬에 있는 셀입니다.
  • 특성 벡터의 항목 수입니다.

  • 임베딩 레이어의 요소 수입니다.

직접 프롬프팅

#language
#generativeAI

제로샷 프롬프팅의 동의어입니다.

불연속 특성

#fundamentals

가능한 값의 유한 집합을 갖는 특성입니다. 예를 들어 값이 동물, 채소, 광물 중 하나여야 하는 특성은 이산형 (또는 범주형) 특성입니다.

연속 특성과 대비되는 개념입니다.

분류 모델

하나 이상의 집합에서 라벨을 예측하는 모델 더 많은 기능을 살펴보세요. 공식적으로 분류 모델은 특성과 특성이 주어진 출력의 조건부 확률 weights; 다음과 같습니다.

p(output | features, weights)

예를 들어 이메일이 특성에서 스팸인지 여부를 예측하는 모델 가중치는 구분 모델입니다.

분류를 포함한 대부분의 지도 학습 모델은 회귀 모델은 구분 모델입니다

생성 모델과 대비되는 개념입니다.

분류자

가 진짜인지 가짜인지 판단하는 시스템입니다.

또는 생성적 적대 환경 내의 하위 시스템은 네트워크에 의해 생성기로 생성된 예는 진짜 또는 가짜입니다.

분류자를 참고하세요. GAN 과정에서 확인하세요.

서로 다른 영향

#fairness

다양한 집단에 영향을 미치는 사람들에 관한 의사 결정 하위 그룹이 불균형합니다. 이것은 일반적으로 알고리즘 기반 의사 결정 프로세스가 해를 끼치거나 일부 하위 그룹이 다른 그룹보다 많습니다.

예를 들어, 난민의 치수를 알아내는 알고리즘이 소형 주택 대출을 받을 자격이 있는 경우 '요건 미충족'으로 표시됩니다. 우편 주소에 특정 우편번호를 입력하세요. 빅 엔디언 릴리퓨티언이 Little-Endian Lilliputians보다 이 우편번호로 된 우편 주소를 사용하고 있다면 이 알고리즘은 서로 다른 영향을 미칠 수 있습니다.

서로 다른 처리와 대비되는 개념입니다. 하위 그룹 특성이 있을 때 발생하는 불균형에 초점을 맞춥니다. 알고리즘 의사 결정 프로세스에 대한 명시적인 입력입니다.

이질적 처리

#fairness

인수분해 민감한 속성 알고리즘 기반 의사 결정 프로세스로 변환하여 서로 다른 하위 그룹이 40%의 사람들이 다르게 대우받습니다.

예를 들어 난쟁이의 편을 주택담보대출 자격을 얻기 위한 대출 신청 시 제공하는 데이터에 적합합니다 알고리즘이 Lilliputian의 제휴를 Big-Endian 또는 Little-Endian으로 입력하면 해당 차원에 따라 상이한 취급을 적용합니다

상이한 영향과 달리 하위 그룹에 대한 알고리즘 결정이 사회적으로 미치는 영향의 불균형 하위 그룹이 모델에 대한 입력인지 여부와는 상관없습니다.

정제

#generativeAI

하나의 모델( Teaching)를 더 작은 모델 (학생이라고 함)으로 원본 모델의 예측을 가능한 한 충실하게 적용합니다. 정제 작은 모델이 큰 모델에 비해 두 가지 주요 이점이 있기 때문에 모델 (교사):

  • 추론 시간 단축
  • 메모리 및 에너지 사용량 감소

그러나 학생의 예측은 일반적으로 선생님의 예측입니다.

정제는 스튜던트 모델을 학습시켜 출력 간 차이를 기반으로 하는 손실 함수 모델 예측 예측을 제공합니다.

정제를 다음 용어와 비교 및 대조합니다.

LLM: 미세 조정, 정제, 프롬프트 참고 엔지니어링 에서 머신러닝 단기집중과정을 참조하세요.

배포

지정된 에 대한 여러 값의 빈도 및 범위입니다. feature 또는 label. 분포는 특정 값의 가능성을 포착합니다.

다음 이미지는 두 가지 분포의 히스토그램을 보여줍니다.

  • 왼쪽 그림은 재산과 인구 수에 대한 검정의 법칙 분포 비교 그 부를 소유하는 것입니다.
  • 오른쪽은 키 대 사람 수의 정규 분포 그 높이를 지니고 있어야 합니다.

2개의 히스토그램 한 히스토그램은
          인구가 x축에 표시되어 있고 그 재산을 가지고 있는 인구는
          x축입니다. 대다수의 사람들은 재산이 매우 적고, 일부 사람들은 재산을 가지고 있습니다.
          많은 돈을 벌었습니다. 다른 히스토그램은
평균 분포를
          X축에 키가 있고 해당 키를 가진 사람들의 수
          표시됩니다. 대부분의 사람들은 평균값에 가까운 어딘가에 모여 있습니다.

각 특성과 라벨의 분포를 이해하면 값을 정규화하고 이상점을 감지합니다.

분산이라는 문구는 표에 나타나지 않는 값을 말합니다. 매우 드뭅니다. 예를 들어, 토성의 이미지는 고양이 이미지로 구성된 데이터 세트에 대해 분포가 없는 것으로 간주됩니다.

분열적 군집화

#clustering

계층적 군집화를 참고하세요.

다운샘플링

#image

중복으로 정의된 용어로, 다음 중 하나를 의미할 수 있습니다.

  • 특성에서 제공하는 정보의 양을 줄이는 것은 보다 효율적으로 학습할 수 있습니다. 예를 들어 이미지 인식 모델을 학습시키기 전에, 고해상도 이미지를 다운샘플링하여 더 낮은 해상도 형식으로 변환할 수 있습니다
  • 불균형적으로 낮은 비율의 과대 대표된 데이터에 대한 학습 클래스 소수 집단에 대한 모델 학습을 개선하기 위해 예를 들어 클래스 불균형의 경우 데이터 세트를 살펴보면 모델은 종종 대다수의 집단에서 일하는 편이고 다수 범주. 다운샘플링은 유용한 기능 대다수 클래스와 소수 범주에 대한 학습량을 균형 있게 조정할 수 있습니다.

데이터 세트: 불균형을 참조하세요. 데이터 세트 에서 머신러닝 단기집중과정을 참조하세요.

DQN

#rl

Deep Q-Network의 약어입니다.

드롭아웃 정규화

학습에 유용한 정규화의 한 형태 신경망입니다. 드롭아웃 정규화 네트워크의 고정된 개수의 유닛을 임의로 선택한 제거 레이어가 있습니다. 이탈하는 유닛이 많을수록 살펴보겠습니다. 이는 에뮬레이션하도록 네트워크를 학습시키는 것과 유사합니다. 작은 네트워크의 기하급수적으로 큰 앙상블입니다. 자세한 내용은 다음을 참고하세요. 드롭아웃: 신경망이 공격으로 인한 피해를 막는 간단한 방법 과적합.

동적

#fundamentals

자주 또는 지속적으로 수행되는 작업 머신러닝에서 동적온라인이라는 용어는 동의어입니다. 다음은 머신에서 동적온라인의 일반적인 용도입니다. 학습:

  • 동적 모델 (또는 온라인 모델)은 모델입니다. 재학습시키는 경우가 많습니다
  • 동적 학습 (또는 온라인 학습)은 학습 과정입니다. 관리할 수 있습니다
  • 동적 추론 (또는 온라인 추론)은 요청 시 예측 생성

동적 모델

#fundamentals

자주 (지속적일 수도 있음) 모델 있습니다 동적 모델은 '평생 학습자' 저것 진화하는 데이터에 지속적으로 적응합니다 동적 모델은 온라인 모델을 참조하세요.

정적 모델과 대비되는 개념입니다.

E

즉시 실행

#TensorFlow

작업이 사용되는 TensorFlow 프로그래밍 환경입니다. 즉시 실행됩니다 반면에 그래프 실행은 명시적으로 호출될 때까지 실행되지 않으며 있습니다. 즉시 실행은 명령어 인터페이스처럼 코드처럼 작동합니다. 즉시 실행 프로그램은 일반적으로 그래프 실행 프로그램보다 디버그하기가 훨씬 쉽습니다.

조기 중단

#fundamentals

종료를 포함하는 정규화 방법 학습 손실이 완료되기 학습 감소하고 있습니다. 조기 중단에서는 의도적으로 모델 학습을 중단합니다. 검증 데이터 세트의 손실이 increase; 즉, 일반화 성능이 악화됩니다.

지구 이동자 거리 (EMD)

분포의 상대적 유사성에 대한 척도입니다. 지면 이동자의 거리가 짧을수록 분포가 더 유사합니다.

거리 수정

#language

두 텍스트 문자열이 서로 얼마나 비슷한지를 측정한 값입니다. 머신러닝에서 거리 수정은 컴퓨팅을 지원하며, 두 문자열을 비교하는 효과적인 방법을 주어진 문자열과 비슷한 문자열을 찾습니다.

편집 거리에는 여러 가지 정의가 있으며 각각 다른 문자열을 사용합니다. 작업을 수행할 수 있습니다 예를 들어 <ph type="x-smartling-placeholder"></ph> 레벤슈타인 거리 가장 적은 삭제, 삽입, 대체 작업을 고려합니다.

예를 들어, '하트'라는 단어 사이의 레벤슈타인 거리입니다. 및 'darts' 다음 세 번의 수정은 한 단어를 바꾸는 데 가장 적게 변경되기 때문에 3번입니다. 다음과 같습니다.

  1. 하트 → 디아트('h'를 'd'로 대체)
  2. deart → dart('e' 삭제)
  3. 다트 → 다트('s' 삽입)

에인섬 표기법

두 개의 텐서가 어떻게 진행되는지 설명하는 효율적인 표기법 합쳐집니다. 하나의 텐서의 요소를 곱하여 텐서가 결합됩니다. 다른 텐서의 요소로 나눈 다음 곱을 합산합니다. 에인섬 표기법은 기호를 사용하여 각 텐서의 축과 동일한 기호가 재배열되어 새로운 결과 텐서의 셰이프를 지정합니다.

NumPy는 일반적인 Einsum 구현을 제공합니다.

임베딩 레이어

#language
#fundamentals

인코더-디코더에서 학습하는 특별한 히든 레이어는 고차원 범주형 특성을 사용하여 점진적으로 저차원 임베딩 벡터를 학습합니다. 임베딩 레이어를 사용하면 신경망이 더 효율적으로 사용하는 것이 좋습니다.

예를 들어 지구는 현재 약 73,000종의 수종을 지원합니다. 가정 수종은 모델의 특성이므로 모델의 특성은 원-핫 벡터 73,000을 포함하는 입력 레이어 요소가 long을 만들 수 있습니다. 예를 들어 baobab는 다음과 같이 표현할 수 있습니다.

73,000개 요소의 배열 처음 6,232개의 요소는
     0으로 설정합니다. 다음 요소에는 값 1이 있습니다. 마지막 66,767개 요소는
     0으로 설정합니다.

요소 73,000개의 배열은 매우 깁니다. 임베딩 레이어를 추가하지 않는 경우 모델을 학습시키는 데 시간이 오래 걸리면 72,999개의 0을 곱합니다. 임베딩 레이어를 사용하여 12개 차원으로 이루어져 있습니다. 결과적으로 임베딩 레이어는 새로운 임베딩 벡터를 만들었습니다.

특정 상황에서는 해싱이 합리적인 대안입니다. 임베딩 레이어에 있습니다

임베딩을 참고하세요. 에서 머신러닝 단기집중과정을 참조하세요.

임베딩 공간

#language

고차원에서 특징이 나타나는 d차원 벡터 공간 매핑된 것입니다. 이상적으로 임베딩 공간에는 의미 있는 수학적 결과를 산출하는 구조 예를 들어 임베딩 덧셈 및 뺄셈 단어 비유 작업을 해결할 수 있습니다.

내적 두 임베딩의 유사성 척도입니다.

임베딩 벡터

#language

일반적으로 모든 히든 레이어는 해당 히든 레이어에 관한 입력을 설명합니다. 임베딩 벡터는 학습한 부동 소수점 수의 배열인 경우가 많으며 임베딩 레이어입니다 예를 들어 임베딩 레이어가 임베딩 벡터를 생성합니다. 아마도 다음 배열은 바오밥 나무의 임베딩 벡터입니다.

각각 부동 소수점 숫자를 보유하는 12개의 요소의 배열
          0.0과 1.0 사이입니다

임베딩 벡터는 난수의 집합이 아닙니다. 임베딩 레이어 이러한 값을 결정하는데 이는 모델 학습과 유사하게 신경망은 학습 중에 다른 가중치를 학습합니다. 이 배열은 수종의 일부 특성에 따른 평가입니다. 대상 요소는 어떤 수종의 나무 종인지 특성은 무엇인가요? 진짜 힘들어 인간이 결정할 수 있는 것이죠.

임베딩 벡터의 수학적으로 주목할 부분은 항목은 비슷한 부동 소수점 숫자 집합을 가지고 있습니다. 예를 들어, 수종이 다른 나무보다 더 유사한 부동 소수점 수 안 됩니다. 삼나무와 세쿼이아는 서로 관련된 나무종이지만 따라서 다른 셀보다 코코넛 야자수죠. 임베딩 벡터의 숫자는 모델을 재학습시킨 경우에도 모델을 재학습시킬 때마다 변경 동일한 입력 값을 사용합니다.

경험적 누적 분포 함수 (eCDF 또는 EDF)

누적 분포 함수는 실제 데이터 세트의 경험적 측정값을 기반으로 합니다. 이 함수는 x축의 임의 지점에 있는 모든 관측치의 비율입니다. 지정된 값보다 작거나 같은 데이터 세트입니다.

경험적 위험 최소화 (ERM)

학습 세트에서 손실을 최소화하는 함수 선택 대비 구조적 위험 최소화를 통해 이루어집니다.

인코더

#language

일반적으로 원시 데이터, 희소 데이터 또는 외부 데이터 세트에서 변환되는 모든 ML 시스템은 보다 처리되고 밀도가 높거나 내부적 표현으로 변환할 수 있습니다.

인코더는 종종 대규모 모델의 구성요소이지만, 디코더로 페어링됩니다. 일부 Transformer는 인코더와 디코더를 페어링하지만, 다른 Transformer는 인코더만 사용하여 디코더만 반환합니다.

일부 시스템은 인코더의 출력을 분류 또는 입력 문장의 입력으로 회귀 신경망입니다.

시퀀스-시퀀스 작업에서 인코더는 는 입력 시퀀스를 취하고 내부 상태 (벡터)를 반환합니다. 그런 다음 디코더는 이 내부 상태를 사용하여 다음 시퀀스를 예측합니다.

인코더 정의는 Transformer를 살펴보겠습니다

LLM: 대규모 언어란? 모델 에서 머신러닝 단기집중과정을 참조하세요.

앙상블

독립적으로 학습되었으며 예측이 포함된 모델 모음 평균값 또는 집계된 값입니다. 대부분의 경우 앙상블은 더 효율적입니다 예를 들어 랜덤 포레스트는 여러 랜덤 포레스트를 기반으로 빌드된 결정 트리. 참고: 결정 포레스트는 앙상블입니다.

랜덤 포레스트 에서 머신러닝 단기집중과정을 참조하세요.

엔트로피

#df

포함 <ph type="x-smartling-placeholder"></ph> 정보 이론, 예측 불가능한 확률에 대한 설명 있습니다. 또한 엔트로피는 양으로부터 각 에 포함된 정보 배포에 확률 변수의 모든 값이 가능성이 같습니다

가능한 두 값 '0'을 갖는 집합의 엔트로피 및 '1' (예: 이진 분류 문제의 라벨) 다음 공식을 가집니다.

<ph type="x-smartling-placeholder"></ph> H = -p 로그 p - q 로그 q = -p 로그 p - (1-p) * 로그 (1-p) 를 통해 개인정보처리방침을 정의할 수 있습니다.

각 항목의 의미는 다음과 같습니다.

  • H는 엔트로피입니다.
  • p는 '1'의 분수입니다. 예로 들 수 있습니다
  • q는 '0'의 분수입니다. 예로 들 수 있습니다 q = (1 - p)인 것을 볼 수 있습니다.
  • log는 일반적으로 log2입니다. 이 경우 엔트로피는 있습니다.

예를 들어 다음을 가정합니다.

  • 100개의 예가 '1' 값을 포함함
  • 300개의 예가 '0' 값을 포함함

따라서 엔트로피 값은 다음과 같습니다.

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)로그2(0.75) = 예당 0.81비트

완벽하게 균형을 이룬 세트 (예: '0' 200개 및 '1' 200개) 예당 1.0비트의 엔트로피가 있을 것입니다. 세트가 점점 더 불균형이면 엔트로피가 0.0을 향해 이동합니다.

결정 트리에서 엔트로피는 정보 획득을 통해 splitter - conditions 선택 매우 짧은 시간 안에 말이죠.

엔트로피를 다음과 비교:

엔트로피를 종종 섀넌의 엔트로피라고 합니다.

숫자를 사용한 이진 분류용 정확한 분할기 참조 기능 결정 포레스트 과정에서 살펴 보세요

환경

#rl

강화 학습에서는 에이전트가 포함된 세계 에이전트가 해당 세계의 상태를 관찰하도록 허용합니다. 예를 들어 표현된 세계는 체스와 같은 게임일 수도 있고, 실제 세계일 수도 있습니다. 미로 에이전트가 환경에 작업을 적용하면 환경이 상태 간에 전환됩니다.

에피소드

#rl

강화 학습에서 각 학습자의 반복 시도는 agent환경을 학습합니다.

에포크

#fundamentals

전체 학습 세트에 대한 전체 학습 패스 각 는 한 번씩 처리됩니다.

에포크는 N/배치 크기를 나타냅니다. 학습 반복으로, 여기서 N는 총 예시 수입니다.

예를 들어 다음과 같이 가정해 보겠습니다.

  • 데이터 세트는 1,000개의 예로 구성됩니다.
  • 배치 크기는 예시 50개입니다.

따라서 단일 에포크에는 20회의 반복이 필요합니다.

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

선형 회귀: 초매개변수 에서 머신러닝 단기집중과정을 참조하세요.

엡실론 탐욕 정책

#rl

강화 학습에서는 엡실론 가능성이 있는 무작위 정책 또는 그렇지 않은 경우 그리디 정책을 따릅니다. 예를 들어 엡실론이 0.9인 경우 정책은 90% 의 확률로 무작위 정책을 따르며 10% 는 정책을 준수해야 합니다.

알고리즘은 연속적인 에피소드에서 엡실론 값을 순서대로 줄입니다. 무작위 정책에서 탐욕적인 정책으로 전환하는 것입니다. 기준 정책을 변경하면 에이전트는 먼저 환경을 무작위로 탐색하고 무작위 탐색의 결과를 탐욕스럽게 이용합니다.

기회의 균등

#fairness

모델이 다음에 해당하는지 여부를 평가하기 위한 공정성 측정항목 모든 값에 대해 동일한 결과를 예측할 수 있어야 합니다 민감한 속성. 즉, 모델에 바람직한 결과는 포지티브 클래스입니다. 목표는 참양성률을 모든 그룹에서 동일합니다.

기회의 균등은 균등화된 확률과 관련이 있습니다. 이를 위해서는 참양성률과 참양성률을 모두 거짓양성률은 모든 그룹에서 동일합니다.

글러브덥드리브 대학교가 백인종과 브로딩나기안을 모두 인정한다고 가정해 봅시다. 수학 프로그램으로 바꾼 것입니다. 백합 중학교에서는 탄탄한 수학 커리큘럼이 있으며 대다수의 학생이 대학 프로그램 자격을 얻었습니다. 브로딩나기언스 중학교에서는 수학 수업을 전혀 제공하지 않으며, 그 결과 수학 수업을 듣는 학생 수가 훨씬 적습니다. 있습니다. 선호하는 라벨에는 기회의 균등이 충족된다. '수락됨' 국적 (릴리푸트 또는 브로딩나기안)에 따라 자격요건에 부합하는 학생의 경우 난쟁이족 또는 브로딩나기안이 아니에요.

예를 들어 100명의 난쟁이족과 100명의 브로딩나기안이 입학 결정은 다음과 같이 이루어집니다.

표 1. 릴리퓨티(lilliputian) 지원자(90% 가 적격)

  적격성 확인됨 자격 없음
허용됨 45 3
거부됨 45 7
합계 90 10
합격한 학생 비율: 45/90 = 50%
자격을 충족하지 못하는 학생 비율: 7/10 = 70%
입학률(45+3)/100 = 48%

 

표 2. 브로브딩나기안 신청자 (10% 가 적격):

  적격성 확인됨 자격 없음
허용됨 5 9
거부됨 5 81
합계 10 90
합격한 학생 비율: 5/10 = 50%
자격을 충족하지 못하는 학생 비율: 81/90 = 90%
브로브딩나기안 학생 중 전체 입학률: (5+9)/100 = 14%

앞의 예는 공정성을 수용하는 기회의 균등을 충족한다 유능한 릴리퓨티언과 브로딩나지안이 모두 접수될 확률이 50% 입니다

기회의 균등은 충족되지만 다음 두 가지 공정성 측정항목은 만족하지 않음:

  • 인구통계 동등성: 선도권자와 브로브딩나기 대학교의 입학률은 다른 편입니다. 48%의 대학생이 입학했지만 브로딩나기안 학생은 입학할 수 있습니다.
  • 동등한 승률: 적격한 릴리퓨티(Illiputian) 브로딩나기안 학생 모두 입학 기회가 동일하기 때문에 또 다른 제약조건으로 인해 브로딩나기란 둘 다 거절당할 확률이 똑같은 건 아니지 고객 만족도를 높일 수 있습니다 자격을 갖춘 난쟁이의 거부율은 70% 인 반면, 자격을 갖추지 못한 브로딩나기어의 거부율은 90% 입니다.

공정성: 동등성 기회 에서 머신러닝 단기집중과정을 참조하세요.

균등화된 승률

#fairness

모델이 결과를 동등하게 예측하는지 여부를 평가하는 공정성 측정항목 다음과 같은 민감한 속성의 모든 값에 적합합니다. 포지티브 클래스네거티브 클래스 - 어느 한 클래스가 아닌 다른 클래스 독점 제공됩니다. 즉, 참양성률과 거짓음성률과 거짓음성률은 모든 그룹에 적용됩니다.

균등화된 확률은 다음과 관련이 있습니다. 기회의 평등은 단일 클래스 (양수 또는 음수)의 오류율에 관한 정보를 제공합니다.

예를 들어 글러브더브드리브 대학교에서 선생님과 브로브딩나지아인들이 어려운 수학 프로그램에 나섰습니다. 백합 보조 여러 학교에서는 강력한 수학 수업 커리큘럼을 제공하고 있으며 대부분의 학생들이 대학 프로그램에 참가할 자격이 있습니다. 브로딩나기언스 보조 학교에서는 수학 수업을 전혀 제공하지 않기 때문에 수강할 수 있습니다. 주어진 신청자가 난민인지 브로딩나기안인지에 관계없이 프로그램에 입학할 수 있는 가능성이 동등하게 높지만 자격을 갖추지 못한 경우 거부될 가능성도 마찬가지입니다.

100명의 난쟁이족과 100명의 브로딩나기안이 글러브더브드리브에 지원한다고 가정해 봅시다. 대학 및 입학 결정은 다음과 같이 이루어집니다.

표 3. 릴리퓨티(lilliputian) 지원자(90% 가 적격)

  적격성 확인됨 자격 없음
허용됨 45 2
거부됨 45 8
합계 90 10
합격한 학생 비율: 45/90 = 50%
자격을 충족하지 못하는 학생 비율: 8/10 = 80%
입학률(45+2)/100 = 47%

 

표 4. 브로브딩나기안 신청자 (10% 가 적격):

  적격성 확인됨 자격 없음
허용됨 5 18
거부됨 5 72
합계 10 90
합격한 학생 비율: 5/10 = 50%
자격을 충족하지 못하는 학생 비율: 72/90 = 80%
브로브딩나기안 학생 중 전체 입학률: (5+18)/100 = 23%

자격을 갖춘 릴리푸티안과 브라브딩나기안이 두 학생은 모두 입학 확률이 50% 이며 Brobdingnagian은 거부될 가능성이 80% 입니다

균등화된 확률은 공식적으로 "데이터의 균등 지도 학습 기회'를 선택합니다. "예측자 size는 존중에서 균등한 확률을 충족시킵니다. 및 A가 독립인 경우 보호 속성 A와 결과 Y로, Y를 조건부로 하는 것입니다."

에스티메이터

#TensorFlow

지원 중단된 TensorFlow API 대신 tf.keras 사용 에스티메이터가 있습니다.

평가

#language
#generativeAI

주로 LLM 평가의 약어로 사용됩니다. 더 넓은 의미에서 evals는 모든 형태의 평가.

평가

#language
#generativeAI

모델의 품질을 측정하거나 여러 모델을 비교하는 프로세스 대립시킵니다.

지도 머신러닝을 평가하려는 경우 일반적으로 검증 세트와 비교하여 판단합니다. 테스트 세트가 있습니다. LLM 평가 일반적으로 더 광범위한 품질 및 안전 평가가 포함됩니다.

예시

#fundamentals

특성으로 구성된 한 행의 값과 필요한 경우 라벨입니다. 예시: 지도 학습은 일반 카테고리:

  • 라벨이 있는 예는 하나 이상의 특성으로 이루어져 있습니다. 라벨을 지정합니다 라벨이 있는 예는 학습 중에 사용됩니다.
  • 라벨이 없는 예는 하나 이상의 특성이 더 많지만 라벨은 없습니다 라벨이 없는 예는 추론 중에 사용됩니다.

예를 들어 모델을 학습시켜 모델 예측의 영향을 알아내고 기상 상황을 예측한 결과입니다. 다음은 라벨이 있는 3가지 예입니다.

기능 라벨
온도 습도 압력 테스트 점수
15 47 998 좋음
19 34 1020 매우 좋음
18 92 1012 나쁨

다음은 라벨이 없는 세 가지 예입니다.

온도 습도 압력  
12 62 1014  
21 47 1017  
19 41 1021  

데이터 세트의 행은 일반적으로 예의 원시 소스입니다. 즉, 한 예는 일반적으로 데이터 세트입니다. 또한 예시의 특성에는 합성 특성: 특성 교차를 수행합니다.

다음에서 지도 학습을 참고하세요. 머신러닝 입문 과정을 참조하세요.

실험 환경 다시보기

#rl

강화 학습에서는 DQN 기법이 시간적 상관관계를 줄이는 데 사용될 수 있습니다 에이전트는 상태 전환을 재생 버퍼에 저장한 다음 샘플 전환을 샘플링하여 학습 데이터를 만듭니다.

실험자 편향

#fairness

확증 편향을 참조하세요.

경사 발산 문제

#seq

경사 경향은 심층신경망 (특히 순환 신경망)을 의외로 가파른 (높음). 급격한 경사는 매우 큰 업데이트를 초래하는 경우가 많음 각 노드가중치와 심층신경망입니다.

경사 발산 문제가 발생하는 모델이 어려워짐 학습이 불가능할 수도 있습니다 그래디언트 클리핑 이 문제를 완화할 수 있습니다

경사 소실 문제와 비교해 보세요.

F

F1

'롤업' 이진 분류 측정항목을 사용하여 정밀도재현율을 모두 사용합니다. 공식은 다음과 같습니다.

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

예를 들어 다음과 같은 경우

  • 정밀도 = 0.6
  • 재현율 = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

앞의 예와 같이 정밀도와 재현율이 상당히 비슷한 경우 F1이 평균에 가깝습니다. 정밀도와 재현율이 다른 경우 유의미하게 F1이 더 낮은 값에 가깝습니다. 예를 들면 다음과 같습니다.

  • 정밀도 = 0.9
  • 재현율 = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

공정성 제약 조건

#fairness
하나 이상의 정의를 보장하기 위해 알고리즘에 제약조건 적용 공정성이 충족되는지를 평가합니다. 공정성 제약 조건의 예는 다음과 같습니다.

  • 모델의 출력을 후처리합니다.
  • 손실 함수를 변경하여 페널티를 통합 위반 시 공정성 측정항목을 준수해야 합니다.
  • 최적화 문제에 수학적 제약 조건을 직접 추가합니다.

공정성 측정항목

#fairness

'공정성'의 수학적 정의 측정할 수 있습니다 일반적으로 사용되는 공정성 측정항목은 다음과 같습니다.

많은 공정성 측정항목은 상호 배타적입니다. 보기 공정성 측정항목의 비호환성.

거짓음성 (FN)

#fundamentals

모델이 잘못된 예측을 수행하는 예는 네거티브 클래스와 비교됩니다. 예를 들어 모델은 특정 이메일 메시지가 스팸이 아님을 예측하는 경우 (네거티브 클래스)를 제공하지만, 해당 이메일 메시지는 실제로는 스팸입니다.

거짓음성률

모델이 실수한 실제 양성 예의 비율입니다. 네거티브 클래스를 예측했습니다 다음 수식은 false를 계산합니다. 음수 비율:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

기준점과 혼동 매트릭스 에서 머신러닝 단기집중과정을 참조하세요.

거짓양성 (FP)

#fundamentals

모델이 잘못된 예측을 수행하는 예는 포지티브 클래스와 같은 클래스입니다. 예를 들어 모델은 특정 이메일 메시지가 스팸 (포지티브 클래스)이지만 이메일 메시지가 사실 스팸이 아닙니다.

기준점과 혼동 매트릭스 에서 머신러닝 단기집중과정을 참조하세요.

거짓양성률 (FPR)

#fundamentals

모델이 실수로 잘못 예측한 실제 음성 예시의 비율입니다. 양성 클래스를 예측했습니다. 다음 수식은 false를 계산합니다. 양성률:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

거짓양성률은 ROC 곡선의 x축입니다.

분류: ROC 및 AUC 에서 머신러닝 단기집중과정을 참조하세요.

특징

#fundamentals

머신러닝 모델의 입력 변수입니다. 하나 이상의 기능으로 구성됩니다. 예를 들어 한 개의 신경망이 기상 조건이 학생의 시험 점수에 미치는 영향을 판단할 수 있습니다. 다음 표에는 세 가지 예가 나와 있으며 각 예에는 특성 3개, 라벨 1개:

기능 라벨
온도 습도 압력 테스트 점수
15 47 998 92
19 34 1020 84
18 92 1012 87

라벨과 대비되는 개념입니다.

지도 학습을 참조하세요. Introduction to Machine Learning 과정을 참조하세요.

특성 교차

#fundamentals

'교차'하여 형성되는 합성 특성 범주형 또는 버케팅 특성입니다.

예를 들어 '기분 예측'을 인코더-디코더 모델을 다음 네 개 버킷 중 하나에서 온도를 나타냅니다.

  • freezing
  • chilly
  • temperate
  • warm

다음 세 버킷 중 하나의 풍속을 나타냅니다.

  • still
  • light
  • windy

특성 교차가 없으면 선형 모델은 각 특성에 대해 독립적으로 학습합니다. 앞서 7개의 다양한 버킷이 있습니다 예를 들어 모델은 freezing 예를 들면 다음과 같은 학습과 관계없이 windy

또는 온도의 특성 교차와 풍속입니다. 이 합성 특성은 값:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

특성 교차 덕분에 모델이 기분 변화를 학습할 수 있습니다. freezing-windy일에서 freezing-still일 사이

각기 다른 많은 특성을 갖는 두 특성으로 합성 특성을 만들면 결과 특성 교차에는 엄청나게 많은 수의 조합할 수 있습니다. 예를 들어 한 특성에 1,000개의 버킷이 있고 다른 특성에는 버킷이 2,000개 있고 결과 특성 교차에는 2,000,000개의 버킷이 있습니다. 버킷이 있습니다

공식적으로 십자가는 데카르트 곱.

특성 교차는 선형 모델에서 주로 사용되며 거의 사용되지 않습니다. 살펴보겠습니다

범주형 데이터: 특성 참조 교차 에서 머신러닝 단기집중과정을 참조하세요.

특성 추출 단계를 포함합니다

#fundamentals
#TensorFlow

프로세스에는 다음 단계가 포함됩니다.

  1. 유용한 특성 결정 매우 중요합니다
  2. 데이터 세트의 원시 데이터를 살펴보겠습니다

예를 들어 temperature가 유용할 수 있다고 판단할 수 있습니다. 기능을 사용할 수 있습니다. 그런 다음 버케팅을 실험해 볼 수 있습니다. 모델이 다양한 temperature 범위에서 학습할 수 있는 내용을 최적화합니다.

특성 추출이라고도 하며 특성 추출 또는 기능화.

수치 데이터: 모델이 특성을 사용하여 데이터를 수집하는 방법을 참조하세요. 벡터 에서 머신러닝 단기집중과정을 참조하세요.

특성 추출

다음 정의 중 하나로 중복 정의된 용어입니다.

  • 인코더-디코더 연산으로 계산된 중간 특성 표현을 비지도 또는 선행 학습된 모델 (예를 들어 히든 레이어의 히든 레이어 값이 신경망)을 다른 모델에서 입력으로 사용합니다.
  • 특성 추출의 동의어입니다.

특성 중요도

#df

변수 중요도의 동의어입니다.

특성 세트

#fundamentals

머신러닝의 특성 그룹 model을 학습합니다. 예를 들어 우편번호, 속성 크기, 속성 조건은 간단한 특성 세트를 구성하는 방법을 학습합니다.

특성 사양

#TensorFlow

특성 데이터를 추출하는 데 필요한 정보를 설명합니다. tf.Example 프로토콜 버퍼에서 추출됩니다. 왜냐하면 tf.Example 프로토콜 버퍼는 데이터의 컨테이너일 뿐이므로 다음과 같습니다.

  • 추출할 데이터 (특성의 키)
  • 데이터 유형 (예: float 또는 int)
  • 길이 (고정 또는 가변)

특성 벡터

#fundamentals

요소를 구성하는 feature 값의 배열은 특성 벡터는 학습추론 도중에 발생합니다. 예를 들어 두 개의 개별 특성이 있는 모델의 특성 벡터입니다. 다음과 같을 수 있습니다.

[0.92, 0.56]

4개의 레이어: 입력 레이어, 히든 레이어 2개, 출력 레이어 1개
          입력 레이어에는 노드 두 개가 있으며, 그 중 하나는
          0.92이고 다른 하나는 값 0.56을 포함합니다.

각 예는 특성 벡터에 대해 서로 다른 값을 제공하므로 다음 예의 특성 벡터는 다음과 같을 수 있습니다.

[0.73, 0.49]

특성 추출은 특성 추출을 특성 벡터입니다. 예를 들어 5개의 가능한 값을 원-핫 인코딩. 이 경우 특성 벡터는 4개의 0으로 구성되고 다음과 같이 세 번째 위치에 단일 1.0을 표시합니다.

[0.0, 0.0, 1.0, 0.0, 0.0]

또 다른 예로, 모델이 다음 세 가지 특성으로 구성되어 있다고 가정해 보겠습니다.

  • 5개의 가능한 값을 갖는 이진 범주형 특성은 원-핫 인코딩 예: [0.0, 1.0, 0.0, 0.0, 0.0]
  • 3개의 가능한 값을 나타내는 또 다른 이진 범주형 특성 원-핫 인코딩을 사용합니다. 예: [0.0, 0.0, 1.0]
  • 부동 소수점 특성 예: 8.3

이 경우 각 예의 특성 벡터는 9개 값으로 나눈 값입니다. 위 목록의 예시 값을 고려할 때 특성 벡터는 다음과 같습니다.

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

수치 데이터: 모델이 특성을 사용하여 데이터를 수집하는 방법을 참조하세요. 벡터 에서 머신러닝 단기집중과정을 참조하세요.

기능화

입력 소스에서 특성을 추출하는 프로세스입니다. 데이터를 저장하고 이러한 특성을 특성 벡터를 사용할 수 있습니다.

일부 ML 전문가는 기능화를 특성 추출 또는 특성 추출.

제휴 학습

학습하는 분산형 머신러닝 접근 방식 분산된 데이터를 사용하는 머신러닝 모델 (스마트폰 등 기기) 제휴 학습에서는 기기의 하위 집합이 현재 모델을 다운로드합니다. 중앙 조정 서버에서 전송됩니다. 기기는 저장된 예시를 사용하여 모델을 개선할 수 있습니다. 그런 다음 장치는 조정 작업에 대해 모델이 개선되고 (학습 예제는 개선되지 않음) 다른 업데이트와 함께 집계되어 글로벌 모델입니다. 집계 후 모델은 기기에서 계산한 값을 업데이트합니다. 는 더 이상 필요하지 않으며 삭제할 수 있습니다.

학습 예시는 업로드되지 않으므로 제휴 학습은 개인 정보 보호 원칙(개인 정보 보호 원칙)을 수립했습니다.

제휴 학습에 대한 자세한 내용은 이 튜토리얼을 참조하세요.

피드백 루프

#fundamentals

머신러닝에서 모델의 예측이 모델 예측에 영향을 주는 상황은 학습 데이터를 얻는 방법을 학습하는 데 사용됩니다. 예를 들어 사람들이 보는 영화에 영향을 주게 되며, 후속 영화 추천 모델에 영향을 미칩니다.

프로덕션 ML 시스템: 질문하기 에서 머신러닝 단기집중과정을 참조하세요.

순방향 신경망 (FFN)

순환 또는 재귀 연결이 없는 신경망입니다. 예를 들어 기존의 심층신경망은 순방향 신경망(FFN)을 사용합니다. 반복적 신경망과 대비되는 개념 네트워크의 경우 순환됩니다.

퓨샷 학습

객체 분류에 자주 사용되는 머신러닝 접근 방식 소수의 사용 사례만을 대상으로 효과적인 분류기를 학습시키기 위해 학습 예시가 필요합니다.

원샷 학습제로샷 학습.

퓨샷 프롬프팅

#language
#generativeAI

둘 이상의 예('몇 개')가 포함된 프롬프트 대규모 언어 모델이 응답해야 합니다 예를 들어 다음과 같은 긴 프롬프트에는 쿼리에 답하는 방법을 대규모 언어 모델의 예입니다.

프롬프트 구성 요소 참고
지정된 국가의 공식 통화는 무엇인가요? LLM이 답변할 질문입니다.
프랑스: EUR 한 가지 예시입니다.
영국: GBP 또 다른 예로
인도: 실제 쿼리입니다.

퓨샷 프롬프팅은 일반적으로 다른 모델보다 제로샷 프롬프팅원샷 프롬프팅. 하지만 퓨샷 프롬프팅은 더 긴 프롬프트가 필요합니다

퓨샷 프롬프팅은 퓨샷 학습의 한 형태임 이는 프롬프트 기반 학습에 적용됩니다.

프롬프트 참조 엔지니어링 에서 머신러닝 단기집중과정을 참조하세요.

바이올린

#language

Python 중심 구성 라이브러리로, 함수와 클래스의 값을 암호화할 수 있습니다. Pax 및 기타 ML 코드베이스의 경우 이러한 함수와 클래스는 모델학습을 나타냅니다. 초매개변수

Fiddle 머신러닝 코드베이스가 일반적으로 다음과 같이 나뉩니다.

  • 레이어와 옵티마이저를 정의하는 라이브러리 코드
  • 데이터 세트 '글루' 코드를 사용하여 라이브러리를 호출하고 모든 것을 함께 연결합니다.

Fiddle은 평가되지 않은 상태로 글루 코드의 호출 구조를 있습니다.

미세 조정

#language
#image
#generativeAI

두 번째 작업별 학습 패스는 선행 학습된 모델을 사용하여 특정 세그먼트의 매개변수를 미세 조정합니다. 구체적인 사용 사례를 알아보겠습니다 예를 들어 일부 모델의 전체 학습 시퀀스는 대규모 언어 모델은 다음과 같습니다.

  1. 사전 학습: 방대한 일반 데이터 세트로 대규모 언어 모델을 학습시킵니다. 모든 영어 위키백과 페이지와 같은 데이터를 예로 들 수 있습니다
  2. 미세 조정: 선행 학습된 모델을 학습시켜 특정 작업을 수행합니다. 의료 질문에 답하는 등의 기능을 예로 들 수 있습니다 미세 조정에는 일반적으로 특정 태스크에 초점을 맞춘 수백, 수천 개의 예시를 제공합니다.

또 다른 예로, 대형 이미지 모델의 전체 학습 시퀀스는 다음과 같습니다.

  1. 사전 학습: 방대한 일반 이미지로 대형 이미지 모델을 학습시킵니다. Wikimedia Commons의 모든 이미지와 같은 데이터 세트에 데이터를 추가할 수 있습니다
  2. 미세 조정: 선행 학습된 모델을 학습시켜 특정 작업을 수행합니다. 예를 들어 범고래 이미지를 생성하는 것입니다.

미세 조정에는 다음과 같은 전략의 조합이 수반될 수 있습니다.

  • 선행 학습된 모델의 기존 모델을 모두 수정 매개변수로도 지정할 수 있습니다. 이를 전체 미세 조정이라고도 합니다.
  • 선행 학습된 모델의 기존 매개변수 중 일부만 수정 (일반적으로 출력 레이어에 가장 가까운 레이어) 다른 기존 매개변수는 변경하지 않고 (일반적으로 레이어는 (입력 레이어에 가장 가까움). 자세한 내용은 매개변수 효율적인 조정입니다.
  • 일반적으로 출력 레이어입니다.

미세 조정은 전이 학습의 한 형태입니다. 따라서 미세 조정에는 다른 손실 함수 또는 다른 모델을 사용할 수 있습니다. 사전 학습된 모델 학습에 사용된 것보다 훨씬 더 높은 유형입니다 예를 들어 선행 학습된 대형 이미지 모델을 미세 조정하여 는 입력 이미지의 새 수를 반환합니다.

미세 조정을 다음 용어와 비교 및 대조합니다.

세부 조정을 참조하세요. 에서 머신러닝 단기집중과정을 참조하세요.

플랙스

#language

고성능 오픈소스 라이브러리 JAX를 기반으로 구축된 딥 러닝입니다. Flax는 다양한 신경망 학습에도 사용할 수 있습니다. 실적을 평가하는 방법이 될 수 있습니다.

Flaxformer

#language

오픈소스 Transformer 라이브러리 주로 자연어 처리를 위해 설계된 Flax를 기반으로 빌드됨 연구하고 싶었습니다.

포겟 게이트

#seq

장기 단기 메모리의 일부 세포를 통과하는 정보의 흐름을 조절하는 역할을 합니다. 게이트는 삭제할 정보를 결정하여 컨텍스트를 유지함 삭제됩니다.

전체 소프트맥스

소프트맥스의 동의어입니다.

후보 샘플링과 대비되는 개념입니다.

완전 연결 레이어

노드가 있는 히든 레이어입니다. 후속 히든 레이어의 모든 노드에 연결됩니다.

완전 연결 레이어를 밀집 레이어라고도 합니다.

함수 변환

함수를 입력으로 사용하여 변환된 함수를 반환하는 함수 출력됩니다. JAX는 함수 변환을 사용합니다.

G

GAN

생성적 적대적 약어 네트워크에 배치됩니다.

일반화

#fundamentals

새로운 데이터 세트에 대해 올바른 예측을 수행하는 모델의 능력 데이터를 수집, 저장, 삭제할 수 있습니다 일반화할 수 있는 모델은 그 반대입니다 과적합 상태인 모델입니다.

Gemini

#language
#image
#generativeAI

Google의 최첨단 AI로 구성된 생태계 이 생태계의 요소 포함:

  • 다양한 Gemini 모델.
  • Gemini 모델을 위한 대화형 대화형 인터페이스입니다. 사용자가 프롬프트를 입력하면 Gemini가 프롬프트에 대답합니다.
  • 다양한 Gemini API
  • Gemini 모델을 기반으로 하는 다양한 비즈니스 제품 예를 들어 Google Cloud를 위한 Gemini
를 통해 개인정보처리방침을 정의할 수 있습니다.

Gemini 모델

#language
#image
#generativeAI

Google의 최첨단 Transformer 기반 멀티모달 모델. Gemini 모델은 구체적으로 에이전트와 통합되도록 설계되었습니다.

사용자는 다음을 비롯한 다양한 방식으로 Gemini 모델과 상호작용할 수 있습니다. 대화형 대화상자 인터페이스와 SDK를 통해 구현됩니다.

일반화 곡선

#fundamentals

학습 손실유효성 검사 손실 반복입니다.

일반화 곡선을 사용하면 과적합입니다. 예를 들어 검증 손실로 인해 일반화 곡선이 과적합을 암시함 궁극적으로 학습 손실보다 훨씬 더 높아집니다.

y축에 손실 라벨이 지정되고 x축에 라벨이 지정된 데카르트 그래프
          반복 라벨이 지정되어 있습니다 두 개의 플롯이 나타납니다. 한 플롯은
          다른 하나는 검증 손실을
보여줍니다
          두 도표는 비슷하게 시작하지만 학습 손실은 결국
          감소하는 것을 확인할 수 있습니다.

일반화 선형 모델

최소 제곱 회귀의 일반화 기반으로 하는 가우시안 노이즈와 같은 다른 유형의 노이즈에 기반한 모델 유형(예: 푸아송 노이즈 또는 살펴보겠습니다 일반화 선형 모델의 예는 다음과 같습니다.

일반화 선형 모델의 매개변수는 볼록 최적화.

일반화 선형 모델은 다음과 같은 속성을 나타냅니다.

  • 최적의 최소 제곱 회귀 모델의 평균 예측은 다음과 같습니다. 학습 데이터의 평균 라벨과 같아야 합니다.
  • 최적 로지스틱 회귀로 예측한 평균 확률입니다. 학습 데이터의 평균 라벨과 동일합니다.

일반화 선형 모델의 성능은 특성에 따라 제한됩니다. 좋아요 취소 일반화 선형 모델은 '새로운 특성을 학습'할 수 없습니다.

생성적 적대 신경망 (GAN)

새 데이터를 생성하는 시스템으로, 이를 통해 생성기분류자가 유효한지 또는 유효하지 않은지를 확인합니다.

생성형 AI의

#language
#image
#generativeAI

공식적인 정의가 없는 새로운 혁신 분야 그렇지만 대부분의 전문가들은 생성형 AI 모델이 콘텐츠를 생성('생성')하는 데 사용됩니다.

  • 복잡함
  • 일관성
  • 원본

예를 들어 생성형 AI 모델은 정교한 에세이 또는 이미지일 수 있습니다.

LSTMs을 비롯한 일부 초기 기술 RNN도 마찬가지로 일관성 있는 콘텐츠를 제공하세요 일부 전문가들은 이러한 초기 기술이 진정한 생성형 AI에는 더 복잡한 작업이 필요하다고 생각하는 더 높은 수준의 결과물을 얻을 수 있습니다.

예측 ML과 대비되는 개념입니다.

생성 모델

실제로 다음 중 하나를 수행하는 모델입니다.

  • 학습 데이터 세트에서 새 예를 만듭니다. 예를 들어 생성 모델은 학습 후에 시를 만들 수 있습니다. 학습합니다. generator 부분은 생성적 적대 신경망(GAN) 이 카테고리에 속합니다.
  • 새로운 예가 주어진 생성했을 때와 동일한 메커니즘으로 만들어졌거나 학습 세트입니다. 예를 들어 영어 문장으로 구성된 데이터 세트를 생성했다면 생성 모델은 새로운 입력이 유효한 영어 문장일 확률을 결정합니다.

생성 모델은 이론적으로 예의 분포를 식별할 수 있음 데이터 세트의 특정 특성을 정의할 수 있습니다 이는 다음과 같은 의미입니다.

p(examples)

비지도 학습 모델은 생성 모델입니다.

분류 모델과 대비되는 개념입니다.

생성기

생성적 적대 콘텐츠 내의 하위 시스템 네트워크예시를 만듭니다.

분류 모델과 대비되는 개념입니다.

지니 불순물

#df

엔트로피와 유사한 측정항목입니다. 스플리터 지니 불순물 또는 엔트로피에서 파생된 값을 사용하여 분류를 위한 조건 결정 트리. 정보 획득은 엔트로피에서 파생됩니다. 파생된 측정항목에 일반적으로 인정되는 동등한 용어가 없습니다. 지니 불순물로부터 이름이 지정되지 않은 이 측정항목은 얻을 수 있습니다.

지니 불순물은 지니 지수 또는 간단히 지니라고도 합니다.

골든 데이터 세트

정답을 캡처하는 수동으로 선별된 데이터 세트입니다. 팀은 하나 이상의 골든 데이터 세트를 사용하여 모델의 품질을 평가할 수 있습니다.

일부 골든 데이터 세트는 정답의 서로 다른 하위 도메인을 캡처합니다. 예를 들어 이미지 분류를 위한 골든 데이터 세트는 조명 조건을 캡처할 수 있습니다 이미지 해상도가 필요합니다.

GPT (생성형 선행 학습된 Transformer)

#language

Transformer 기반 제품군 Google Cloud에서 개발한 대규모 언어 모델 OpenAI가 있습니다.

GPT 변형은 다음과 같은 여러 모달리티에 적용할 수 있습니다.

  • 이미지 생성 (예: ImageGPT)
  • 텍스트 이미지 변환 생성 (예: DALL-E)를 사용합니다.

gradient

다음에 대한 편미분의 벡터입니다. 파악할 수 있습니다. 머신러닝에서 경사는 모델 함수의 편미분 벡터입니다. 그라데이션 점 가장 가파른 오르막 방향입니다.

경사 누적

역전파 기법은 매개변수는 에포크당 한 번이 아닌 에포크당 한 번만 있습니다. 각 미니 배치를 처리한 후 경사 누적은 단순히 경사의 누계를 업데이트합니다. 그런 다음 에포크의 마지막 미니 배치를 처리하면 시스템은 최종적으로 매개변수를 조정해야 합니다.

경사 누적은 배치 크기가 학습에 사용할 수 있는 메모리 양에 비해 매우 크다는 것을 의미합니다 메모리가 문제인 경우 자연스러운 경향은 배치 크기를 줄이는 것입니다. 하지만 정상적인 역전파에서 배치 크기를 줄이면 증가합니다. 매개변수 업데이트 횟수 경사 누적을 통해 모델은 효율적으로 학습하도록 하는 방법을 배웁니다.

경사 부스티드 (결정) 트리 (GBT)

#df

다음과 같은 결정 포레스트의 한 유형입니다.

경사 부스팅

#df

약한 모델이 반복적으로 학습되도록 하는 학습 알고리즘 강력한 모델의 품질 개선 (손실 감소) 예를 들어 약한 모델은 선형 또는 작은 결정 트리 모델일 수 있습니다. 강력한 모델은 이전에 학습된 모든 약한 모델의 합계가 됩니다.

가장 단순한 형태의 경사 부스팅에서는 각 반복에서 약한 모델을 사용합니다. 강력한 모델의 손실 경사를 예측하도록 학습되었습니다. 그런 다음 예측된 경사를 빼서 업데이트됩니다. 경사하강법과 유사합니다.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

각 항목의 의미는 다음과 같습니다.

  • $F_{0}$ 은(는) 강력한 출발 모델입니다.
  • $F_{i+1}$ 은(는) 그다음으로 좋은 모델입니다.
  • $F_{i}$ 은(는) 현재 강력한 모델입니다.
  • $\xi$ 는 축소라고 하는 0.0과 1.0 사이의 값입니다. 인코더-디코더 아키텍처를 업계의 학습률 경사하강법입니다.
  • $f_{i}$ 는 손실 경사를 예측하도록 학습된 약한 모델입니다. $F_{i}$입니다.

경사 부스팅의 현대적인 변형에는 이차 도함수도 포함됩니다. (Hessian) 값을 구할 수 있습니다.

결정 트리는 일반적으로 그래디언트 부스팅이라고 합니다. 자세한 내용은 경사 강화 (결정) 트리.

경사 제한(경사 제한)

#seq

인코더-디코더 아키텍처를 완화하기 위해 과도 경사 문제를 를 사용할 때 경사의 최댓값을 제한 (클리핑) 경사하강법을 사용하여 모델을 학습합니다.

경사하강법

#fundamentals

손실을 최소화하는 수학적 기법입니다. 경사하강법의 반복 조정 가중치편향, 점차적으로 손실을 최소화하기 위한 최적의 조합을 찾습니다.

경사하강법은 머신러닝보다 훨씬 오래되었으며 훨씬 더 오래되었습니다.

그래프

#TensorFlow

TensorFlow에서는 계산 사양을 의미합니다. 그래프의 노드 작업을 나타냅니다. 에지는 방향성을 가지며 결과 전달을 나타냅니다. 연산 (Tensor)의 피연산자일 수도 있습니다. 사용 TensorBoard: 그래프를 시각화합니다.

그래프 실행

#TensorFlow

프로그램이 처음 구성되는 TensorFlow 프로그래밍 환경 그래프를 생성한 다음 해당 그래프의 전체 또는 일부를 실행합니다. 그래프 실행은 TensorFlow 1.x의 기본 실행 모드입니다.

즉시 실행과 대비되는 개념입니다.

탐욕 정책

#rl

강화 학습에서 항상 학습자를 선택하는 정책return이 가장 높은 액션을 반환합니다.

정답

#fundamentals

현실

실제로 발생한 일입니다.

예를 들어 이진 분류를 학생이 대학 진학 첫해인지 여부를 예측하는 모델 6년 이내에 졸업할 예정입니다 이 모델의 정답은 6년 안에 졸업한 건 아니다.

그룹 귀인 편향

#fairness

한 개인에게도 진실이 모든 사람에게도 진실이라는 가정 확인할 수 있습니다. 그룹 귀인 편향의 영향은 악화될 수 있음 편의 샘플링이 데이터 수집에 사용됩니다 대표성이 없는 샘플에서 기여 분석은 현실을 반영하지 않는 방식으로 만들 수도 있습니다

외부 집단 동질화 편향도 참조하세요. 내집단 편향을 사용할 수 있습니다

H

할루시네이션

#language

타당해 보이지만 실제로는 잘못된 출력의 생성을 생성형 AI 모델을 만들어 주장하지 않습니다. 예를 들어 버락 오바마가 1865년에 사망했다고 주장하는 생성형 AI 모델 할루시네이션하는 콘텐츠입니다.

해싱

머신러닝에서 버케팅 메커니즘은 범주형 데이터로, 특히 데이터가 카테고리 수는 많지만 실제로 게재되는 카테고리의 수는 많지만 비교적 작습니다.

예를 들어 지구에는 약 73,000종의 나무가 살고 있습니다. 다음과 같은 방법을 사용할 수 있습니다. 73,000개의 분류 기준으로 73,000개의 수목을 각각 대표 버킷이 있습니다 또는 이 나무 중 200종만 실제로 나타나는 경우 해싱을 사용하여 수종을 약 500개 정도의 버킷이 있습니다

단일 버킷에 여러 수종이 포함될 수 있습니다. 예를 들어 해싱은 유전적으로 다른 두 개는 바오밥레드 메이플을 배치할 수 있습니다. 동일한 버킷에 넣을 수 있습니다. 그럼에도 불구하고 해싱은 큰 범주형 집합을 선택한 수의 버킷에 매핑합니다. 해싱은 많은 수의 가능한 값을 갖는 범주형 특성을 더 적은 수의 값을 결정론적인 방법입니다.

휴리스틱

문제에 대한 간단하고 신속하게 구현된 솔루션입니다. 예를 들어 "휴리스틱을 통해 86% 의 정확성을 달성했습니다. 우리가 정확성이 최대 98% 향상되었습니다."

히든 레이어

#fundamentals

신경망의 레이어는 입력 레이어 (특성)와 출력 레이어 (예측)입니다. 각 히든 레이어는 하나 이상의 뉴런으로 구성됩니다. 예를 들어 다음 신경망에는 두 개의 히든 레이어가 있습니다. 첫 번째 모델에는 뉴런이 3개, 두 번째에는 뉴런이 2개 있습니다.

4개 레이어 첫 번째 레이어는 두 개의
          기능을 살펴보겠습니다 두 번째 레이어는 세 개의
          학습합니다. 세 번째 레이어는 두 개의
          학습합니다. 네 번째 레이어는 출력 레이어입니다 각 특성
          세 개의 모서리를 포함하며, 각 모서리는 서로 다른 뉴런을 가리킵니다.
          두 번째 레이어에 있습니다. 두 번째 레이어의 각 뉴런은
          두 개의 에지를 포함하며 각 모서리는 서로 다른 뉴런을 가리킵니다.
          세 번째 레이어에 있습니다 세 번째 레이어의 각 뉴런에는
          각각 출력 레이어를 가리키게 합니다.

심층신경망에는 둘 이상이 포함되어 있습니다. 히든 레이어입니다. 예를 들어 위 이미지는 모델이 2개의 히든 레이어를 포함하기 때문입니다.

계층적 군집화

#clustering

트리를 생성하는 클러스터링 알고리즘의 카테고리입니다. Kubernetes입니다 계층적 군집화는 계층적 데이터에 적합하며 예를 들어 식물 분류를 예로 들 수 있습니다 두 가지 유형의 계층적 데이터 클러스터링 알고리즘:

  • 병합형 군집화는 먼저 모든 예를 자체 클러스터에 할당하므로 가장 가까운 클러스터를 반복적으로 병합하여 있습니다.
  • 분리형 군집화는 먼저 모든 예를 하나의 클러스터로 그룹화한 후 계층 트리로 클러스터를 반복적으로 분할합니다.

중심 기반 군집화와 대비되는 개념입니다.

힌지 손실

손실 함수군은 분류결정 경계를 최대한 멀리 배치 살펴봤습니다 따라서 예시와 경계 사이의 여백이 극대화됩니다. KSVM은 힌지 손실 (또는 제곱 힌지 손실). 이진 분류의 경우 힌지 손실 함수는 다음과 같이 정의됩니다.

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

여기서 y는 -1 또는 +1인 실제 라벨이고 y'는 원시 출력입니다. 다음과 같습니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

따라서 힌지 손실과 (y * y')를 비교하여 그래프로 표시하면 다음과 같습니다.

두 개의 결합된 선분으로 구성된 데카르트 도표입니다. 첫 번째
          선 세그먼트는 (-3, 4)에서 시작하여 (1, 0)에서 끝납니다. 두 번째 줄
          (1, 0)에서 시작하여 기울기로 무기한 계속되는 세그먼트
          를 0으로 설정합니다.

역사적 편향

#fairness

편향의 한 유형이 이미 세상에 존재하며 데이터 세트에 입력됩니다. 이러한 편향은 기존에 존재하는 특정 인구 집단에 대한 편견, 그리고 문화적 고정관념, 인구통계학적 불평등 소셜 그룹

예를 들어 다음과 같은 분류 모델이 있다고 가정해 보겠습니다. 는 대출 신청자가 대출을 상환할 것인지 여부를 예측합니다. 1980년대 현지 은행의 과거 채무 불이행 데이터를 토대로 알게 되었습니다. 커뮤니티 A의 과거 신청자가 6배 더 많았다면 대출을 상환하지 않을 가능성이 높으므로 모델이 과거의 편향을 학습하여 특정 편향을 커뮤니티 A의 대출을 승인할 수 있습니다. 커뮤니티의 높은 기본 비율이 더 이상 관련성이 없는 것으로 확인되었습니다.

홀드아웃 데이터

학습 중에 의도적으로 사용하지 않은('홀드아웃') 입니다. 검증 데이터 세트테스트 데이터 세트는 홀드아웃 데이터의 예입니다. 홀드아웃 데이터 모델이 아닌 다른 데이터에 대해 일반화하는 능력을 평가하는 데 모델 학습에 사용할 수 있습니다. 홀드아웃 세트의 손실은 실제 데이터 세트의 손실 추정치보다 학습 세트입니다.

호스트

#TensorFlow
#GoogleCloud

가속기 칩에서 ML 모델을 학습시킬 때 (GPU 또는 TPU), 시스템의 일부 다음 두 가지를 모두 제어하는

  • 코드의 전반적인 흐름
  • 입력 파이프라인의 추출 및 변환

호스트는 일반적으로 가속기 칩이 아닌 CPU에서 실행됩니다. device는 TensorFlow에서 텐서를 조작하여 가속기 칩이 있습니다.

초매개변수

#fundamentals

사용자 또는 초매개변수 조정 서비스가 사용하는 변수 모델을 학습시키는 과정에서 조정될 수 있습니다. 예를 들어 학습률은 초매개변수입니다. 다음과 같은 방법을 사용할 수 있습니다. 학습 세션 1회 전에 학습률을 0.01로 설정 만약 0.01이 너무 높다고 판단하는 경우 학습이 0.003으로 설정합니다

반면에 매개변수는 모델이 학습하는 가중치편향 학습하는 동안 학습합니다.

초평면

한 공간을 두 개의 하위 공간으로 나누는 경계입니다. 예를 들어, 선은 평면은 3차원의 초평면입니다. 머신러닝에서 일반적으로 초평면은 데이터를 구분하는 경계입니다. 훨씬 효율적입니다. 커널 서포트 벡터 머신 사용 포지티브 클래스를 네거티브 클래스와 분리하는 초평면(초평면)을 훨씬 효율적입니다.

I

i.i.d.

독립적이고 동일한 분포의 약어입니다.

이미지 인식

#image

이미지에서 객체, 패턴 또는 개념을 분류하는 프로세스입니다. 영상 인식을 이미지 분류라고도 합니다.

자세한 내용은 ML 실습: 이미지 분류.

불균형 데이터 세트

클래스 불균형 데이터 세트의 동의어입니다.

내재적 편향

#fairness

자신의 마음을 바탕으로 자동으로 연관 또는 가정을 함 모델 및 메모리를 기반으로 합니다 내재적 편향은 다음에 영향을 줄 수 있습니다.

  • 데이터 수집 및 분류 방법
  • 머신러닝 시스템의 설계 및 개발 방법

예를 들어 결혼 사진을 식별하기 위해 분류기를 구축할 때 사진에 있는 흰색 드레스의 존재를 피처로 사용할 수 있습니다. 그러나 흰색 드레스는 특정 시대에만 관례적으로 사용되었고 특정 문화권에서만

확증 편향을 참조하세요.

대치

짧은 형식의 값 대치입니다.

공정성 측정항목의 비호환성

#fairness

공정성의 일부 개념은 상호 호환되지 않으며 동시에 만족할 수 없습니다. 따라서 단일 공정성을 수량화하기 위한 범용 측정항목 모든 ML 문제에 적용할 수 있습니다

이는 낙담으로 보일 수 있지만, 공정성 측정항목의 비호환성은 공정성 노력이 결실이 없다는 것을 의미하지는 않습니다. 대신 공정성은 주어진 ML 문제에 대해 상황에 맞게 정의되어야 하며 피해를 방지한다는 목표를 가지고 있습니다.

(im)possibility of 공정성'을 참조하세요.

컨텍스트 내 학습

#language
#generativeAI

퓨샷 프롬프팅의 동의어입니다.

독립적이고 동일한 분포 (i.id)

#fundamentals

변하지 않는 분포에서 추출된 데이터 및 각 값이 이전에 그린 값에 의존하지 않습니다. i.i.d. 이상 기체는 기계의 유용한 수학적 구조이지만 생각해야 합니다. 예: 웹페이지 방문자 분포 i.i.d.일 수 있습니다. 짧은 기간 동안 즉, 분포가 한 사람의 방문은 일반적으로 정보를 전달합니다. 그러나 해당 기간을 확장하면 웹페이지 방문자 수에 따른 계절별 변동이 나타날 수 있습니다.

비고정성도 참고하세요.

개인의 공정성

#fairness

비슷한 개인이 분류되었는지 여부를 확인하는 공정성 측정항목 확인할 수 있습니다 예를 들어 Brobdingnagian 아카데미는 두 학생이 동일한 성적을 받을 수 있도록 하여 개인의 공정성을 표준화된 시험 점수가 합격할 가능성도 동일하다는 것입니다.

개별 공정성은 전적으로 '유사성'을 정의하는 방식에 (이 경우 성적과 시험 점수) 유사성 측정항목이 중요한 측정항목을 놓친 경우 새로운 공정성 문제 도입 철저한 학생 커리큘럼과 같은 정보를 제공할 수 있습니다.

자세한 내용은 '공정성 및 Awareness'(인식): 개별 공정성에 대한 자세한 논의

추론

#fundamentals

머신러닝에서 모델을 학습시키는 데 사용된 학습된 모델을 라벨이 없는 예에 적용

추론은 통계에서 약간 다른 의미가 있습니다. 자세한 내용은 <ph type="x-smartling-placeholder"></ph> 자세한 내용은 통계적 추론에 대한 위키백과 문서를 참조하세요.

추론 경로

#df

결정 트리에서 추론 중에 특정 루트를 다른 조건으로 변경하고 예를 들어, 다음 결정 트리에서 두꺼운 화살표는 특성 값:

  • x = 7
  • y = 12
  • z = -3

다음 그림의 추론 경로는 리프에 도달하기 전의 조건 (Zeta)

4개의 조건과 5개의 리프로 구성된 결정 트리
          루트 조건은 (x > 0)입니다. 답이 &#39;예&#39;이므로
          추론 경로는 루트에서 다음 조건 (y > 0)으로 이동합니다.
          답이 &#39;예&#39;이므로 추론 경로가
          있습니다 (z > 0). 답이 &#39;아니요&#39;이므로 추론 경로는
          리프 (Zeta)인 터미널 노드로 이동합니다.

세 개의 굵은 화살표는 추론 경로를 나타냅니다.

정보 획득

#df

결정 포레스트에서 노드의 엔트로피 및 가중치 적용 (예시 수 기준) 하위 노드의 엔트로피 합계입니다. 노드의 엔트로피는 예시가 표시됩니다

다음 엔트로피 값을 예로 들어보겠습니다.

  • 상위 노드의 엔트로피 = 0.6
  • 관련 예 16개가 있는 하위 노드 1개의 엔트로피 = 0.2
  • 관련 예 24개가 있는 다른 하위 노드의 엔트로피 = 0.1

따라서 예의 40% 는 하나의 하위 노드에 있고 60% 는 확인할 수 있습니다 따라서 날짜는 다음과 같이 계산합니다.

  • 하위 노드의 가중 엔트로피 합계 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

따라서 정보 획득은 다음과 같습니다.

  • 정보 획득 = 상위 노드의 엔트로피 - 하위 노드의 가중치가 적용된 엔트로피 합계
  • 정보 획득 = 0.6 - 0.14 = 0.46

대부분의 스플리터조건을 만들려고 합니다. 사용하는 것이 좋습니다

내집단 편향

#fairness

자신이 속한 그룹이나 자신의 특성을 편애하는 경향을 보입니다. 테스터 또는 평가자가 머신러닝 개발자의 친구로 구성된 경우 내집단 편견이 제품 테스트를 무효화할 수 있음 데이터 세트입니다

내집단 편향은 그룹 귀인 편향입니다. 외부 집단 동질화 편향을 참조하세요.

입력 생성기

데이터를 Cloud Storage에 로드하는 메커니즘 신경망입니다.

입력 생성기는 데이터를 처리하는 데 있어 중요한 역할을 하는 원시 데이터를 텐서로 변환하여 선행 학습된 모델에 대한 배치 생성을 학습, 평가, 추론이 포함됩니다

입력 레이어

#fundamentals

신경망의 하위 집합인 신경망특성 벡터를 보유합니다. 즉 입력 레이어는 학습에 대한 예시를 제공하거나 추론을 참조하세요. 예를 들어 아래의 입력 레이어는 신경망은 두 가지 특성으로 구성됩니다.

4개의 레이어: 입력 레이어, 히든 레이어 2개, 출력 레이어입니다.

인셋 조건

#df

결정 트리에서 조건은 한 항목이 있는지 테스트합니다. 예를 들어 다음은 인셋 조건입니다.

  house-style in [tudor, colonial, cape]

추론 중에 주택 스타일 feature의 값이 tudor, colonial 또는 cape이면 이 조건은 Yes로 평가됩니다. 만약 주택 스타일 지형지물의 값이 다른 경우 (예: ranch) 이 조건은 No로 평가됩니다.

인셋 조건이 보통 더 효율적인 결정 트리로 이어집니다. 원-핫 인코딩 특성을 테스트하는 조건

인스턴스

의 동의어입니다.

명령 조정

#generativeAI

미세 조정의 한 형태로서 생성형 AI 모델의 추적 능력에 따라 참조하세요. 지침 조정에는 계열을 기준으로 모델을 학습시키는 것이 포함됩니다. 일반적으로 광범위한 실행할 수 있습니다 그 결과로 생성되는 명령 조정 모델은 제로샷 프롬프트에 대한 유용한 응답 생성 실행할 수 있습니다

비교 및 대조:

해석 가능성

#fundamentals

ML 모델의 추론을 설명하거나 제시하는 능력 이해하는 것이 중요합니다.

예를 들어 대부분의 선형 회귀 모델은 해석할 수 있습니다 (학습된 각 모델에 대해 학습된 가중치만 feature.) 결정 포레스트는 해석 가능성이 높습니다. 그러나 일부 모델에서는 해석하기 위해서는 정교한 시각화가 필요합니다.

학습 통역 도구 (LIT) ML 모델을 해석하는 데 사용됩니다

평가자 간 동의

작업을 수행할 때 인간 평가자들이 동의하는 빈도를 나타냅니다. 평가자들이 동의하지 않는 경우 작업 지침을 개선해야 할 수 있습니다. 주석간 계약 또는 평가자 간 신뢰성을 평가합니다. 참고 항목 코헨스 카파 이는 가장 널리 사용되는 평가자 간 동의 측정 방법 중 하나입니다.

IoU (Intersection over Union)

#image

두 집합의 교집합을 합집합으로 나눈 값입니다. 머신러닝 IoU는 모델 학습의 정확성을 측정하는 데 경계 상자와 관련하여 예측된 경계 상자 정답 경계 상자. 이 경우 IoU는 두 개의 상자는 겹치는 영역과 총 면적의 비율이며, 값의 범위는 0에서 시작됩니다 (예측된 경계 상자와 정답이 겹치지 않음). 1 (예측 경계 상자 및 정답 경계 상자는 은 정확하게 동일한 좌표를 사용합니다.

아래 이미지의 예를 참조하세요.

  • 예측된 경계 상자 (모델이 예측되는 위치를 구분하는 좌표) 그림에 있는 야간 테이블이 위치한다고 예측)은 보라색으로 윤곽선이 표시됩니다.
  • 실측 정보 경계 상자 (밤중의 장소를 구분하는 좌표) 초록색으로 윤곽선이 표시됩니다.

아를에 있는 빈센트의 침실을 그리는 반 고흐의 두 그림
          침대 옆에 있는 야간 테이블 주위에 경계 상자를 만듭니다. 실측 정보
          경계 상자 (녹색)가 야간 테이블을 완벽하게 둘러싸고 있습니다. 이
          예측된 경계 상자 (보라색)가 오른쪽 아래로 50% 오프셋됨
          정답이 될 수 있습니다. 오른쪽 하단 1/4을 둘러싸고
          테이블의 나머지 부분이 그리워지는 것을 볼 수 있습니다.

여기서 예측과 정답을 위한 경계 상자의 교차점은 (왼쪽 아래)은 1이고, 예측 및 예측에 대한 경계 상자의 합집합은 정답 (오른쪽 아래)은 7이므로 IoU는 \(\frac{1}{7}\)입니다.

위와 동일한 이미지이지만 각 경계 상자가 4개로 나뉘어 있음
          사분면입니다. 오른쪽 하단에는 총 7개의 사분면이 있습니다
          정답 경계 상자의 사분면 및 왼쪽 상단
          서로 겹칩니다. 이
          겹치는 섹션 (녹색으로 강조표시됨)은
          교집합이며 면적이 1입니다. 위와 동일한 이미지이지만 각 경계 상자가 4개로 나뉘어 있음
          사분면입니다. 오른쪽 하단에는 총 7개의 사분면이 있습니다
          정답 경계 상자의 사분면 및 왼쪽 상단
          서로 겹칩니다.
          두 경계 상자로 둘러싸인 전체 내부
          (녹색으로 강조표시됨)은 합집합을 나타내고
          면적이 7입니다

IoU

intersection over Union의 약어입니다.

항목 행렬

#recsystems

추천 시스템에서는 다음과 같이 생성된 임베딩 벡터의 행렬입니다. 행렬 분해항목에 대한 잠재 신호를 보유하는 역할을 합니다. 항목 행렬의 각 행에는 단일 잠재 값이 담겨 있습니다. 기능을 사용할 수 있습니다. 영화 추천 시스템을 예로 들어보겠습니다. 각 열 이는 단일 영화를 나타냅니다. 잠재 신호 장르를 대표하거나 해석하기 어려울 수 있습니다. 장르, 스타, 기타 요인에 따라 달라집니다.

항목 행렬에 타겟과 동일한 수의 열이 있습니다. 인수 분해되는 행렬입니다. 예를 들어, 어떤 영화가 10,000편의 영화를 평가하는 추천 시스템인 항목 행렬에는 10,000개의 열이 포함됩니다.

항목

#recsystems

추천 시스템에서 확인할 수 있습니다 예를 들어 동영상은 비디오 게임, 도서는 서점에서 추천하는 상품입니다.

반복

#fundamentals

모델의 매개변수(모델의 매개변수)에 대한 단일 업데이트 가중치편향: 학습을 참조하세요. 배치 크기는 모델이 한 번 반복으로 처리하는 예시의 수 예를 들면 다음과 같습니다. 배치 크기가 20이면 모델이 20개의 예를 처리한 다음 매개변수를 조정해야 합니다.

신경망 학습 시 1회 반복 다음 두 패스가 포함됩니다.

  1. 단일 배치의 손실을 평가하기 위한 정방향 전달입니다.
  2. 값을 조정하기 위한 역전파 (역전파) 손실과 학습률을 기준으로 모델의 매개변수를 조정할 수 있습니다

J

JAX

배열 컴퓨팅 라이브러리는 XLA (Accelerated Linear Algebra) 및 자동 미분 고성능 수치 컴퓨팅이 필요했습니다 JAX는 단순하면서도 강력한 구성 가능한 변환을 사용하여 가속 숫자 코드를 작성하는 API입니다. JAX는 다음과 같은 기능을 제공합니다.

  • grad (자동 구분)
  • jit (just-in-time 컴파일)
  • vmap (자동 벡터화 또는 일괄 처리)
  • pmap (동시 로드)

JAX는 숫자 변환을 표현하고 구성하는 언어입니다. Python의 NumPy와 유사하지만 범위가 훨씬 더 넓은 코드 있습니다. (실제로 JAX의 .numpy 라이브러리는 기능적으로 동일합니다. Python NumPy 라이브러리의 완전히 다시 작성된 버전입니다.)

JAX는 특히 많은 머신러닝 작업의 속도를 높이는 데 적합합니다. 동시 로드에 적합한 형식으로 모델 및 데이터를 변환하여 GPU 및 TPU 가속기 칩 전반에서 작동합니다.

Flax, Optax, Pax 등 라이브러리는 JAX 인프라에 빌드됩니다.

K

Keras

널리 사용되는 Python 머신러닝 API입니다. Keras 실행 시간 TensorFlow를 비롯한 여러 딥 러닝 프레임워크에서 다음과 같이 사용 가능: tf.keras

커널 서포트 벡터 머신 (KSVM)

두 데이터 사이의 간격을 최대화하려는 분류 알고리즘입니다. 긍정적이고 입력 데이터 벡터를 매핑하여 네거티브 클래스 더 높은 차원의 공간으로 변경할 수 있습니다. 예를 들어, 데이터 레이크와 입력 데이터 세트가 100개의 특성이 있습니다 두 범위 사이의 여백을 최대화하려면 KSVM은 이러한 특성을 내부적으로 매핑하여 100만 차원의 공간을 의미합니다. KSVM은 손실 함수를 사용하여 힌지 손실.

핵심 사항

#image

이미지에 있는 특정 지형지물의 좌표입니다. 예를 들어 이미지 인식 모델로 주요 지점이 각 꽃잎의 중심, 줄기, stamen 등이 있습니다.

k-폴드 교차 검증

모델의 성능을 예측하는 알고리즘입니다. 일반화합니다. k-폴드의 k는 접힘을 나타내는 데이터 세트의 예를 나누는 동일한 그룹의 수 이를 통해 모델을 k번 테스트합니다 학습과 시험의 각 라운드마다 다른 그룹은 테스트 세트이고 나머지 모든 그룹은 학습이 됩니다. 설정합니다. 학습과 테스트를 k회 진행한 후 평균과 선택한 테스트 측정항목의 표준 편차입니다.

예를 들어 데이터 세트가 120개의 예시로 구성되어 있다고 가정해 보겠습니다. 또한 다음과 같이 가정해 보겠습니다. k를 4로 설정하기로 합니다. 따라서 예제를 셔플한 후에는 데이터 세트를 30개의 예시로 구성된 네 개의 동일한 그룹으로 나누고 여러 번 실시합니다.

데이터 세트를 4개의 동일한 예시 그룹으로 나눈 값입니다. 1라운드에서는
          처음 세 그룹은 학습에 사용되고 마지막 그룹은 학습에 사용되며
          테스트에 사용됩니다 2라운드에서는 처음 두 그룹과 마지막 그룹이
          세 번째 그룹은 학습에 사용되고
          있습니다. 3라운드에서 첫 번째 그룹과 마지막 두 그룹은
          학습에 사용되고 두 번째 그룹은 테스트에 사용됩니다.
          4라운드에서 첫 번째 그룹은 테스트에 사용되고, 마지막 그룹은 테스트에 사용됩니다.
          세 그룹이 학습에 사용됩니다

예를 들어 평균 제곱 오차 (MSE)는 선형 회귀 모델에서 가장 의미 있는 측정항목입니다. 따라서 4번의 MSE 평균과 표준 편차를 구합니다.

k-평균

#clustering

예를 그룹화하는 데 널리 사용되는 클러스터링 알고리즘 비지도 학습에서 사용할 수 있습니다 k-평균 알고리즘은 기본적으로 다음을 수행합니다.

  • 최고의 중심점 k개를 반복적으로 구하고 중심으로 표현).
  • 각 예를 가장 가까운 중심에 할당합니다. 가장 근접한 동일한 그룹에 속하는지 확인합니다.

k-평균 알고리즘은 누적값을 최소화하기 위해 중심 위치를 선택합니다. 각 예에서 가장 가까운 중심까지의 거리의 제곱입니다.

개의 키와 몸길이에 대한 다음 플롯을 예로 들어보겠습니다.

데이터 포인트가 수십 개 있는 데카르트 그래프

k=3이면 k-평균 알고리즘은 3개의 중심을 결정합니다. 각 예 가장 가까운 중심에 할당되어

이전 그림과 동일한 데카르트 플롯은
          3개의 중심이 더해집니다.
          이전 데이터 포인트는 세 가지 그룹으로 클러스터링됩니다.
          각 그룹은 특정 데이터 세트에 가장 가까운 데이터 포인트를 나타냅니다
          정의합니다.

한 제조업체가 소형, 적외선 조명과 같은 소형 기기에 적합한 중형 및 대형 강아지용 스웨터가 있습니다. 세 개의 중심이 평균을 식별 높이와 평균 너비를 가질 수 있습니다. 따라서 제조업체는 스웨터 사이즈는 이 세 가지 중심을 기준으로 합니다. 참고: 일반적으로 클러스터의 중심은 해당 클러스터의 예가 아닙니다.

앞의 그림은 오직 0만 있는 예의 k-평균을 보여줍니다. 2개의 특성 (높이와 너비)이 있습니다. k-평균을 사용하면 확인할 수 있습니다

k-중앙값

#clustering

k-평균과 밀접한 관련이 있는 클러스터링 알고리즘입니다. 이 둘 사이의 실질적인 차이점은 다음과 같습니다.

  • k-평균에서 중심은 중심 후보와 각 중심점 사이 거리의 제곱 살펴보겠습니다
  • k-중앙값에서는 중앙값의 합을 최소화하고 중심 후보와 각 예 사이의 거리를 나타냅니다.

거리의 정의도 다릅니다.

  • k-평균은 유클리드 거리 예로 들 수 있습니다. (2차원에서 유클리드는 거리는 피타고라스의 정리를 이용해 빗변). 예를 들어 (2,2) 사이의 k-평균 거리는 그리고 (5,-2)는 다음과 같습니다.
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-중앙값은 맨해튼 거리를 기반으로 함 예로 들 수 있습니다 이 거리는 절댓값 델타가 표시됩니다. 예를 들어 k-중앙값은 (2,2)와 (5,-2) 사이의 거리는 다음과 같습니다.
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L0 정규화

#fundamentals

정규화의 한 유형은 0이 아닌 가중치총 개수에 페널티를 적용합니다. 나타냅니다. 예를 들어 0이 아닌 11개의 가중치를 갖는 모델은 0이 아닌 10개의 가중치를 갖는 유사 모델에 비해 더 페널티를 받게 됩니다.

L0 정규화를 L0-norm 정규화라고도 합니다.

L1 손실(L1 손실)

#fundamentals

절댓값을 계산하는 손실 함수 실제 label 값과 모델이 예측하는 값입니다. 예를 들어 5인 배치의 L1 손실 계산 :

예시의 실제 값 모델의 예측값 델타의 절댓값
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 손실

L1 손실은 이상점에 덜 민감합니다. L2 손실 대비.

평균 절대 오차는 평균 절대 오차가 예시당 L1 손실

L1 정규화

#fundamentals

페널티를 주는 정규화의 일종으로 절댓값의 합에 비례하는 가중치 가중치를 부여하겠습니다. L1 정규화는 관련이 없는 가중치를 높여 거의 관련성 없는 특성을 정확히 0으로 설정할 수 있습니다 다음과 같은 특성 가중치 0은 모델에서 사실상 제거됩니다.

L2 정규화와 대비되는 개념입니다.

L2 손실

#fundamentals

제곱을 계산하는 손실 함수 실제 label 값과 모델이 예측하는 값입니다. 예를 들어 5인 배치에 대한 L2 손실 계산 :

예시의 실제 값 모델의 예측값 델타 제곱
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 손실

제곱으로 인해 L2 손실은 이상점. 즉, L2 손실은 L2 손실보다 잘못된 예측에 더 강하게 반응합니다. L1 손실. 예를 들어 L1 손실은 16이 아닌 8이 됩니다. 단일 포드가 이상점은 16개 중 9개를 차지합니다.

회귀 모델은 일반적으로 L2 손실을 사용합니다. 손실 함수로 사용합니다.

평균 제곱 오차는 예시당 L2 손실 제곱 손실은 L2 손실의 다른 이름입니다.

L2 정규화

#fundamentals

페널티를 주는 정규화의 일종으로 가중치의 제곱의 합에 비례하는 가중치입니다. L2 정규화는 이상점 가중치 (이러한 0에 가깝지만 0에 가깝지는 않습니다. 값이 0에 매우 가까운 특성은 모델에 남아 있습니다. 모델의 예측에는 큰 영향을 미치지 않습니다

L2 정규화는 선형 모델.

L1 정규화와 대비되는 개념입니다.

라벨

#fundamentals

지도 머신러닝에서 "답변" 또는 '결과' 일부 .

라벨이 있는 예는 하나 이상의 features 및 라벨이 포함됩니다. 예를 들어 감지 데이터 세트의 경우 라벨은 '스팸' 또는 또는 '스팸 아님'. 강우량 데이터 세트에서 라벨은 비가 내릴 수도 있습니다.

라벨이 있는 예

#fundamentals

하나 이상의 특성라벨을 포함할 수도 있습니다. 예를 들어, 다음 표에서는 라벨이 지정된 예시에는 각각 3가지 특성이 있으며 그리고 라벨 1개:

침실 수 욕실 수 연식 주택 가격 (라벨)
3 2 15 345,000달러
2 1 72 179,000달러
4 2 34 392,000달러

지도 머신러닝에서는 모델은 라벨이 있는 예를 학습하고 라벨이 없는 예.

라벨이 있는 예와 라벨이 없는 예를 비교합니다.

라벨 유출

특성이 특성의 프록시인 모델 설계 결함입니다. 라벨을 포함할 수도 있습니다. 예를 들어 이진 분류 모델: 잠재고객이 특정 제품을 구매할지 여부를 나타냅니다. 모델의 특성 중 하나가 SpokeToCustomerAgent 또한 고객 에이전트가 잠재고객이 Google 디스플레이 네트워크를 실제로 구매한 에 있습니다. 학습이 진행되는 동안 모델은 해당 특성과 관련된 SpokeToCustomerAgent와 라벨 사이에 있어야 합니다.

람다

#fundamentals

정규화율의 동의어입니다.

람다는 중복으로 정의된 용어입니다. 여기서는 정규화 내의 정의에 대해서도 다룹니다.

LaMDA (대화형 애플리케이션을 위한 언어 모델)

#language

Transformer 기반 Google이 개발한 대규모 언어 모델 대규모 대화 데이터 세트를 학습합니다.

LaMDA: Google의 획기적인 대화 기술을 참고하시기 바랍니다.

landmarks

#image

키포인트의 동의어입니다.

언어 모델

#language

토큰의 확률을 예측하는 모델 더 긴 토큰 시퀀스에서 발생하는 토큰의 시퀀스입니다.

대규모 언어 모델

#language

언어 모델은 최소한 매개변수의 조합으로 구성됩니다. 보다 비공식적으로는 Transformer 기반 언어 모델(예: Gemini 또는 GPT.

잠재 공간

#language

임베딩 공간의 동의어입니다.

레이어

#fundamentals

모델의 뉴런 집합은 신경망입니다. 레이어의 일반적인 세 가지 유형 다음과 같습니다.

예를 들어 다음 그림은 신경망이 한 개의 입력 레이어, 두 개의 히든 레이어 및 한 개의 출력 레이어가 있습니다.

입력 레이어 1개, 히든 레이어 2개, 그리고 1개가 있는 신경망
          출력 레이어입니다. 입력 레이어는 두 가지 특성으로 구성됩니다. 첫 번째
          히든 레이어는 세 개의 뉴런으로 구성되고 두 번째 히든 레이어는
          두 개의 뉴런으로 구성됩니다. 출력 레이어는 단일 노드로 구성됩니다.

TensorFlow에서 레이어는 또한 입력으로 사용되는 텐서 및 구성 옵션 다른 텐서를 출력으로 생성합니다.

Layers API (tf.layers)

#TensorFlow

심층 신경망 구축을 위한 TensorFlow API 레이어 구성이라고 할 수 있습니다. Layers API를 사용하면 다양한 레이어를 레이어의 유형은 다음과 같습니다.

Layers API는 Keras 레이어 API 규칙을 따릅니다. 즉, 다른 접두사를 제외하고 Layers API의 모든 함수는 Keras의 다른 항목과 동일한 이름 및 서명을 사용해야 합니다. 레이어 API를 제공합니다.

#df

결정 트리의 모든 엔드포인트 좋아요 취소 조건을 충족하는 경우 리프는 테스트를 실행하지 않습니다. 오히려 리프는 가능한 예측입니다. 잎은 말단기도 하다 추론 경로노드입니다.

예를 들어 다음 결정 트리에는 세 개의 리프가 포함됩니다.

세 개의 리프로 이어지는 2개의 조건이 있는 결정 트리

LIT(Learning Interpretability Tool)

시각적인 대화형 모델 이해 및 데이터 시각화 도구입니다.

오픈소스 LIT를 사용하여 모델을 해석하거나 텍스트, 이미지, 사용할 수 있습니다

학습률

#fundamentals

경사하강법을 알려주는 부동 소수점 수 각 레이어의 가중치와 편향을 얼마나 강하게 조정할지 반복입니다. 예를 들어 학습률이 0.3이면 학습률보다 3배 더 강력한 가중치와 편향 조정 0.1입니다.

학습률은 핵심적인 초매개변수입니다. 만약 학습률이 너무 낮으면 학습이 너무 오래 걸립니다 만약 학습률을 너무 높게 설정하면 경사하강법에서 종종 수렴 도달

최소 제곱 회귀

선형 회귀 모델은 L2 손실.

선형

#fundamentals

단독으로 표현할 수 있는 둘 이상의 변수 간의 관계 덧셈과 곱셈을 통해 학습합니다.

선형 관계 도표는 선입니다.

nonlinear과 대비되는 개념입니다.

선형 모델

#fundamentals

1대당 하나의 가중치를 할당하는 모델 특성을 사용하여 예측을 수행합니다. 선형 모델에는 편향도 포함됩니다. 반면 심층 모델의 특성과 예측의 관계 일반적으로 nonlinear입니다.

선형 모델은 일반적으로 학습이 더 쉽고 해석 가능합니다. 하지만 심층 모델은 특성 복잡한 관계를 학습할 수 있습니다.

선형 회귀로지스틱 회귀는 선형 모델의 두 가지 유형입니다.

선형 회귀

#fundamentals

다음 두 가지 조건에 모두 해당하는 머신러닝 모델의 한 유형입니다.

  • 모델은 선형 모델입니다.
  • 예측은 부동 소수점 값입니다. (이는 선형 회귀회귀 부분).

선형 회귀를 로지스틱 회귀와 비교합니다. 또한 회귀를 분류와 대조합니다.

LIT

의 약어 학습 통역 도구 (LIT), 이전에는 언어 해석 가능성 도구로 알려진 도구였습니다.

LLM

#language
#generativeAI

large language model의 약어입니다.

LLM 평가 (평가)

#language
#generativeAI

여러 측정항목의 성과를 평가하기 위한 일련의 측정항목 및 대규모 언어 모델 (LLM)에 대응합니다. 개략적으로 설명하자면 LLM 평가:

  • 연구원이 LLM을 개선해야 하는 영역을 식별할 수 있도록 지원합니다.
  • 여러 LLM을 비교하고 특정 주제에 가장 적합한 LLM을 식별하는 데 실행할 수 있습니다
  • LLM이 사용하기에 안전하고 윤리적인지 확인할 수 있습니다.
를 통해 개인정보처리방침을 정의할 수 있습니다.

로지스틱 회귀

#fundamentals

확률을 예측하는 회귀 모델의 한 유형입니다. 로지스틱 회귀 모델에는 다음과 같은 특성이 있습니다.

  • 라벨은 범주형입니다. 로지스틱이라는 회귀는 일반적으로 이진 로지스틱 회귀를 의미합니다. 가능한 두 개의 값을 가진 라벨의 확률을 계산하는 모델로 변환합니다. 덜 일반적인 변형인 다항 로지스틱 회귀는 3개 이상의 가능한 값이 있는 라벨에 대한 확률을 계산합니다.
  • 학습 중 손실 함수는 로그 손실입니다. (라벨에 대해 여러 로그 손실 단위를 병렬로 배치할 수 있음 3개 이상의 값으로 구성된 경우)
  • 모델에 심층신경망이 아닌 선형 아키텍처가 있습니다. 그러나 이 정의의 나머지 부분은 확률을 예측하는 심층 모델 사용할 수 있습니다

예를 들어 로지스틱 회귀 모델이 있다고 가정해 보겠습니다. 입력 이메일이 스팸이거나 스팸이 아닐 가능성이 있습니다. 추론 중에 모델이 0.72를 예측한다고 가정해 보겠습니다. 따라서 예측하는 데 사용됩니다.

  • 이메일이 스팸일 가능성은 72% 입니다.
  • 이메일이 스팸이 아닐 확률은 28% 입니다.

로지스틱 회귀 모델은 다음과 같은 2단계 아키텍처를 사용합니다.

  1. 모델이 선형 함수를 적용하여 원시 예측 (y')을 생성 학습합니다.
  2. 모델은 이 원시 예측을 입력으로 사용하여 시그모이드 함수: 원시 데이터를 변환합니다. 0과 1 사이의 값(0과 1 제외)으로 설정할 수 있습니다

다른 회귀 모델과 마찬가지로 로지스틱 회귀 모델은 숫자를 예측합니다. 그러나 이 숫자는 일반적으로 이진 분류의 일부가 됩니다. 모델은 다음과 같습니다.

  • 예측된 숫자가 더 큰 경우 분류 임곗값인 포지티브 클래스를 예측합니다.
  • 예측된 숫자가 분류 임곗값보다 작은 경우 이진 분류 모델은 네거티브 클래스를 예측합니다.

로지트

분류를 수행할 때 정규화되지 않은 원시 (정규화되지 않은) 예측으로 구성된 벡터입니다. 일반적으로 정규화 함수로 전달됩니다. 모델이 다중 클래스 분류를 해결하는 경우 일반적으로 로지트는 소프트맥스 함수를 사용하세요. 그러면 소프트맥스 함수는 인코더-디코더 모델의 (정규화된) 하나의 값을 갖는 확률을 계산합니다.

로그 손실

#fundamentals

바이너리에 사용되는 손실 함수 로지스틱 회귀.

로그 오즈

#fundamentals

특정 이벤트의 확률에 대한 로그입니다.

장단기 메모리 (LSTM)

#seq

셀의 한 유형은 순환 신경망은 필기 인식, 기계 학습, 기계 학습과 같은 응용 프로그램에서 번역, 이미지 캡션 등이 있습니다 LSTM은 경사 소실 문제는 긴 데이터 시퀀스 때문에 신경망을 학습시키기 위해 이전 셀의 새로운 입력 및 컨텍스트에 기반한 내부 메모리 상태 사용됩니다.

LoRA

#language
#generativeAI

Low-Rank Adaptability(저순위 적응성)의 약어입니다.

손실

#fundamentals

학습을 진행하는 동안 지도 모델은 학습자가 각 단계에서 모델의 예측라벨에서 가져옵니다.

손실 함수는 손실을 계산합니다.

손실 애그리게이터

머신러닝 알고리즘의 한 유형으로 모델성능을 개선합니다. 여러 모델의 예측을 결합하고 예측을 사용하여 단일 예측을 만듭니다. 그 결과 손실 애그리게이터가 예측의 편차를 줄여주고 예측의 정확성이 향상됩니다.

손실 곡선

#fundamentals

학습 횟수에 대한 함수로서의 손실 도표 반복입니다. 다음 도표는 전형적인 손실 곡선:

손실과 학습 반복의 데카르트 그래프로,
          손실이 급격히 감소한 후
점진적으로 감소하다가
          평평한 경사를 이루면서 최종 반복이
발생하는 것을 볼 수 있습니다

손실 곡선은 모델이 수렴 또는 과적합 중 하나입니다.

손실 곡선은 다음 유형의 손실을 모두 표시할 수 있습니다.

일반화 곡선도 참고하세요.

손실 함수

#fundamentals

학습 또는 테스트 중에 인코더-디코더의 예의 배치에 대한 손실입니다. 손실 함수는 더 낮은 손실을 반환 더 나은 예측을 제공하는 모델보다 잘못된 예측입니다.

학습의 목표는 일반적으로 손실 함수의 손실을 최소화하는 것입니다. 반환합니다.

다양한 종류의 손실 함수가 존재합니다. 적절한 손실 선택 함수를 만들 수 있습니다. 예를 들면 다음과 같습니다.

손실 곡면

가중치 대 손실 그래프 경사하강법의 목표는 로 손실 곡면이 국소 최솟값인 가중치를 찾습니다.

낮은 순위 적응성 (LoRA)

#language
#generativeAI

인코더-디코더 아키텍처를 매개변수 효율적인 조정을 통해 미세 조정은 음악의 하위 집합일 뿐입니다. 대규모 언어 모델의 매개변수를 조정해야 합니다. LoRA는 다음과 같은 이점을 제공합니다.

  • 모델의 모든 속성을 미세 조정해야 하는 기술보다 빠르게 미세 조정 매개변수입니다.
  • 추론의 계산 비용을 미세 조정된 모델입니다.

LoRA로 조정된 모델은 예측의 품질을 유지하거나 개선합니다.

LoRA는 모델의 여러 특수 버전을 지원합니다.

LSTM

#seq

Long Short-Term Memory의 약어입니다.

M

머신러닝

#fundamentals

학습시킨다고 학습하는 프로그램이나 model을 생성합니다. 학습된 모델은 Google Cloud에서 추출한 모델을 학습시키는 데 사용된 것과 동일한 분포가 생성됩니다

머신러닝은 머신러닝과 관련된 연구 분야를 지칭하기도 합니다. 문제가 발생할 수 있습니다.

다수 범주

#fundamentals

인코더에서 보다 일반적인 클래스 불균형 데이터 세트입니다. 예를 들어 99% 의 음성 라벨 및 1% 의 양성 라벨이 포함된 데이터 세트가 있을 경우 제외 라벨이 대다수 클래스입니다

다수 범주와 대비되는 개념입니다.

마르코프 결정 프로세스 (MDP)

#rl

의사 결정 모델을 나타내는 그래프 (또는 작업)은 다음과 같이 마르코프 속성 보존 조치. 포함 강화 학습에서는 상태는 숫자 보상을 반환합니다.

마르코프 속성

#rl

상태가 상태인 특정 환경의 속성 화면 전환은 현재 상태 및 상담사의 작업을 전달합니다.

마스킹된 언어 모델

#language

다음 문장의 확률을 예측하는 언어 모델 후보 토큰을 사용하여 시퀀스에서 공백을 채울 수 있습니다. 예를 들어 마스크된 언어 모델은 후보 단어의 확률을 계산할 수 있음 다음 문장의 밑줄을 대체합니다.

모자 속 ____가 돌아왔습니다.

문헌에서는 일반적으로 문자열 'MASK'를 사용합니다. 를 사용하세요. 예를 들면 다음과 같습니다.

'MASK' 돌아왔습니다.

대부분의 최신 마스킹된 언어 모델은 양방향입니다.

matplotlib

오픈소스 Python 2D 플로팅 라이브러리입니다. Matplotlib는 다양한 측면에서 ML 모델을 살펴봤습니다

행렬 분해

#recsystems

수학에서 내적이 제곱에 근사하는 행렬을 찾는 메커니즘 타겟 행렬입니다.

추천 시스템에서 목표 행렬은 사용자의 의도를 항목의 평점입니다. 예를 들어 대상 행렬은 다음과 같을 수 있습니다. 양의 정수는 사용자 평점과 0이 됩니다. 사용자가 영화를 평가하지 않았음을 의미합니다.

  카사블랑카 필라델피아 이야기 블랙 팬서 원더 우먼 펄프 픽션
사용자 1 5.0 3.0 0.0 2.0 0.0
사용자 2 4.0 0.0 0.0 1.0 5.0
사용자 3 3.0 1.0 4.0 5.0 0.0

영화 추천 시스템은 등급 없는 영화만 볼 수 있습니다. 예를 들어 사용자 1은 블랙 팬서를 좋아할까요?

추천 시스템에 대한 한 가지 접근 방식은 행렬을 사용하는 것입니다 분해하여 다음 두 행렬을 생성합니다.

예를 들어 3명의 사용자와 5개의 항목에 대해 행렬 분해를 사용하여 다음 사용자 행렬과 항목 행렬을 생성할 수 있습니다.

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

사용자 행렬과 항목 행렬의 내적이 추천을 산출합니다. 원래 사용자 평가와 예측까지 포함하는 행렬입니다. 영화의 예가 표시됩니다. 예를 들어 카사블랑카에 대한 사용자 1의 평점(5.0)을 가정해 보겠습니다. 점 추천 행렬의 해당 셀에 해당하는 제품이 5.0 정도일 것입니다.

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

그렇다면 사용자 1은 블랙 팬서를 좋아할까요? 내적 사용하기 첫 번째 행과 세 번째 열에 대응하여 예측 문장을 평점 4.3점:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

행렬 분해는 일반적으로 대상 행렬보다 훨씬 더 간결합니다.

평균 절대 오차 (MAE)

L1 손실일 때의 평균 손실은 다음과 같습니다. 있습니다. 평균 절대 오차는 다음과 같이 계산합니다.

  1. 배치의 L1 손실을 계산합니다.
  2. L1 손실을 배치의 예 수로 나눕니다.

예를 들어 방정식에서 L1 손실 계산을 다음과 같은 다섯 가지 예시의 배치를 살펴보겠습니다

예시의 실제 값 모델의 예측값 손실 (실제 값과 예측 간의 차이)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 손실

따라서 L1 손실은 8이고 예의 수는 5입니다. 따라서 평균 절대 오차는 다음과 같습니다.

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

평균 절대 오차와 평균 제곱 오차 비교 평균 제곱근 오차.

평균 제곱 오차 (MSE)

L2 손실일 때의 평균 손실은 다음과 같습니다. 있습니다. 평균 제곱 오차는 다음과 같이 계산합니다.

  1. 배치의 L2 손실을 계산합니다.
  2. L2 손실을 배치의 예시 수로 나눕니다.

예를 들어 다음 5개 예시 배치에서 손실을 생각해 보세요.

실제 금액 모델의 예측 손실 손실 제곱
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 손실

따라서 평균 제곱 오차는 다음과 같습니다.

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

평균 제곱 오차는 인기 있는 학습 옵티마이저로 특히 선형 회귀에 유용합니다.

대비 평균 제곱 오차와 평균 절대 오차평균 제곱근 오차.

TensorFlow Playground에서 평균 제곱 오차 사용 손실값을 계산합니다.

메시

#TensorFlow
#GoogleCloud

ML 병렬 프로그래밍에서 데이터 할당과 관련된 용어는 이러한 값을 샤딩 또는 복제하는 방식을 정의합니다.

메시는 다음 중 하나를 의미할 수 있는 오버로드된 용어입니다.

  • TPU 칩의 실제 레이아웃
  • 데이터와 모델을 TPU에 매핑하기 위한 추상적인 논리적 구조 감자 튀김이라고 할 수 있습니다.

두 경우 모두 메시는 셰이프로 지정됩니다.

메타 러닝

#language

학습 알고리즘을 발견하거나 개선하는 머신러닝의 하위 집합입니다. 메타 러닝 시스템은 새로운 스킬을 빠르게 학습하도록 모델을 학습시키는 것을 목표로 할 수도 있습니다. 소량의 데이터 또는 이전 작업에서 얻은 경험에서 출발 메타 러닝 알고리즘은 일반적으로 다음을 달성하려고 합니다.

  • 직접 엔지니어링한 기능 (예: 이니셜라이저 또는 옵티마이저).
  • 데이터 효율과 컴퓨팅 효율성을 높입니다.
  • 일반화 개선

메타 러닝은 퓨샷 학습과 관련이 있습니다.

측정항목

#TensorFlow

관심 있는 통계입니다.

목표는 머신러닝 시스템에서 최적화하려 한다고 합시다.

Metrics API (tf.metrics)

모델을 평가하는 TensorFlow API입니다. 예: tf.metrics.accuracy 모델의 예측이 라벨과 일치하는 빈도를 결정합니다.

미니 배치

#fundamentals

한 번에 처리되는 배치 중 무작위로 선택된 소규모 하위 집합 반복입니다. 미니 배치의 배치 크기는 일반적으로 다음과 같습니다. 10개에서 1,000개 사이의 예시로 들 수 있습니다.

예를 들어 학습 세트 전체 (전체 배치)가 예시로 구성됩니다 또한 배치 크기를 20으로 설정합니다. 따라서 각 반복은 1,000개의 예시 중 무작위로 20개의 손실을 결정한 다음 는 이에 따라 가중치편향을 조정합니다.

미니 배치에서 손실을 계산하는 것이 손실을 예측한다는 것을 알 수 있습니다.

미니 배치 확률적 경사하강법

경사하강법 알고리즘은 미니 배치를 학습합니다. 즉, 미니 배치 확률적 모델은 경사하강법은 학습 데이터입니다. 일반적인 확률적 경사하강법은 크기가 1인 미니 배치를 반환합니다.

미니맥스 손실

손실 함수 생성적 적대 신경망(GAN)교차 엔트로피를 기반으로 모델을 학습시키는 작업도 반복해야 합니다

최소값 손실은 첫 번째 논문에서 생성적 적대 신경망(GAN)

소수 범주

#fundamentals

클래스 불균형 데이터 세트입니다. 예를 들어 99% 의 음성 라벨 및 1% 의 양성 라벨이 포함된 데이터 세트가 있을 경우 양성 라벨은 소수 범주입니다.

주요 클래스와 대비되는 개념입니다.

다양한 분야의 전문가

#language
#generativeAI

신경망의 효율성을 매개변수의 하위 집합 (전문가라고 함)만 사용하여 주어진 입력 토큰 또는 . 가 게이팅 네트워크는 각 입력 토큰 또는 예시를 적절한 전문가에게 라우팅합니다.

자세한 내용은 다음 문서 중 하나를 참고하세요.

ML

머신러닝의 약어입니다.

MMIT : MMIT

#language
#image
#generativeAI

약어 멀티모달 명령이 조정됩니다.

MNIST

#image

다음의 내용을 포함하는 LeCun, Cortes 및 Burges가 컴파일한 공개 도메인 데이터 세트는 60,000개의 이미지가 포함되어 있으며, 각 이미지는 사람이 특정 단어를 0~9 사이의 숫자입니다. 각 이미지는 28x28 정수 배열로 저장되며, 여기서 각 정수는 0과 255 사이의 그레이 스케일 값입니다.

MNIST는 머신러닝을 위한 표준 데이터 세트로, 종종 새로운 특성을 테스트하는 데 사용됩니다. 머신러닝 접근 방식을 살펴봤습니다 자세한 내용은 <ph type="x-smartling-placeholder"></ph> The MNIST Database of 필기 숫자(필기 숫자의 MNIST 데이터베이스).

modality

#language

상위 수준의 데이터 카테고리입니다. 예를 들어 숫자, 텍스트, 이미지, 동영상 및 오디오는 다섯 가지 형식이 있습니다.

모델

#fundamentals

일반적으로 입력 데이터를 처리하고 출력됩니다. 다른 표현으로, 모델은 매개변수와 구조 집합으로 표현됩니다. 매우 짧은 시간 안에 필요할 수 있습니다 지도 머신러닝에서는 모델은 예시를 입력으로 사용하여 predict를 출력으로 반환합니다. 지도 머신러닝에서는 약간의 차이가 있을 수 있습니다 예를 들면 다음과 같습니다.

  • 가중치 집합으로 구성되는 선형 회귀 모델 편향입니다.
  • 신경망 모델은 다음으로 구성됩니다. <ph type="x-smartling-placeholder">
      </ph>
    • 각각 하나 이상의 레이어를 포함하는 히든 레이어 집합 더 많은 뉴런을 학습합니다.
    • 각 뉴런과 관련된 가중치 및 편향입니다.
  • 결정 트리 모델은 다음으로 구성됩니다. <ph type="x-smartling-placeholder">
      </ph>
    • 나무의 모양 즉, 특정 입력 시퀀스에 대한 잎이 연결되어 있습니다.
    • 조건 및 종료

모델을 저장, 복원하거나 사본을 만들 수 있습니다.

또한 비지도 머신러닝은 일반적으로 입력 예시를 가장 적합한 클러스터를 찾습니다.

모델 용량

모델이 학습할 수 있는 문제의 복잡성입니다. 복잡할수록 모델이 학습할 수 있는 문제가 많아질수록 모델의 용량이 높아집니다 모델의 일반적으로 모델 매개변수의 수가 많아질수록 용량은 증가합니다. 자세한 내용은 VC 크기.

모델 계단식

#generativeAI

특정 추론에 이상적인 모델을 선택하는 시스템 쿼리합니다.

엄청나게 큰 모델부터 이미 많은 모델까지 매개변수)이 훨씬 작아야 합니다 (매개변수가 훨씬 적음). 초대형 모델일수록 계산 리소스를 더 많이 추론 시간이 더 오래 걸립니다. 그러나 모델은 일반적으로 작은 모델보다 더 복잡한 요청을 추론할 수 있습니다. 모델 연쇄 모델은 추론 쿼리의 복잡성을 결정한 다음 추론을 수행할 적절한 모델을 선택합니다. 모델 연쇄적 모델의 주된 동기는 모델이 학습한 일반적으로 더 작은 모델을 선택하고 고가용성을 위해 대형 모델만 복잡한 쿼리가 필요합니다

작은 모델이 휴대전화에서 실행되고 해당 모델의 더 큰 버전에서 실행된다고 상상해 보세요. 가상 서버에서 실행됩니다 우수한 모델 연쇄적 모델은 더 작은 모델이 간단한 요청을 처리할 수 있도록 하고 복잡한 요청을 처리할 수 있습니다

모델 라우터도 참고하세요.

모델 동시 로드

#language

하나의 다른 부분을 배치하는 학습 또는 추론을 확장하는 방법 model, 즉 다른 기기에서 찾을 수 없습니다. 모델 동시 로드 는 단일 기기에 맞추기에는 너무 큰 모델을 지원합니다.

모델 동시 로드를 구현하기 위해 시스템은 일반적으로 다음을 실행합니다.

  1. 모델을 더 작은 부분으로 분할 (분할)합니다.
  2. 이러한 작은 부분의 학습을 여러 프로세서에 분산합니다. 각 프로세서는 모델의 자체 부분을 학습시킵니다.
  3. 결과를 결합하여 단일 모델을 만듭니다.

모델 동시 로드로 인해 학습 속도가 느려집니다.

데이터 동시 로드를 참조하세요.

모델 라우터

#generativeAI

최적의 모델을 결정하는 알고리즘입니다. 모델 계단식추론을 지원합니다. 모델 라우터 그 자체는 일반적으로 주어진 입력에 가장 적합한 모델을 선택하는 방법을 점진적으로 학습합니다. 그러나 모델 라우터는 때때로 더 간단 할 수 있습니다. 머신러닝 알고리즘을 사용할 수 있습니다

모델 학습

최적의 모델을 결정하는 과정입니다.

모멘텀

학습 단계가 의존하는 정교한 경사하강법 알고리즘 현재 단계의 도함수뿐만 아니라 할 수 있습니다. 모멘텀은 여러 시점의 시간 경과에 따른 경사의 기하급수적 가중치가 적용된 이동 평균(유사한 경우) 곧 배우게 될 것입니다. 모멘텀은 때때로 학습이 갇혀 있습니다.

모에

#language
#image
#generativeAI

전문가 조합의 약어입니다.

다중 클래스 분류

#fundamentals

지도 학습에서 분류 문제는 데이터 세트에 3개 이상 클래스의 라벨이 포함되어 있습니다. 예를 들어 Iris 데이터세트의 라벨은 다음 중 하나여야 합니다. 세 가지 클래스를 제공합니다

  • 이리스 세토사
  • 버지니카 붓꽃
  • 버시컬러 홍채

새로운 예에서 홍채 유형을 예측하는 Iris 데이터세트로 학습된 모델 다중 클래스 분류를 수행하고 있습니다.

반면에 정확히 두 개의 데이터 레이크를 클래스는 이진 분류 모델입니다. 예를 들어 스팸 또는 스팸 아님을 예측하는 이메일 모델 이진 분류 모델입니다.

클러스터링 문제에서 다중 클래스 분류는 두 개의 클러스터가 있습니다

다중 클래스 로지스틱 회귀

로지스틱 회귀 사용 다중 클래스 분류 문제입니다.

다중 헤드 셀프 어텐션

#language

Self-attention의 확장으로 셀프 어텐션 메커니즘을 각 위치에 대해 여러 번 반복하는 것입니다.

트랜스포머는 멀티 헤드 셀프 어텐션을 도입했습니다.

멀티모달 모델

#language

입력 또는 출력에 둘 이상이 포함된 모델입니다. 모달리티입니다. 예를 들어 인코더-디코더 아키텍처를 이미지 및 텍스트 캡션 (두 가지 형식)을 특성으로 제공 텍스트 캡션이 이미지에 얼마나 적절한지 나타내는 점수를 출력합니다. 따라서 이 모델의 입력은 멀티모달이고 출력은 유니모달입니다.

멀티모달 안내 조정

#language

입력을 처리할 수 있는 지침 조정 모델 텍스트, 이미지, 동영상, 오디오와 같은 다양한 형태를 말하죠

다항 분류

다중 클래스 분류의 동의어입니다.

다항 회귀

동의어 다중 클래스 로지스틱 회귀.

멀티태스킹

단일 모델을 분석하는 데 사용되는 머신러닝 기법입니다. 여러 태스크를 수행하도록 학습되었습니다.

멀티태스킹 모델은 다음에 적합한 데이터를 학습하여 생성됩니다. 서로 다른 각 태스크가 있습니다. 이를 통해 모델은 다른 사람과 정보를 학습하여 모델이 더 효과적으로 학습하는 데 도움이 됩니다.

여러 작업에 대해 학습된 모델의 일반화 능력이 개선되는 경우가 많음 다양한 유형의 데이터를 더 강력하게 처리할 수 있습니다.

N

NaN 트랩

모델의 숫자 중 하나가 NaN이 되는 경우 이로 인해 모델의 다른 많은 숫자 또는 모든 숫자가 결국 NaN이 됩니다.

NaN은 Not a Number의 약어입니다.

자연어 이해

#language

사용자가 입력하거나 말한 내용에 따라 사용자의 의도를 파악합니다. 예를 들어, 검색엔진은 자연어 이해를 사용하여 사용자가 입력하거나 말한 내용에 따라 검색하는 내용을 파악할 수 있습니다.

네거티브 클래스

#fundamentals

이진 분류에서는 양성으로, 다른 하나를 음수라고 합니다. 포지티브 클래스는 모델이 테스트하는 대상 또는 이벤트이며 네거티브 클래스는 가능성이 있습니다. 예를 들면 다음과 같습니다.

  • 의료 검사의 네거티브 클래스는 '종양 아님'일 수 있습니다.
  • 이메일 분류기의 네거티브 클래스는 '스팸 아님'일 수 있습니다.

포지티브 클래스와 대비되는 개념입니다.

네거티브 샘플링

후보 샘플링의 동의어입니다.

Neural Architecture Search (NAS)

특정 아키텍처의 아키텍처를 자동으로 설계하는 신경망입니다. NAS 알고리즘을 통해 시간과 자원을 절약하여 신경망을 학습시킬 수 있습니다.

NAS는 일반적으로 다음을 사용합니다.

  • 가능한 아키텍처 집합인 검색 공간
  • 특정 예측이 얼마나 잘 작동하는지를 측정하는 특정 태스크에서 수행하는 작업을 보여줍니다.

NAS 알고리즘은 보통 소수의 가능한 아키텍처 집합으로 시작하고 알고리즘이 더 많은 정보를 학습함에 따라 검색 공간을 점진적으로 효과적일 수 있습니다 피트니스 기능은 일반적으로 아키텍처의 성능을 학습 세트에 적용할 수 있으며, 알고리즘은 일반적으로 학습시킨 다음 강화 학습 기법입니다.

NAS 알고리즘이 고성능 공격 탐지에 효과적인 것으로 입증됨 이미지 및 이미지와 같은 다양한 작업을 위한 분류, 텍스트 분류, 그리고 기계 번역입니다

출력은

#fundamentals

하나 이상을 포함하는 모델 히든 레이어. 심층신경망은 신경망의 한 유형입니다. 둘 이상의 히든 레이어를 포함합니다 예를 들어 2개의 히든 레이어가 포함된 심층신경망을 보여줍니다.

입력 레이어, 히든 레이어 2개, 그리고
          출력 레이어입니다.

신경망의 각 뉴런은 다음 레이어의 모든 노드에 연결됩니다. 예를 들어 앞의 다이어그램에서 3개의 뉴런 각각은 첫 번째 히든 레이어에서 두 뉴런에 별도로 연결되고 두 번째 히든 레이어입니다.

컴퓨터에 구현된 신경망을 때때로 인공 신경망을 사용하여 고유한 신경망과 뇌와 다른 신경계에서 발견되는 신경망입니다.

일부 신경망은 매우 복잡한 비선형 관계를 모방할 수 있음 라벨을 지정합니다.

컨볼루셔널 신경망순환 신경망(RNN).

뉴런

#fundamentals

머신러닝에서 히든 레이어 내의 고유한 단위 신경망의 특성입니다. 각 뉴런은 다음 작업을 수행합니다. 2단계 작업:

  1. 입력 값의 가중치가 적용된 합계를 곱하여 계산합니다. 가중치를 할당합니다.
  2. 가중치가 적용된 합계를 활성화 함수.

첫 번째 히든 레이어의 뉴런이 특성값의 입력을 허용 입력 레이어에 위치하게 됩니다. 다음 히든 레이어에 있는 뉴런 첫 번째는 앞의 히든 레이어에 있는 뉴런의 입력을 받습니다. 예를 들어 두 번째 히든 레이어의 뉴런은 뉴런을 생성합니다.

다음 그림은 두 개의 뉴런과 사용됩니다.

입력 레이어, 히든 레이어 2개, 그리고
          출력 레이어입니다. 두 개의 뉴런(첫 번째 뉴런 1개)이 강조표시됨
          다른 하나는 두 번째 히든 레이어에 있습니다. 하이라이트된
          두 특성의 입력을 받는 첫 번째 히든 레이어의 뉴런
          입력 레이어에 있습니다. 두 번째 히든 레이어에서 강조 표시된 뉴런
          첫 번째 히든 레이어에서 세 개의 뉴런으로부터
          레이어가 있습니다

신경망의 뉴런은 뇌의 뉴런 행동을 모방하고 신경계의 다른 부분이기 때문입니다.

N-그램

#seq
#language

N 단어의 순서 시퀀스입니다. 예를 들어 truly madly는 2-그램입니다. 왜냐하면 madly whotruly madly와 다른 2-그램입니다.

N 이 종류의 N-그램에 대한 이름
2 바이그램 또는 2-그램 이동, 가기, 점심 식사, 저녁 식사
3 트라이그램 또는 3-그램 맹인 쥐 세 마리를 너무 많이 먹어서
4 4-그램 공원을 걷고, 바람에 먼지가 덮여 있어, 소년이 렌틸콩을 먹었습니다

많은 자연어 이해 모델은 N-그램을 사용하여 사용자가 입력할 다음 단어를 예측합니다. 또는 다음과 같이 말하세요. 예를 들어 사용자가 three bla를 입력했다고 가정해 보겠습니다. 트라이그램을 기반으로 하는 NLU 모델은 사용자는 다음으로 mice를 입력합니다.

N-그램을 다음과 같은 단어 집합과 대조하세요. 단어 집합일 수 있습니다.

NLU

#language

Natural Language의 약어 에 대해 자세히 알아보세요.

노드 (의사 결정 트리)

#df

결정 트리에서 condition 또는 leaf.

조건 2개와 잎 3개가 있는 결정 트리

노드 (신경망)

#fundamentals

히든 레이어뉴런

노드 (TensorFlow 그래프)

#TensorFlow

TensorFlow 그래프의 연산

노이즈

일반적으로 데이터 세트에서 신호를 방해하는 모든 것을 말합니다. 노이즈 다양한 방법으로 데이터에 도입할 수 있습니다. 예를 들면 다음과 같습니다.

  • 평가자가 라벨을 잘못 지정합니다.
  • 인간과 계측기가 특성 값을 잘못 기록하거나 생략합니다.

논바이너리 조건

#df

세 개 이상의 가능한 결과가 포함된 조건입니다. 예를 들어, 다음의 논바이너리 조건에는 세 가지 가능한 값을 포함합니다. 결과:

가능한 세 개의 결과로 이어지는 조건 (number_of_legs = ?)
          결과를 얻을 수 있습니다. 하나의 결과 (number_of_legs = 8)는 리프로 이어집니다.
          스파이더라고 불렀습니다. 두 번째 결과 (number_of_legs = 4)는
          개라는 이름의 잎사귀입니다. 세 번째 결과 (number_of_legs = 2)는
          &#39;펭귄&#39;이라는 이름의 나뭇잎이 있다고 합시다.

nonlinear

#fundamentals

단독으로 표현할 수 없는 둘 이상의 변수 간의 관계 덧셈과 곱셈을 통해 학습합니다. 선형 관계 선으로 표현할 수 있습니다. nonlinear 관계는 선으로 표현됩니다. 예를 들어, 각각 특성과 관련이 있는 두 개의 모델을 하나의 특성을 단일 라벨에 추가할 수 있습니다 왼쪽의 모델은 선형입니다. 오른쪽의 모델은 비선형입니다.

플롯 2개 한 도표는 선이므로 선형 관계입니다.
          다른 플롯은 곡선이므로 비선형 관계입니다.

무응답 편향

#fairness

표본 선택 편향을 참고하세요.

비정상성

#fundamentals

하나 이상의 측정기준(일반적으로 시간)에서 값이 변경되는 특성입니다. 예를 들어 다음과 같은 비고정성의 예를 생각해 보세요.

  • 특정 매장에서 판매되는 수영복의 수는 계절에 따라 다릅니다.
  • 특정 지역에서 수확한 특정 과일의 수량 은 일 년 내내 0이지만 짧은 기간 동안은 큰 수치입니다.
  • 기후 변화로 인해 연간 평균 기온이 변화하고 있습니다.

정상성과 대비되는 개념입니다.

정규화

#fundamentals

일반적으로 변수의 실제 범위를 변환하는 과정 값을 표준 값 범위로 변환합니다. 예를 들면 다음과 같습니다.

  • -1 ~ +1
  • 0~1
  • Z-점수 (대략 -3~+3)

예를 들어 특정 특성의 실제 값 범위가 800~2,400입니다. 특성 추출의 일환으로 실제 값을 표준 범위로 정규화할 수 있습니다. -1에서 +1로 설정합니다.

정규화는 모델 아키텍처에서 특성 추출을 수행합니다. 일반적으로 모델의 학습 속도가 더 빠름 (그리고 더 나은 예측을 생성)할 수 있습니다. 특성 벡터의 범위가 거의 동일합니다.

새로운 감지

새로운 (새로운) 예시가 동일한 예시로부터 나왔는지 확인하는 프로세스 학습 세트로 분포됩니다. 다시 말해 새로운 학습이 나오면 새로운 새로운 예시 (추론 중 또는 추가 학습 도중)는 이상점.

이상점 감지와 대비되는 개념입니다.

수치 데이터

#fundamentals

정수 또는 실수로 표현되는 특성입니다. 예를 들어 주택 평가 모델은 가격을 기준으로 (제곱피트 또는 제곱미터로 표시한) 주택의 데이터를 수치 데이터로 얻을 수 있습니다. 대표성 숫자 데이터로서의 특성은 특성의 값이 라벨에 대한 수학적 관계입니다. 즉, 집의 제곱미터에는 집의 가치와 수학적 관계를 맺을 수 있습니다.

모든 정수 데이터를 수치 데이터로 표현해서는 안 됩니다. 예를 들어 우편번호는 정수입니다. 정수 우편 모델에서 숫자 데이터로 표현해서는 안 됩니다. 그 이유는 20000의 우편번호는 다음 우편번호보다 두 배 또는 절반 더 강력하지 않습니다. 10,000명입니다. 또한 서로 다른 우편번호는 서로 서로 다른 우편번호가 아닌 지역의 부동산 가격이 20000은 우편번호가 10000인 부동산 가치의 두 배입니다. 우편번호는 범주형 데이터로 표현되어야 합니다. 하세요.

숫자 특성은 연속 기능.

NumPy

오픈소스 수학 라이브러리 은 Python에서 효율적인 배열 작업을 제공합니다. Pandas는 NumPy를 기반으로 합니다.

O

목표

알고리즘에서 최적화하려는 측정항목입니다.

목적 함수

모델이 최적화하려는 수학 공식 또는 측정항목입니다. 예를 들어 선형 회귀는 일반적으로 평균 제곱 손실. 따라서 모델을 학습시키면 학습의 목표는 평균 제곱 손실을 최소화하는 것입니다.

목적 함수를 최대화하는 것이 목표인 경우도 있습니다. 예를 들어 목적 함수가 정확성이면 목표는 정확도를 극대화합니다

손실도 참고하세요.

사위

#df

결정 트리에서 둘 이상 포함된 condition[상태] 기능에 관해 자세히 알아보세요. 예를 들어 높이와 너비가 모두 특성인 경우 다음은 사선 조건입니다.

  height > width

축 정렬 조건과 대비되는 개념입니다.

오프라인

#fundamentals

정적의 동의어입니다.

오프라인 추론

#fundamentals

모델에서 예측 배치를 생성하는 프로세스 이러한 예측을 캐시 (저장)할 수 있습니다. 그러면 앱은 추론된 이미지에 액세스할 수 있는 캐시에서 예측을 다시 실행할 수 있습니다.

지역 일기예보를 생성하는 모델을 예로 들어보겠습니다. 4시간마다 한 번) 모델이 실행될 때마다 시스템은 모든 지역 일기예보를 캐시합니다. 날씨 앱이 일기예보 검색 삭제합니다.

오프라인 추론을 정적 추론이라고도 합니다.

온라인 추론과 대비되는 개념입니다.

원-핫 인코딩

#fundamentals

범주형 데이터를 벡터로 표현하는 방법은 다음과 같습니다.

  • 요소 한 개가 1로 설정됩니다.
  • 다른 요소는 모두 0으로 설정됩니다.

원-핫 인코딩은 일반적으로 가능한 값의 유한한 집합을 갖는 것입니다. 예를 들어 이름이 Scandinavia에는 다음과 같은 5가지 값이 있을 수 있습니다.

  • '덴마크'
  • '스웨덴'
  • '노르웨이'
  • '핀란드'
  • "아이슬란드"

원-핫 인코딩은 5개의 값 각각을 다음과 같이 나타낼 수 있습니다.

국가 벡터
'덴마크' 1 0 0 0 0
'스웨덴' 0 1 0 0 0
'노르웨이' 0 0 1 0 0
'핀란드' 0 0 0 1 0
"아이슬란드" 0 0 0 0 1

원-핫 인코딩 덕분에 모델은 여러 네트워크 간의 기준으로 삼았습니다.

특성을 숫자 데이터로 표현하는 것은 원-핫 인코딩의 대안입니다 안타깝게도 숫자로 된 스칸디나비아 국가는 좋은 선택이 아닙니다. 예를 들어 다음과 같은 숫자 표현을 고려하세요.

  • '덴마크' 0
  • '스웨덴' 1
  • '노르웨이' 2
  • '핀란드' 3
  • "아이슬란드" 4

숫자 인코딩을 사용하면 모델은 원시 숫자를 해석하여 해당 숫자로 학습하려고 할 것입니다. 하지만 아이슬란드는 실제 몸과 비하면 이상한 결론에 도달하게 될 것입니다.

원샷 학습

객체 분류에 자주 사용되는 머신러닝 접근 방식 하나의 학습 예에서 효과적인 분류기를 학습하도록 설계되었습니다.

퓨샷 학습제로샷 학습.

원샷 프롬프팅

#language
#generativeAI

애플리케이션이 대규모 언어 모델이 응답해야 합니다. 예를 들어 다음 프롬프트에는 대규모 언어 모델에서 데이터 기반 의사 결정을 내리는 방법을 쿼리에 답변해야 합니다

프롬프트 구성 요소 참고
지정된 국가의 공식 통화는 무엇인가요? LLM이 답변할 질문입니다.
프랑스: EUR 한 가지 예시입니다.
인도: 실제 쿼리입니다.

원샷 프롬프팅을 다음 용어와 비교 및 대조하세요.

일대다

#fundamentals

N 클래스의 분류 문제가 주어지면 N 로 분리되어 있는 이진 분류기—하나의 이진 분류기 예측해 보겠습니다. 예를 들어 모델이 예시를 분류하는 경우 일대다 솔루션은 세 개의 개별적인 이진 분류기입니다.

  • 동물 또는 동물 아님
  • 식물성 대 식물 아님
  • 광물 대 광물 아님

online

#fundamentals

동적의 동의어입니다.

온라인 추론

#fundamentals

요청에 따라 예측을 생성합니다. 예를 들어 앱이 모델에 입력을 전달하고 모델에 대한 요청을 학습합니다. 온라인 추론을 사용하는 시스템은 다음을 실행하여 요청에 응답합니다. 앱에 예측을 반환합니다.

오프라인 추론과 대비되는 개념입니다.

연산 (op)

#TensorFlow

TensorFlow에서는 Tensor를 조작하거나 파괴하는 데 사용됩니다. 대상 예를 들어 행렬 곱셈은 텐서 두 개를 하나의 텐서를 출력으로 생성합니다.

Optax

JAX용 그라데이션 처리 및 최적화 라이브러리입니다. Optax는 다양한 방식으로 구현 가능한 구성 요소를 제공하여 와 같은 매개변수 모델을 최적화하기 위해 맞춤 방식으로 재조합되었습니다. 심층신경망입니다. 기타 목표는 다음과 같습니다.

  • 읽기 쉽고, 테스트가 뛰어나며, 효율적인 방식으로 핵심 구성요소로 이루어져 있습니다.
  • 저수준의 식재료를 결합할 수 있도록 하여 생산성 향상 맞춤 옵티마이저 (또는 기타 그라디언트 처리 구성요소)로 가져올 수 있습니다.
  • 누구나 쉽게 새로운 아이디어를 채택할 수 있도록 지원 참여하게 됩니다.

옵티마이저

경사하강법의 구체적인 구현 알고리즘입니다. 인기 있는 옵티마이저에는 다음이 포함됩니다.

  • AdaGrad는 ADAptive GRADient descent를 의미합니다.
  • 아담: ADAptive with Momentum을 의미합니다.

외부 집단 동질화 편향

#fairness

외부 집단 구성원을 내 집단 구성원보다 더 비슷한 것으로 보는 경향 태도, 가치, 성격 특성 등을 비교할 때 특성에 따라 다릅니다 내집단은 정기적으로 상호작용하는 사용자를 말합니다. 외부 그룹은 정기적으로 상호작용하지 않는 사용자를 말합니다. 만약 사람들에게 다음에 관한 속성을 제공하도록 요청하여 데이터 세트를 생성 외부 집단은 이러한 특성이 미묘하고 고정관념에 얽매이지 않을 수 있습니다. 더 높은 속성이 더합니다.

예를 들어, 난쟁이족은 다른 난쟁이족의 집을 묘사할 수 있습니다. 건축 스타일, 창문, 건물 벽과 같은 도어, 크기. 그러나 동일한 난쟁이가 단순히 브로브딩나기란은 모두 한 집에 살고 있습니다.

외부 집단 동질화 편향은 그룹 귀인 편향입니다.

내집단 편향을 참조하세요.

이상점 감지

데이터에서 이상점을 식별하는 과정 학습 세트의 일종입니다.

새로운 항목 감지와 대비되는 개념입니다.

연구

대부분의 다른 값과 동떨어진 값입니다. 머신러닝에서 이상점은 다음과 같습니다.

  • 값이 표준 편차 약 3보다 큰 입력 데이터 계산할 수 있습니다.
  • 가중치의 절대값이 높은 경우
  • 예측된 값이 실제 값과 비교적 멀리 떨어져 있습니다.

예를 들어 widget-price가 특정 모델의 특성이라고 가정해 보겠습니다. 평균 widget-price이 표준 편차가 있는 7유로라고 가정합니다. 1유로입니다. widget-price가 12유로 또는 2유로 포함된 예 각 가격이 이상점으로 간주되므로 평균에서 5 표준 편차를 나타냅니다.

이상점은 오타나 기타 입력 실수로 인해 발생하는 경우가 많습니다. 다른 경우에는 이상점은 실수가 아닙니다. 왜냐하면 표준 편차 5 이내의 값을 드물지만 불가능하지는 않을 것입니다.

이상점은 모델 학습에서 문제를 일으키는 경우가 많습니다. 클리핑 이상점을 관리하는 방법 중 하나입니다.

가방 외 평가 (OOB 평가)

#df

애플리케이션의 품질을 평가하는 메커니즘은 결정 포레스트 프로세스를 결정 트리를 이벤트 기간에 사용되지 않는 예시 학습을 수행합니다. 예를 들어 시스템이 각 결정 트리를 학습시키고 평가한 다음 나머지 3분의 1에 불과했습니다.

결정 트리 세 개로 구성된 결정 포레스트
          예시의 2/3에 대해 하나의 결정 트리가 학습됨
          나머지 3분의 1은 OOB 평가에 사용합니다.
          두 번째 결정 트리는 서로 다른 3분의 2에서 학습됨
          예시의 정답을 맞힌 다음
          은 OOB 평가에 OOB 평가와
          이전 결정 트리를 살펴보겠습니다.

Out-of-bag(패키지 외) 평가는 계산상 효율적이고 보수적임 교차 검증 메커니즘의 근사치입니다. 교차 검증에서는 각 교차 검증 라운드마다 하나의 모델이 학습됩니다. 예를 들어 10개 모델은 10배 교차 검증으로 학습됩니다. OOB 평가에서는 단일 모델이 학습됩니다. 왜냐하면 배깅을 학습 중에 각 트리에서 일부 데이터를 보류하므로 OOB 평가는 교차 검증의 근사치를 계산합니다.

출력 레이어

#fundamentals

'최종' 신경망 레이어입니다 출력 레이어에는 예측이 포함됩니다.

다음 그림은 입력이 있는 작은 심층신경망을 보여줍니다. 히든 레이어 2개, 출력 레이어로 구성됩니다.

입력 레이어 1개, 히든 레이어 2개, 그리고 1개가 있는 신경망
          출력 레이어입니다. 입력 레이어는 두 가지 특성으로 구성됩니다. 첫 번째
          히든 레이어는 세 개의 뉴런으로 구성되고 두 번째 히든 레이어는
          두 개의 뉴런으로 구성됩니다. 출력 레이어는 단일 노드로 구성됩니다.

과적합

#fundamentals

다음과 일치하는 모델 만들기 너무 가깝게 학습 데이터를 만들어 모델이 새로운 데이터에 대한 올바른 예측을 할 수 있습니다.

정규화는 과적합을 줄일 수 있습니다. 크고 다양한 학습 세트를 학습하면 과적합도 줄일 수 있습니다.

오버샘플링

다수 범주 재사용 클래스 불균형 데이터 세트에서 보다 균형 잡힌 학습 세트를 만듭니다.

예를 들어 이진 분류를 특정 가중치에 대한 주요 클래스의 비율이 5,000:1입니다. 데이터 세트에 백만 개의 예시가 포함되어 있으면 데이터 세트에는 소수 범주의 예가 약 200개만 포함되어 있는데, 예시가 너무 적어야 효과적인 학습이 가능합니다. 이러한 결함을 극복하기 위해 200개의 예를 여러 번 오버샘플링 (재사용)하여 충분한 예시를 제공할 수 있습니다

다음과 같은 경우 과적합에 주의해야 합니다. 오버샘플링입니다.

언더샘플링과 대비되는 개념입니다.

P

패킹된 데이터

데이터를 더 효율적으로 저장하기 위한 접근 방식

패킹된 데이터는 압축된 형식 또는 보다 효율적으로 액세스할 수 있는 다른 방법을 제공합니다. 패킹된 데이터는 학습이 더 빨라지고 모델 추론의 효율성이 높아집니다.

패킹된 데이터는 종종 다음과 같은 다른 기법과 함께 사용됩니다. 데이터 증강정규화를 통해 애플리케이션의 성능을 모델을 참조하세요.

pandas

#fundamentals

Numpy를 기반으로 빌드된 열 기반 데이터 분석 API입니다. 많은 머신러닝 프레임워크, 를 포함하여 Pandas 데이터 구조를 입력으로 지원합니다. 자세한 내용은 Pandas 문서 참조하세요.

parameter

#fundamentals

모델이 학습하는 가중치편향 학습을 참조하세요. 예를 들어 선형 회귀 모델에서 매개변수는 다음과 같이 구성됩니다. 편향 (b)과 모든 가중치 (w1, w2, 등)을 다음 공식으로 계산합니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

반면에 초매개변수사용자 (또는 초매개변수 조정 서비스)가 모델에 공급합니다. 예를 들어 학습률은 초매개변수입니다.

매개변수 효율적인 조정

#language
#generativeAI

대규모 광고 항목을 미세 조정하기 위한 선행 학습된 언어 모델 (PLM) 완전한 미세 조정보다 더 효율적입니다. 매개변수 효율적 미세 조정은 일반적으로 전체 매개변수보다 훨씬 적은 매개변수를 미세 조정합니다. 미세 조정이지만 일반적으로 작업을 수행하는 대규모 언어 모델 완전 관리형 플랫폼에서 빌드한 대규모 언어 모델로서 미세 조정 등이 있습니다

매개변수 효율적인 조정의 비교 및 대조:

매개변수 효율적인 조정을 매개변수 효율적인 미세 조정이라고도 합니다.

매개변수 서버 (PS)

#TensorFlow

모델에서 매개변수를 추적하는 작업입니다. 설정할 수 있습니다

매개변수 업데이트

모델의 매개변수를 조정하는 작업은 일반적으로 한 번의 반복으로 경사하강법.

편미분

하나를 제외한 모든 변수를 상수로 간주하는 도함수입니다. 예를 들어 x에 대한 f(x, y)의 편미분은 다음과 같습니다. x만의 함수로 간주되는 f의 도함수 (y를 유지함) 상수). x에 대한 f의 편도함수는 오직 방정식의 다른 모든 변수를 무시하고 x가 어떻게 변하는지를 나타냅니다.

참여 편향

#fairness

무응답 편향의 동의어입니다. 표본 선택 편향을 참고하세요.

파티셔닝 전략

변수를 나누는 알고리즘입니다. 매개변수 서버를 포함합니다.

Pax

대규모 언어 모델 학습을 위해 설계된 프로그래밍 프레임워크 매우 큰 신경망 모델이 여러 TPU를 아우르며 가속기 칩 슬라이스 또는 포드에 연결할 수 있습니다.

Pax는 JAX를 기반으로 하는 Flax를 기반으로 합니다.

소프트웨어 스택에서 Pax의 위치를 나타내는 다이어그램
          Pax는 JAX를 기반으로 구축되었습니다. Pax 자체는
          레이어가 있습니다 맨 아래 레이어에는 TensorStore와 Flax가 포함됩니다.
          중간 레이어에는 Optax와 Flaxformer가 있습니다. 인기
          Praxis Modeling Library가 포함된 레이어입니다. Fiddle이 빌드됨
          할 수 있습니다.

퍼셉트론

하나 이상의 입력 값을 받아들이는 시스템 (하드웨어 또는 소프트웨어)입니다. 입력의 가중 합계에 대해 함수를 실행하고 출력 값입니다. 머신러닝에서 함수는 일반적으로 다음과 같이 비선형입니다. ReLU, 시그모이드 또는 tanh입니다. 예를 들어 다음 퍼셉트론은 시그모이드 함수를 사용하여 세 개의 입력값이 있습니다.

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

다음 그림에서 퍼셉트론은 3개의 입력을 취합니다. 퍼셉트론에 들어가기 전에 가중치에 의해 수정됩니다.

3개의 입력을 취하고 각 입력에 개별 값을 곱하는 퍼셉트론
          학습합니다. 퍼셉트론은 단일 값을 출력합니다.

퍼셉트론은 다음의 뉴런입니다. 신경망입니다.

performance

중복으로 정의된 용어로, 다음과 같은 의미를 갖습니다.

  • 소프트웨어 엔지니어링의 표준 의미 즉, 얼마나 빠르게 또는 효율적으로 실행되는가?
  • 머신러닝 내의 의미 여기에서 성능은 이 모델은 얼마나 정확한가요? 즉, 모델의 예측이 얼마나 잘 이루어지나요?

순열 변수 중요도

#df

평가되는 변수 중요도의 한 유형 치환을 설정한 모델의 예측 오차 증가 특성의 값을 정의합니다. 순열 변수의 중요도는 모델에 의존하지 않습니다. 측정항목입니다.

퍼플렉시티

모델의 작업 수행 능력을 나타내는 척도입니다. 예를 들어 단어의 처음 몇 글자를 읽는 작업이 있다고 가정해 보겠습니다. 사용자가 휴대전화 키보드에서 입력하고 있으며 가능한 표시됩니다. 이 작업의 퍼플렉시티 P는 몇 개의 예상 검색어만 입력할 수 있습니다 입력하려고 합니다.

퍼플렉시티와 교차 엔트로피의 관계는 다음과 같습니다.

$$P= 2^{-\text{cross entropy}}$$

pipeline

머신러닝 알고리즘의 기반이 되는 인프라입니다. 파이프라인 여기에는 데이터 수집, 학습 데이터 파일에 데이터 넣기, 하나 이상의 모델 학습, 프로덕션으로 모델 내보내기 등입니다

파이프라인

#language

모델 동시 로드의 한 형태이며, 모델의 처리는 연속 단계로 나뉘며 각 단계는 로그인해서는 안 됩니다. 단계에서 하나의 배치를 처리하는 동안 이전 다음 배치에서 작동할 수 있습니다.

단계적 학습도 참고하세요.

피짓

코드를 분할하여 여러 영역에서 실행하도록 JAX 함수 가속기 칩. 사용자가 함수를 pjit에 전달하고, 이는 동등한 의미 체계를 보유하지만 컴파일된 함수를 반환하는 함수입니다. 여러 기기에서 실행되는 XLA 계산으로 변환 (예: GPU 또는 TPU 코어)

pjit를 사용하면 사용자가 SPMD 파티션 나누기

2023년 3월부터 pjitjit과 병합되었습니다. 다음을 참고하세요. 분산 배열 및 자동 동시 로드 를 참조하세요.

PLM

#language
#generativeAI

선행 학습된 언어 모델의 약어입니다.

pmap

입력 함수의 사본을 실행하는 JAX 함수 여러 기본 하드웨어 기기에서 (CPU, GPU 또는 TPU) 입력 값이 서로 다릅니다. pmap은 SPMD를 사용합니다.

정책

#rl

강화 학습에서 에이전트의 확률적 매핑은 상태에서 작업으로 변경할 수 있습니다.

풀링

#image

이전에 생성했던 행렬을 줄이는 것은 컨볼루셔널 레이어를 더 작은 행렬로 변환합니다. 풀링은 일반적으로 최댓값 또는 평균값을 취하여 한 개 더 있습니다. 예를 들어 다음과 같습니다.

3x3 행렬 [[5,3,1], [8,2,5], [9,4,3]]

풀링 연산은 컨볼루셔널 연산과 마찬가지로 행렬을 슬라이스로 나눈 다음 컨볼루셔널 연산을 보폭 예를 들어 풀링 작업이 컨볼루셔널 행렬을 1x1 스트라이드의 2x2 슬라이스로 나눕니다. 다음 다이어그램에 나와 있는 것처럼 풀링 연산이 4번 발생합니다. 각 풀링 연산이 네 개라는 점입니다.

입력 행렬은 3x3이고 값은 [[5,3,1], [8,2,5], [9,4,3]]입니다.
          입력 행렬의 왼쪽 상단 2x2 하위 행렬은 [[5,3], [8,2]]이므로
          왼쪽 상단 풀링 연산에서는 8이라는 값 (즉,
          최대 5개, 3개, 8개, 2개). 입력의 오른쪽 상단 2x2 하위 행렬입니다.
          행렬은 [[3,1], [2,5]]이므로 오른쪽 상단 풀링 연산은
          5를 입력합니다. 입력 행렬의 왼쪽 하단 2x2 하위 행렬은
          [[8,2], [9,4]]이므로 왼쪽 하단 풀링 연산은
          9. 입력 행렬의 오른쪽 하단 2x2 하위 행렬은
          [[2,5], [4,3]]이므로 오른쪽 하단 풀링 연산은
          5. 요약하면, 풀링 연산은 2x2 행렬을 생성함
          [[8,5], [9,5]].

풀링은 입력 행렬의 병진 불변입니다.

비전용 풀링은 공식적으로 공간 풀링으로 더 잘 알려져 있습니다. 시계열에서 활용되는 풀링은 일시적 풀링이라고 합니다. 비공식적으로 풀링을 서브샘플링 또는 다운샘플링이라고 부르는 경우도 있습니다.

위치 인코딩

#language

시퀀스에서 토큰의 위치에 대한 정보를 추가하여 임베딩을 정의합니다 Transformer 모델은 서로 다른 부분 사이의 관계를 더 잘 이해할 수 있도록 시퀀스입니다.

위치 인코딩의 일반적인 구현은 정현파 함수를 사용합니다. (구체적으로는 정현파 함수의 주파수와 진폭은 시퀀스에서 토큰의 위치에 따라 결정됩니다.) 이 기법은 Transformer 모델이 학습하여 머신러닝의 순서를 결정합니다.

양성 클래스

#fundamentals

테스트 중인 클래스입니다.

예를 들어, 암 모델의 포지티브 클래스는 '종양'일 수 있습니다. 이메일 분류기의 포지티브 클래스는 '스팸'일 수 있습니다.

네거티브 클래스와 대비되는 개념입니다.

후처리

#fairness
#fundamentals

모델이 실행된 모델의 출력을 조정합니다. 후처리를 사용하면 추가 작업 없이도 공정성 제약 조건을 적용할 수 있으며, 모델 자체를 수정합니다.

예를 들어 이진 분류기에 후처리를 적용할 수 있습니다. 분류 임곗값을 설정하여 기회의 균등이 유지됨 일부 속성의 경우 참양성률이 해당 속성의 모든 값에 대해 동일합니다.

PR AUC (PR 곡선 아래 영역)

보간된 아래 영역 정밀도-재현율 곡선: 플롯으로 얻은 값 다른 값에 대한 (재현율, 정밀도) 포인트를 분류 임곗값. 방법에 따라 계산 시 PR AUC는 모델의 평균 정밀도와 같습니다.

Praxis

Pax의 핵심 고성능 ML 라이브러리입니다. 태초는 종종 레이어 라이브러리라고 합니다

Praxis에는 Layer 클래스의 정의뿐만 아니라 대부분의 다음과 같은 지원 구성 요소도 포함됩니다.

Praxis는 Model 클래스의 정의를 제공합니다.

precision

답을 찾는 분류 모델의 측정항목 다음 질문에 답해야 합니다.

모델이 포지티브 클래스를 예측했을 때 몇 퍼센트나 정확한 예측이었나요?

공식은 다음과 같습니다.

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

각 항목의 의미는 다음과 같습니다.

  • 참양성은 모델이 양성 클래스를 올바르게 예측했음을 의미합니다.
  • 거짓양성은 모델이 양성 클래스를 잘못 예측했음을 의미합니다.

예를 들어 모델에서 200건의 양성 예측을 했다고 가정하겠습니다. 양성 예측 200개 중:

  • 150명은 참양성이었습니다.
  • 50개는 거짓양성이었습니다

이 경우에는 다음과 같습니다.

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

정확성재현율과 대비되는 개념입니다.

분류: 정확성, 재현율, 정밀도 및 관련 항목 참조 측정항목 를 참조하세요.

정밀도-재현율 곡선

다양한 조건에서의 정밀도재현율의 곡선 분류 임계값.

예측

#fundamentals

모델의 출력입니다. 예를 들면 다음과 같습니다.

  • 이진 분류 모델의 예측은 양성 또는 네거티브 클래스와 같습니다.
  • 다중 클래스 분류 모델의 예측은 하나의 클래스입니다.
  • 선형 회귀 모델의 예측은 숫자입니다.

예측 편향

각 대륙의 평균과 얼마나 멀리 떨어져 있는지 예측라벨의 평균에서 도출됨 데이터 세트입니다.

머신러닝 모델의 편향 항과 혼동하지 마시기 바랍니다. 또는 윤리 및 공정성의 편향으로 인해 손실될 수 있습니다

예측 ML

모든 표준('기존') 머신러닝 시스템.

예측 ML이라는 용어에는 공식적인 정의가 없습니다. 이 용어는 오히려 ML 시스템의 범주에 기반하지 않음을 구별합니다. 생성형 AI입니다.

예측 패리티

#fairness

공정성 측정항목은 주어진 분류기에 대한 정밀도 비율 고려 중인 하위 그룹과 동일합니다.

예를 들어 대학 합격이 정밀도가 동일한 경우 국적에 대한 예측 동등성 브로딩나지아어를 위한 일이에요.

예측 패리티는 예측 비율 패리티라고도 합니다.

'공정성 정의'를 참조하세요. 설명했습니다.' (섹션 3.2.1) 예측 패리티에 대해 더 자세히 알아보세요.

예측률 패리티

#fairness

예측 패리티의 또 다른 이름입니다.

사전 처리

#fairness
모델 학습에 사용되기 전에 데이터를 처리하는 것 사전 처리로 인해 영어 텍스트 코퍼스에서 번역되지 않은 단어를 삭제하는 것만큼이나 간단하게 영어 사전에 나오는 단어의 뜻일 수도 있고, 다시 표현하는 것만큼 복잡할 수도 있습니다. 데이터 포인트와 관련된 데이터 포인트의 상관관계를 식별한 민감한 속성을 사용하는 것이 좋습니다. 전처리는 공정성 제약 조건을 충족하는 데 도움이 될 수 있습니다.

선행 학습된 모델

#language
#image
#generativeAI

모델 또는 모델 구성요소 (예: 임베딩 벡터)를 사용합니다. 경우에 따라서는 선행 학습된 임베딩 벡터를 신경망입니다. 또 다른 경우에는 모델이 임베딩 벡터 자체를 빌드할 수도 있습니다.

선행 학습된 언어 모델이라는 용어는 대규모 언어 모델을 빌드하고 사전 학습.

사전 학습

#language
#image
#generativeAI

대규모 데이터 세트에 대한 모델의 초기 학습입니다. 일부 선행 학습된 모델 엉뚱한 거인이며 일반적으로 추가 훈련을 통해 다듬어야 합니다. 예를 들어 ML 전문가는 대규모 언어 모델을 학습시키고, 예를 들어 위키백과에 있는 모든 영어 페이지와 같은 내용을 볼 수 있습니다 사전 학습을 진행한 후 결과 모델은 다음 중 하나를 통해 더욱 세분화할 수 있습니다. 기술:

사전 믿음

학습을 시작하기 전에 데이터에 대한 신념 예를 들어 L2 정규화가중치가 작고 일반적으로 분포되어 있습니다.

확률적 회귀 모델

선형 회귀 모델은 회귀 모델로서, 각 특성에 대한 가중치뿐만 아니라 불확실성을 줄 수 있습니다 확률적 회귀 모델은 예측과 예측의 불확실성입니다. 예를 들어 확률적 회귀 모델은 1과 0을 포함하여 표준 편차 12입니다. 확률적 회귀에 대해 자세히 알아보기 자세한 내용은 Colab tensorflow.org.

확률 밀도 함수

정확히 1이 있는 데이터 샘플의 빈도를 식별하는 함수 알 수 있습니다. 데이터 세트의 값이 연속 부동 소수점인 경우 정확한 일치는 거의 발생하지 않습니다 하지만 확률을 통합하면 값 x에서 y 값까지의 밀도 함수는 x에서 y 사이의 데이터 샘플입니다.

예를 들어 평균이 200이고 표준 편차 30입니다. 데이터 샘플의 예상 빈도를 결정하기 위해 값이 211.4에서 218.7 사이인 경우 확률 분포를 211.4에서 218.7 사이의 정규 분포에 대한 밀도 함수입니다.

프롬프트

#language
#generativeAI

대규모 언어 모델에 입력으로 입력된 모든 텍스트 모델을 특정 방식으로 동작하도록 조건부를 지정할 수 있습니다. 프롬프트는 임의의 길이입니다 (예: 소설의 전체 텍스트). 프롬프트 다음 표에 표시된 카테고리를 포함하여 여러 카테고리로 분류됩니다.

프롬프트 카테고리 참고
질문 비둘기는 얼마나 빨리 날 수 있나요?
안내 광고용 사이트에 관한 재미있는 시를 써 줘 대규모 언어 모델에 무언가 수행하도록 요청하는 프롬프트
마크다운 코드를 HTML로 변환합니다. 예를 들면 다음과 같습니다.
마크다운: * 목록 항목
HTML: <ul> <li>목록 항목</li> &lt;/ul&gt;
이 예시 프롬프트의 첫 번째 문장은 안내입니다 프롬프트의 나머지 부분은 예시입니다.
역할 경사하강법이 머신러닝 학습에 사용되는 이유를 설명하여 물리학 박사 학위를 받았습니다. 문장의 첫 부분은 지시입니다. 구문 "물리학 박사 학위 취득" 역할 부분입니다.
완료할 모델의 부분 입력 영국 총리는 부분 입력 프롬프트는 이 예시처럼 갑자기 끝날 수도 있습니다. 밑줄로 끝나야 합니다.

생성형 AI 모델은 프롬프트에 텍스트, 코드, 이미지, 임베딩, 동영상 등 거의 모든 것을 의미합니다.

프롬프트 기반 학습

#language
#generativeAI

적응할 수 있도록 하는 특정 모델의 기능 임의의 텍스트 입력 (프롬프트)에 대한 응답으로 동작합니다. 일반적인 프롬프트 기반 학습 패러다임에서는 대규모 언어 모델은 프롬프트에 생성하는 것입니다. 예를 들어 사용자가 다음 프롬프트를 입력한다고 가정해 보겠습니다.

뉴턴의 운동 제3법칙 요약

프롬프트 기반 학습을 할 수 있는 모델은 특정 질문에 대답하도록 특별히 훈련되지 않았음 확인할 수 있습니다 오히려 모델은 물리학에 대한 많은 사실을 일반적인 언어 규칙과 일반적인 언어 규칙의 구성 요소 및 도움이 될 것입니다. 이 지식만으로도 있습니다. 사람의 추가 피드백('답변이 너무 복잡함' 또는 '반응이란 무엇인가?')를 통해 일부 프롬프트 기반 학습 시스템은 점진적으로 답변의 유용성을 높일 수 있습니다.

프롬프트 설계

#language
#generativeAI

프롬프트 엔지니어링의 동의어입니다.

프롬프트 엔지니어링

#language
#generativeAI

원하는 응답을 유도하는 프롬프트를 만드는 기술 대규모 언어 모델에서 추출하는 방법을 학습합니다. 프롬프트를 실행하는 인간 살펴봤습니다 체계적인 프롬프트를 작성하는 것은 유용한 응답을 생성합니다. 프롬프트 엔지니어링은 다음과 같은 다양한 요인이 존재합니다.

  • 사전 학습에 사용되는 데이터 세트(가능한 경우) 대규모 언어 모델을 미세 조정합니다.
  • temperature 및 기타 디코딩 매개변수는 생성하는 데 사용됩니다.

자세한 내용은 프롬프트 설계 소개 를 참고하세요.

프롬프트 설계는 프롬프트 엔지니어링의 동의어입니다.

프롬프트 조정

#language
#generativeAI

매개변수 효율적인 조정 메커니즘 '프리픽스'를 학습하는 시스템에서 실제 프롬프트.

프롬프트 조정의 한 가지 변형(프리픽스 조정이라고도 함)은 모든 레이어 앞에 접두사를 추가합니다. 반면에 대부분의 프롬프트 조정은 입력 레이어에 접두사를 추가합니다.

프록시 라벨

#fundamentals

데이터 세트에서 직접 사용할 수 없는 라벨의 근사치를 계산하는 데 사용되는 데이터입니다.

예를 들어 직원 수를 예측하도록 모델을 학습시켜야 한다고 가정하겠습니다. 도움이 됩니다. 데이터 세트에 많은 예측 특성이 포함되어 있지만 스트레스 수치라는 라벨이 없습니다. 당연히 '직장 내 사고'를 선택하죠. 에 대한 프록시 라벨로 도움이 됩니다. 결국 스트레스를 많이 받는 직원들은 사고를 더 많이 덜어줍니다. 아니면 실제로 발생했나요? 직장 내 사고일 수도 있음 실제로 여러 가지 이유로 오르락내리락을 하고 있습니다.

두 번째 예로, is it raining?을 부울 라벨이 되도록 하고 싶다고 가정해 보겠습니다. 데이터 세트에 비 데이터가 포함되어 있지 않습니다. 만약 사용할 수 있는 경우에는 사람들의 사진을 비가 오나요?에 대한 프록시 라벨로 우산을 들고 있습니다. 맞나요 좋은 프록시 라벨은 무엇일까요? 그럴 수도 있겠지만, 일부 문화의 사람들은 비보다 햇빛으로부터 보호하기 위해 우산을 가지고 다닐 가능성이 높습니다.

프록시 라벨은 불완전하는 경우가 많습니다. 가능한 경우 실제 라벨 대신 사용할 수 있습니다 즉, 실제 라벨이 없는 경우 라벨을 매우 신중하게 선택하여 최악의 프록시 라벨 후보를 선택해야 합니다.

프록시 (민감한 속성)

#fairness
광고의 표준으로 사용되는 민감한 속성. 예를 들어 개인의 우편번호가 수입의 대리자로 사용될 수 있으므로 인종, 민족

순수 함수

입력만을 기반으로 하여 출력이이며 항이 없는 함수 사용할 수 있습니다. 특히 순수 함수는 전역 상태를 사용하거나 변경하지 않으며 함수 외부의 변수 값 등).

순수 함수를 사용하여 스레드로부터 안전한 코드를 만들 수 있으며, 이는 여러 개로 model 코드를 샤딩할 때 가속기 칩.

JAX의 함수 변환 메서드에는 입력 함수가 순수 함수라는 점을 기억하세요.

Q

Q 함수

#rl

강화 학습에서 예상 수익액션상태를 검토하고 주어진 정책을 따릅니다.

Q-함수는 상태-작업 값 함수라고도 합니다.

Q-learning

#rl

강화 학습에서는 이를 통해 에이전트가 최적의 Q-함수를 학습하여 마르코프 결정 프로세스: Bellman 방정식. 마르코프 의사 결정 프로세스 모델 환경입니다.

분위수

분위수 버케팅의 각 버킷입니다.

분위수 버킷팅

특성의 값을 버킷에 배포하여 각 버킷이 버킷에는 동일하거나 거의 동일한 수의 예시가 포함됩니다. 예를 들어 다음 그림은 44개의 점을 4개의 버킷으로 나눕니다. 각 버킷은 11개의 점이 포함되어 있습니다. 그림의 각 버킷에 포인트 수가 동일하고 일부 버킷은 다른 너비의 x값에 걸쳐 있습니다.

44개의 데이터 포인트를 각각 11개 포인트의 버킷 4개로 나눔
          각 버킷에는 동일한 수의 데이터 포인트가 포함되지만
          일부 버킷에는 다른 버킷보다 더 넓은 범위의 특성 값이 포함되어 있습니다.
          버킷이 있습니다

양자화

중복으로 정의된 용어로, 다음과 같은 방식으로 사용될 수 있습니다.

  • 분위수 버케팅 구현 특정 기능에 관해 알아봅니다.
  • 더 빠른 저장, 학습, 배포를 위해 데이터를 0과 1로 변환 사용됩니다. 불리언 데이터는 더 강력한 노이즈와 오류에 대해 양자화는 모델 정확성을 개선할 수 있습니다. 양자화 기법에는 반올림, 자르기 및 비닝을 수행합니다.
  • 모델의 특성을 저장하는 데 사용되는 비트 수 감소 매개변수입니다. 예를 들어 모델의 매개변수가 32비트 부동 소수점 숫자로 저장됩니다. 양자화는 이러한 데이터를 32비트에서 4, 8 또는 16비트까지. 양자화는 있습니다.

    • 컴퓨팅, 메모리, 디스크, 네트워크 사용량
    • 예측 추론 시간
    • 전력 소모량

    그러나 양자화는 때때로 모델의 정확성이 학습합니다.

#TensorFlow

대기열 데이터를 구현하는 TensorFlow 작업 있습니다. 일반적으로 I/O에서 사용됩니다.

R

RAG

#fundamentals

약어 검색 증강 생성.

랜덤 포레스트

#df

앙상블결정 트리의 특정 임의 노이즈를 사용하여 학습한 각 결정 트리 예를 들어 배깅을 사용하면 됩니다.

랜덤 포레스트는 결정 포레스트의 한 유형입니다.

무작위 정책

#rl

강화 학습에서는 사용자가 선택할 수 있는 정책액션을 무작위로 반환합니다.

순위

지도 학습의 한 유형으로 목표는 항목 목록을 정렬하는 것입니다.

순위 (순서수)

머신러닝 문제에서 클래스의 서수 위치로 클래스로 학습합니다. 예를 들어 행동 순위는 강아지의 보상을 가장 높은 순위 (스테이크)부터 시든 케일로 끝납니다.

순위 (Tensor)

#TensorFlow

Tensor의 차원 수입니다. 예를 들어 스칼라의 순위는 0이고, 벡터의 순위는 1이며, 행렬의 순위는 2입니다.

순위 (순서수)와 혼동하지 마시기 바랍니다.

평가자

#fundamentals

예시라벨을 제공하는 사람입니다. "주석자" 평가자의 또 다른 이름입니다.

recall

답을 찾는 분류 모델의 측정항목 다음 질문에 답해야 합니다.

정답포지티브 클래스, 예측의 비율 포지티브 클래스로 올바르게 식별되나요?

공식은 다음과 같습니다.

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

각 항목의 의미는 다음과 같습니다.

  • 참양성은 모델이 양성 클래스를 올바르게 예측했음을 의미합니다.
  • 거짓음성은 모델이 실수로 예측한 네거티브 클래스에 속합니다.

예를 들어 모델이 다음과 같은 예시에 대해 200개의 예측을 수행했다고 가정하겠습니다. 정답은 포지티브 클래스였습니다. 예측 200개 중

  • 180명은 참양성이었습니다.
  • 20개는 거짓음성이었습니다.

이 경우에는 다음과 같습니다.

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

분류: 정확성, 재현율, 정밀도 및 관련 항목 참조 측정항목 를 참조하세요.

추천 시스템

#recsystems

각 사용자에 대해 상대적으로 적은 수의 바람직한 그룹을 선택하는 시스템입니다. 항목을 업데이트합니다. 예를 들어 동영상 추천 시스템은 두 개의 동영상을 추천할 수 있습니다. 100,000개 동영상 코퍼스에서 Casablanca를 선택한 다음 The Philadelphia Story for one user, and Wonder Woman블랙 팬서 같은 거죠. 동영상 추천 시스템은 다음과 같은 요소를 기반으로 추천됩니다.

  • 비슷한 사용자가 평가하거나 시청한 영화
  • 장르, 감독, 배우, 타겟 인구통계...

정류 선형 유닛 (ReLU)

#fundamentals

다음과 같은 동작을 갖는 활성화 함수입니다.

  • 입력이 음수이거나 0이면 출력은 0입니다.
  • 입력이 양수이면 출력은 입력과 같습니다.

예를 들면 다음과 같습니다.

  • 입력이 -3이면 출력은 0입니다.
  • 입력이 +3이면 출력은 3.0입니다.

다음은 ReLU의 도표입니다.

두 선의 데카르트 도표 첫 번째 줄에는
          x축을 따라 -무한대,0부터 0,-0까지 0의 y 값
          두 번째 줄은 0,0에서 시작합니다. 이 선의 경사는 +1이므로
          0,0에서 +무한대,+무한대까지입니다.

ReLU는 매우 널리 사용되는 활성화 함수입니다. 간단한 동작에도 불구하고 ReLU는 여전히 신경망이 nonlinear을 학습할 수 있도록 합니다. 특성라벨 간의 관계를 나타냅니다.

순환 신경망(RNN)

#seq

의도적으로 여러 번 실행하는 신경망 각 실행의 일부가 다음 실행으로 피드됩니다. 구체적으로 설명하자면 다음과 같습니다. 이전 실행의 히든 레이어가 동일한 히든 레이어에 입력을 생성합니다. 순환 신경망(RNN) 수열을 평가하는 데 특히 유용하므로 히든 레이어는 신경망의 이전 실행에서 학습할 수 있으며 시퀀스입니다.

예를 들어 다음 그림은 2012년 3월 11일까지 4번 실행됩니다 히든 레이어에서 학습된 값은 첫 번째 실행은 입력 문장의 동일한 히든 레이어에 두 번째 실행입니다 마찬가지로 히든 레이어에서 학습된 값은 두 번째 실행은 함수의 동일한 히든 레이어에 대한 세 번째 실행입니다. 이러한 방식으로 순환 신경망은 는 단순한 의미보다는 전체 시퀀스의 의미를 예측합니다. 학습합니다.

4번 실행되어 4개의 입력 단어를 처리하는 RNN입니다.

회귀 모델

#fundamentals

비공식적으로 수치 예측을 생성하는 모델입니다. (반대로 분류 모델은 클래스를 생성합니다. prediction.) 예를 들어 다음은 모두 회귀 모델입니다.

  • 423,000유로와 같이 특정 주택의 가치를 예측하는 모델입니다.
  • 23.2년과 같이 특정 나무의 기대 수명을 예측하는 모델입니다.
  • 특정 도시에 강수량을 예측하는 모델 0.18인치와 같이 계산됩니다.

회귀 모델의 일반적인 두 가지 유형은 다음과 같습니다.

  • 선형 회귀: 가장 적합한 선을 찾습니다. 라벨 값을 특성에 맞춥니다.
  • 로지스틱 회귀는 0.0에서 1.0 사이의 확률로 시스템이 일반적으로 클래스에 매핑할 확률 학습합니다.

수치 예측을 출력하는 모든 모델이 회귀 모델인 것은 아닙니다. 경우에 따라 수치 예측은 실제로는 단순한 분류 모델일 뿐입니다. 숫자 클래스 이름이 있습니다. 예를 들어 숫자 우편번호는 회귀 모델이 아닌 분류 모델입니다.

정규화

#fundamentals

과적합을 줄이는 모든 메커니즘 정규화의 일반적인 유형은 다음과 같습니다.

정규화는 모델의 복잡도에 미치는 페널티로도 정의할 수 있습니다.

정규화율

#fundamentals

상대적 중요도를 지정하는 숫자 정규화: 증가 정규화율은 과적합을 줄여주지만 모델의 예측 성능이 저하됩니다 반대로 정규화율은 과적합을 증가시킵니다.

강화 학습 (RL)

#rl

최적의 정책을 학습하는 알고리즘군 상호작용 시 수익환경입니다. 예를 들어 대부분의 게임에서 궁극적인 보상은 승리입니다. 강화 학습 시스템은 복잡한 문제 해결에 능숙할 수 있다 게임 플레이의 성패를 좌우하는 이전 게임 동작의 순서를 결국 승으로 이어지고 궁극적으로 패배로 이어진 시퀀스가 되었습니다.

인간 피드백 기반 강화 학습 (RLHF)

#generativeAI
#rl

평가자의 피드백을 사용하여 모델 응답의 품질을 개선합니다. 예를 들어, RLHF 메커니즘은 모델의 품질과 성능을 평가하도록 사용자에게 👍 또는 🔒 그림 이모티콘으로 응답하세요. 그러면 시스템은 향후 대답을 조정할 수 있습니다. 의견을 반영했습니다.

ReLU

#fundamentals

정류 선형 유닛의 약어입니다.

리플레이 버퍼

#rl

DQN 유사 알고리즘에서 에이전트가 사용하는 메모리는 상태 전환을 저장하고 경험 다시보기 기능을 사용할 수 있습니다.

복제본

학습 세트 또는 모델의 사본 일반적으로 다른 컴퓨터에 저장됩니다. 예를 들어 시스템은 다음을 사용할 수 있습니다. 데이터 동시 로드 구현을 위한 전략:

  1. 기존 모델의 복제본을 여러 머신에 배치합니다.
  2. 학습 세트의 서로 다른 하위 집합을 각 복제본에 전송합니다.
  3. 매개변수 업데이트를 집계합니다.

보고 편향

#fairness

사람들이 행동에 대해 쓰는 빈도, 특성이 실제 세계를 반영하지 않는 특정 속성이 특징인 빈도 또는 정도 학습합니다. 보고 편향이 음악작품에 영향을 미칠 수 있음 머신러닝 시스템이 학습하는 데이터의 양에 대해 살펴봤습니다

예를 들어 책에서 웃음이란 단어는 호흡합니다. 상대적 빈도를 추정하는 머신러닝 모델 웃고 숨 쉬는 것이 어떤 의미인지 웃는 것이 호흡보다 더 흔하다는 사실을 깨달았습니다.

벡터 표현이

데이터를 유용한 특성에 매핑하는 과정입니다.

순위 재지정

#recsystems

추천 시스템의 마지막 단계 이 기간 동안 다른 기준에 따라 채점된 항목이 다시 채점될 수 있습니다. 일반적으로 ML 알고리즘이 아닌 알고리즘입니다 순위 재지정은 항목 목록 평가 채점 단계에서 생성되어 다음과 같은 조치를 취합니다.

  • 사용자가 이미 구매한 항목 제거
  • 새로운 항목의 점수를 높입니다.

검색 증강 생성 (RAG)

#fundamentals

테크닉의 질을 대규모 언어 모델 (LLM) 출력 모델을 학습시킨 후 얻은 지식 소스로 그라운딩해야 합니다. RAG는 학습된 LLM에 다음과 같은 특성을 제공하여 신뢰할 수 있는 기술 자료 또는 문서에서 가져온 정보에 대한 액세스

검색 증강 생성을 사용하는 일반적인 동기는 다음과 같습니다.

  • 모델에서 생성된 응답의 사실 정확성을 높입니다.
  • 모델이 학습하지 않은 지식에 대한 액세스 권한 부여
  • 모델이 사용하는 지식 변경
  • 모델이 출처를 인용할 수 있도록 설정합니다.

예를 들어 화학 앱이 PaLM을 사용한다고 가정하겠습니다. API로 요약 생성 관련이 있습니다. 앱의 백엔드가 쿼리를 수신하면 백엔드는 다음을 충족해야 합니다.

  1. 사용자의 검색어와 관련된 데이터를 검색('검색')합니다.
  2. 사용자의 검색어에 관련 화학 데이터를 추가('보강')합니다.
  3. 추가된 데이터를 기반으로 요약을 만들도록 LLM에 지시합니다.

리턴

#rl

강화 학습에서는 특정 정책과 상태가 주어지면 return은 상담사가 생성한 모든 보상의 합계입니다 에서 정책을 준수하면 상태에피소드 끝까지 전달합니다. 에이전트 리워드를 할인하여 기대되는 리워드가 지연되는 특성을 감안합니다. 필요한 상태 전환에 따라 달라집니다.

따라서 할인 계수가 \(\gamma\)이고 \(r_0, \ldots, r_{N}\)인 경우 에피소드가 끝날 때까지 리워드를 표시한 후 수익 계산 다음과 같습니다.

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

리워드가

#rl

강화 학습에서는 학습 데이터의 작업상태환경입니다.

능형 정규화

L2 정규화의 동의어입니다. 능형 정규화는 순수 통계에서 더 자주 사용됩니다. 반면 L2 정규화는 더 자주 사용됩니다. 살펴봤습니다

RNN

#seq

RNN(RNN)의 약어입니다.

ROC (수신자 조작 특성) 곡선

#fundamentals

참양성률과 참양성률의 비교 그래프 다양한 거짓양성률 바이너리의 분류 임곗값 있습니다.

ROC 곡선의 모양은 이진 분류 모델의 능력을 시사함 포지티브 클래스를 네거티브 클래스와 분리합니다. 예를 들어 이진 분류 모델은 모든 음성과 모든 포지티브 클래스의 클래스:

오른쪽에 긍정적 예 8개가 있는 수직선
          왼쪽에는 부정적인 예시가 7개 있습니다.

이전 모델의 ROC 곡선은 다음과 같습니다.

ROC 곡선 x축은 거짓양성률이고 y축은
          참양성률입니다 곡선은 반전된 L 모양입니다. 곡선
          (0.0,0.0)에서 시작하여 (0.0,1.0)까지 곧장 올라갑니다. 그러면 곡선은
          (0.0,1.0)에서 (1.0,1.0)으로 변합니다.

반면에 다음 그림은 원시 로지스틱 회귀를 그래프로 나타낸 것입니다. 네거티브 클래스와 분리할 수 없는 열악한 모델의 경우 모두 긍정적 클래스:

양수 예와 음수 클래스가 있는 수직선
          완전히 섞여 있습니다.

이 모델의 ROC 곡선은 다음과 같습니다.

ROC 곡선은 실제로 (0.0, 0.0)에서부터 시작되는 직선입니다.
          (1.0,1.0)으로 변경합니다.

한편 현실에서는 대부분의 이진 분류 모델은 어느 정도는 정확하지만 일반적으로 완벽하지는 않습니다. 이렇게요. 일반적인 ROC 곡선은 두 극단 사이의 어딘가에 있습니다.

ROC 곡선 x축은 거짓양성률이고 y축은
          참양성률입니다 불안정한 원호에 가까운 ROC 곡선
          서쪽에서 북쪽으로 나침반 지점을 가로지릅니다.

ROC 곡선상의 (0.0,1.0)에 가장 가까운 점은 이론적으로 이상적인 분류 임곗값입니다. 하지만 이 밖에도 여러 가지 실제적인 문제점들이 이상적인 분류 임곗값을 선택하는 데 영향을 미칩니다. 예를 들어 아마도 거짓음성은 거짓양성보다 훨씬 더 많은 고통을 야기할 것입니다.

AUC라는 숫자 측정항목은 ROC 곡선을 다음과 같이 요약합니다. 단일 부동 소수점 값입니다.

역할 프롬프팅

#language
#generativeAI

타겟층을 식별하는 프롬프트의 부분(선택사항) (생성형 AI 모델 응답). 역할 없음 대규모 언어 모델이 제공하는 응답에 유용할 수도 있고 아닐 수도 있습니다 질문할 수 있습니다. 역할 프롬프트를 사용하면 질문에 더 적절하고 도움이 되는 방식으로 대답할 수 있는 확인할 수 있습니다 예를 들어 프롬프트는 굵은 글씨로 표시됩니다.

  • 경제학 박사 학위 취득 경우 이 문서를 요약해 주세요.
  • 10살짜리에게 조수의 원리를 설명해 줘.
  • 2008년 금융 위기를 설명합니다. 어린아이에게 말하듯이 골든 리트리버 등이죠

루트

#df

시작 노드 (첫 번째 조건)를 의사 트리에 포함하는 것이 좋습니다. 규칙에 따라 다이어그램은 의사 결정 트리의 맨 위에 루트를 배치합니다. 예를 들면 다음과 같습니다.

조건 2개와 잎 3개가 있는 결정 트리 이
          시작 조건 (x > 2)이 루트입니다.

루트 디렉터리

#TensorFlow

TensorFlow의 하위 디렉터리를 호스팅하기 위해 지정하는 디렉터리 체크포인트 및 이벤트 파일을 생성할 수 있습니다.

평균 제곱근 오차(RMSE)

#fundamentals

평균 제곱 오차의 제곱근입니다.

회전 불변

#image

이미지 분류 문제에서 성공적으로 수행하는 알고리즘의 능력은 이미지의 방향이 바뀌더라도 이미지를 분류할 수 있습니다. 예를 들어 알고리즘은 여전히 테니스 라켓이 위로 향하고 있는지, 옆으로 또는 아래로 말이죠 회전 불변이 항상 바람직한 것은 아닙니다. 예를 들어 거꾸로 된 9는 9로 분류해서는 안 됩니다.

병진 불변크기 불변을 사용하여 분석할 수 있습니다.

R 제곱

회귀 측정항목은 특정 기간에 발생한 라벨은 개별 특성 또는 특성 세트로 인해 발생합니다. R-제곱은 0과 1 사이의 값으로 다음과 같이 해석할 수 있습니다.

  • R-제곱이 0이면 라벨 변이가 특성 세트입니다.
  • R-제곱이 1이면 모든 라벨의 변이가 특성 세트입니다.
  • 0과 1 사이의 R 제곱은 라벨의 변이는 특정 특성 또는 특성 세트에서 예측할 수 있습니다. 예를 들어 R 제곱이 0.10이면 분산의 10 퍼센트가 R-제곱이 0.20이면 특성 세트로 인해 20%는 특성 세트 등으로 인해 발생합니다.

R-제곱은 피어슨 상관관계 계수 모델이 예측한 값과 정답 사이의 관계를 나타냅니다.

S

표본 추출 편향

#fairness

표본 선택 편향을 참고하세요.

교체를 통한 샘플링

#df

동일한 값을 갖는 후보 항목 집합에서 항목을 선택하는 방법입니다. 항목을 여러 번 선택할 수 있습니다. '교체 포함' 문구 의미 각 선택이 완료되면 선택된 항목이 풀로 반환됨 조합할 수 있습니다 역수 방식은 대체 없이 샘플링하는 것입니다. 후보 항목을 한 번만 선택할 수 있음을 의미합니다

예를 들어 다음 과일 세트를 생각해 보세요.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

시스템에서 무작위로 fig를 첫 번째 항목으로 선택한다고 가정합니다. 대체로 샘플링을 사용하는 경우 시스템에서 두 번째 항목을 찾습니다.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

예, 이전과 동일한 세트이므로 시스템이 잠재적으로 fig를 다시 선택합니다.

대체 없이 샘플링을 사용하는 경우 샘플을 선택할 수 없음 선택할 수 있습니다 예를 들어 시스템에서 무작위로 fig를 첫 번째 샘플을 선택한 후에는 fig을(를) 다시 선택할 수 없습니다. 따라서 시스템은 다음 (감소된) 집합에서 두 번째 샘플을 선택합니다.

fruit = {kiwi, apple, pear, cherry, lime, mango}

저장된 모델

#TensorFlow

TensorFlow 모델 저장 및 복구에 권장되는 형식입니다. SavedModel 언어 중립적이며 복구 가능한 직렬화 형식으로 TensorFlow를 생성, 소비, 혁신하기 위한 상위 수준 시스템 및 도구 모델을 학습시키는 작업도 반복해야 합니다

저장 및 복원 챕터를 참조하세요. 를 참조하세요.

알뜰

#TensorFlow

TensorFlow 객체 모델 체크포인트 저장을 담당합니다

스칼라

하나의 숫자 또는 단일 문자열로 표현될 수 있는 rank 0의 tensor입니다. 예를 들어 각각 TensorFlow에서 하나의 스칼라를 생성합니다.

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

확장

라벨의 범위를 이동하는 수학적 변환 또는 기법 특성값을 생성합니다 일부 확장 형식은 변환에 매우 유용하며 정규화와 같은 비용을 절감할 수 있습니다

머신러닝에서 유용한 일반적인 확장 형태는 다음과 같습니다.

  • 선형 배율 조정은 일반적으로 뺄셈과 나누기를 사용하여 원래 값을 -1과 +1 사이의 숫자로 대체합니다. 0과 1 사이로 표시됩니다.
  • 대수 배율은 원래 값을 대수입니다.
  • Z-점수 정규화는 0의 개수를 나타내는 부동 소수점 값으로 해당 특성의 평균으로부터의 표준 편차를 표시합니다.

scikit-learn

널리 사용되는 오픈소스 머신러닝 플랫폼입니다. 자세한 내용은 scikit-learn.org입니다.

점수 매기기

#recsystems

추천 시스템에서 사용자가 는 후보 생성 단계입니다.

표본 선택 편향

#fairness

선택 프로세스로 인해 샘플링된 데이터에서 도출된 결론의 오류 데이터에서 관찰된 샘플 간의 체계적인 차이를 생성합니다. 관찰되지 않은 위협입니다 다음과 같은 형태의 표본 선택 편향이 존재합니다.

  • 포함 편향: 데이터 세트에 표시되는 모집단이 머신러닝 모델이 생성하는 모집단과 일치 학습합니다.
  • 표본 추출 편향: 데이터가 대상 그룹에서 무작위로 수집되지 않습니다.
  • 무응답 편향 (참여 편향이라고도 함): 특정 그룹의 사용자와 다른 비율의 설문조사 수신 거부율 확인할 수 있습니다

예를 들어, 입력 데이터의 양을 예측하는 머신러닝 모델을 만든다고 가정하겠습니다. 즐길 수 있다는 것입니다. 학습 데이터를 수집하려면 영화관 맨 앞줄에 있는 모두에게 설문조사를 건넵니다. 영화가 표시됩니다. 언뜻 들으면 당연하게 보일 수도 있습니다. 데이터 세트를 수집합니다. 그러나 이러한 형태의 데이터 수집은 다음과 같은 형태의 표본 선택 편향이 발생할 수 있습니다.

  • 포함 편향: 특정 집단의 근래에 살고자 하는 인구에서 샘플링하여 모델의 예측이 사람들로 일반화되지 않을 수 있으며 영화에 대한 관심을 표현하지 않은 사람들도 있습니다.
  • 표본 추출 편향은 특정 데이터에서 무작위로 샘플링하지 않고 대상 인구 (영화에 나오는 모든 사람들), 즉 최전선에 있는 사람들입니다. 사람들이 한 자리에 앉아 영화에 관심이 더 많다는 것을 알았는데, 확인할 수 있습니다.
  • 무응답 편향: 일반적으로 의견이 강한 사람은 경미한 사람보다 선택 설문조사에 더 자주 응답함 의견을 낼 수 있습니다. 영화 설문조사는 선택사항이므로 응답은 인코더-디코더 아키텍처를 바이모달 분포 더 높습니다.

셀프 어텐션 (셀프 어텐션 계층이라고도 함)

#language

일련의 시퀀스를 변환하는 신경망 레이어 임베딩 (예: 토큰 임베딩) 다른 시퀀스로 변환합니다 출력 시퀀스의 각 임베딩은 입력 시퀀스 요소의 정보를 통합하여 생성 어텐션 메커니즘을 통해 전달됩니다.

self-attentionself 부분은 이해하는 것이 중요합니다. 셀프 어텐션은 Transformer의 빌딩 블록이며 사전 조회를 사용합니다. '검색어', '키', '값'과 같은 용어가 포함됩니다.

셀프 어텐션 레이어는 첫 번째 입력 표현의 시퀀스인 확인할 수 있습니다 단어에 대한 입력 표현은 단순할 수 있고 있습니다. 입력 시퀀스의 각 단어에 대해 신경망은 전체 시퀀스에서 모든 요소와 단어의 관련성 점수를 산정합니다. 학습합니다. 관련성 점수는 단어의 최종 표현 정도를 다른 단어의 표현을 통합합니다.

예를 들어 다음 문장을 생각해 보세요.

동물은 너무 피곤해서 길을 건너지 않았습니다.

다음 그림( Transformer: 언어를 위한 새로운 신경망 아키텍처 이해) 대명사 it에 대한 셀프 어텐션 레이어의 주의 패턴을 보여줍니다. 각 단어가 단어의 의미에 얼마나 기여하는지를 나타내는 각 선의 어두움 나타냅니다.

다음 문장이 두 번 나타납니다. 동물이
          너무 지쳤기 때문이지요. 줄은 호칭을 연결합니다.
          한 문장을 다섯 개의 토큰 (The,Animal, Street, it 및
          마침표)를 사용하지 않습니다.  호칭과 it 사이의 줄
          동물이라는 단어가 가장 효과적입니다

셀프 어텐션 레이어는 '그것'과 관련된 단어를 강조 표시합니다. 이 어텐션 레이어는 선호하는 데 도움이 될 만한 단어를 동물에 가장 높은 가중치를 할당하는 것을 말합니다.

n개의 토큰 시퀀스에 대해 자체 어텐션은 n번의 임베딩을 시퀀스의 각 위치에서 한 번씩 분할합니다.

주의멀티 헤드 셀프 어텐션.

자기 지도 학습

데이터를 변환하기 위한 기술군은 비지도 머신러닝 문제 지도 머신러닝 문제로 전환 서로게이트 라벨을 생성하여 라벨이 없는 예.

BERT와 같은 일부 Transformer 기반 모델은 자체 지도 학습입니다.

자기 지도 학습은 준지도 학습 접근 방식을 취합니다.

자가 훈련

자기 지도 학습의 한 변형으로 다음 조건이 모두 충족될 때 특히 유용합니다.

자체 학습은 모델이 학습될 때까지 다음 두 단계를 반복하는 방식으로 작동합니다. 더 이상 개선이 이루어지지 않는 부분:

  1. 지도 머신러닝을 사용하여 다음을 수행합니다. 라벨이 있는 예를 사용하여 모델을 학습시킵니다.
  2. 1단계에서 만든 모델을 사용하여 라벨이 없는 예, 신뢰도가 높은 예를 라벨이 있는 예를 예측된 라벨과 비교합니다

2단계를 반복할 때마다 1단계에서 라벨이 지정된 예시를 학습합니다.

준지도 학습

일부 학습 예에 라벨이 있지만 그렇지 않은 경우도 있습니다. 준지도 학습의 한 가지 기법은 추론된 라벨을 학습하여 새로운 있습니다. 준지도 학습은 라벨 획득 비용이 많이 드는 경우 유용할 수 있음 라벨이 없는 예도 많습니다

자가 학습은 준지도 학습 기법 중 하나입니다. 있습니다.

민감한 속성

#fairness
인간의 특성으로서 법률, 윤리적, 사회적 또는 개인적 이유로 인해 발생합니다

감정 분석

#language

통계 또는 머신러닝 알고리즘을 사용하여 그룹의 서비스, 제품, 서비스에 대한 전반적인 태도(긍정적 또는 부정적)를 구성할 수 있습니다 예를 들어 자연어 이해 텍스트 피드백에 대한 감정 분석을 수행하여 수강할 학생의 학위를 결정하기 위해 전반적으로 좋아하거나 싫어한 과정

시퀀스 모델

#seq

입력에 순차적 종속 항목이 있는 모델입니다. 예를 들어 이전에 시청한 동영상 시퀀스 중에서 다음에 시청한 동영상을 표시합니다.

시퀀스-투-시퀀스(Seq2Seq) 태스크

#language

tokens의 입력 시퀀스를 출력으로 변환하는 작업 토큰의 시퀀스입니다. 예를 들어 널리 사용되는 두 가지 시퀀스-투-시퀀스(Seq2Seq) 모델과 태스크는 다음과 같습니다.

  • 번역사: <ph type="x-smartling-placeholder">
      </ph>
    • 샘플 입력 시퀀스: '사랑해'
    • 샘플 출력 시퀀스: 'Je t'aime'
  • 질의 응답: <ph type="x-smartling-placeholder">
      </ph>
    • 샘플 입력 시퀀스: '뉴욕시에서 내 차가 필요한가요?'
    • 샘플 출력 시퀀스: '아니요. 차는 집에 두시기 바랍니다."

서빙

학습된 모델을 만들어 예측을 제공하는 프로세스 온라인 추론 또는 오프라인 추론.

셰이프 (텐서)

측정항목의 각 차원에 있는 요소의 개수입니다. 텐서가 포함됩니다. 도형은 정수 목록으로 표현됩니다. 예를 들어 다음 2차원 텐서의 셰이프는 [3,4]입니다.

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow는 행 메이저 (C 스타일) 형식을 사용하여 이것이 바로 TensorFlow의 셰이프가 [3,4]인 이유입니다. [4,3] 즉, 2차원 TensorFlow 텐서에서 [행 수, 열 수]입니다.

정적 셰이프는 컴파일 타임에 알려진 텐서 셰이프입니다.

동적 도형은 컴파일 시간에 알 수 없으며 런타임 데이터에 따라 달라집니다 이 텐서는 [3, ?]에서와 같이 TensorFlow의 자리표시자 측정기준

샤드

#TensorFlow
#GoogleCloud

학습 세트 또는 model입니다. 일반적으로 일부 프로세스는 매개변수를 같은 크기의 청크로 분할합니다. 그런 다음 각 샤드가 다른 머신에 할당됩니다.

모델 샤딩을 모델 동시 로드라고 합니다. 이를 데이터 동시 로드라고 합니다.

축소

#df

초매개변수는 컨트롤하는 그라데이션 부스팅 과적합. 그래디언트 부스팅의 축소 학습률경사하강법. 축소는 십진수입니다. 0.0과 1.0 사이의 값입니다. 축소 값이 낮을수록 과적합 감소 훨씬 크다는 것을 의미합니다.

시그모이드 함수

#fundamentals

'스퀴시'하는 수학적 함수 제한된 범위로 제한하고 일반적으로 0~1 또는 -1~+1입니다. 즉, 어떤 숫자 (2, 백만, 음의 십억)을 시그모이드로 변환할 수 있으며 출력은 여전히 제한된 범위. 시그모이드 활성화 함수의 도표는 다음과 같습니다.

정의역에 걸쳐 있는 x값이 있는 2차원 곡선 플롯
          y값의 범위는 거의 0에서 +양까지입니다.
          거의 1. x가 0이면 y는 0.5입니다. 곡선의 기울기는 항상
          가장 높은 경사가 0.0.5에서 점차 감소하는 것을 보임
          x의 절댓값이 증가하면 기울기가 커집니다.

시그모이드 함수는 머신러닝에서 다음과 같은 여러 용도로 사용됩니다.

유사성 측정

#clustering

클러스터링 알고리즘에서 얼마나 비슷한지를 비교할 수 있습니다.

단일 프로그램 / 다중 데이터 (SPMD)

다른 입력으로 동일한 계산을 실행하는 동시 로드 기법 데이터를 병렬로 처리할 수 있습니다. SPMD의 목표는 성과를 얻는 것입니다 더 빠르게 조정할 수 있습니다 병렬 프로그래밍의 가장 일반적인 스타일입니다.

크기 불변

#image

이미지 분류 문제에서 성공적으로 수행하는 알고리즘의 능력은 이미지의 크기가 변경되는 경우에도 이미지를 분류할 수 있습니다. 예를 들어 알고리즘은 여전히 소비하는 만큼 가장 좋은 방법이라도 이미지 분류 알고리즘은 여전히 크기 불변에 실질적인 제한이 있습니다. 예를 들어, 알고리즘 (또는 사람)은 특정 단어 또는 구문이 20픽셀만 소비하는 고양이 이미지

병진 불변회전 불변을 참조하세요.

스케치

#clustering

비지도 머신러닝에서는 예비 유사성 분석을 수행하는 알고리즘 카테고리 살펴봤습니다 스케치 알고리즘은 <ph type="x-smartling-placeholder"></ph> 지역 구분 해시 함수 유사한 점을 식별한 다음 버킷으로 나눌 수 있습니다

스케치를 통해 유사성 계산에 필요한 계산 감소 Vertex AI Feature Store의 핵심 기능을 살펴봤습니다 모든 모델에 대해 유사성을 계산하는 대신 두 개의 예가 쌍을 이루면 각 예에 대해서만 유사성을 계산합니다. 각 버킷 안의 점 쌍입니다.

skip-gram

#language

원본에서 단어를 생략 (또는 '건너뛰기')할 수 있는 n-그램 즉, N 단어가 원래 인접하지 않았을 수 있습니다. 더보기 정확히 말해 'k-skip-n-gram' 최대 k개의 단어를 가질 수 있는 건너뛰었습니다.

예: '빠른 갈색 여우' 에는 다음과 같은 2-그램이 있습니다.

  • '빠른'
  • "빠른 갈색"
  • '갈색 여우'

'1-skip-2-gram' 사이에 최대 1개의 단어가 있는 단어 쌍입니다. '빠른 갈색 여우'는 다음과 같은 1-건너뛰기 2-그램이 있습니다.

  • 'the brown'
  • "빠른 여우"

또한 모든 2-그램은 또한 1-skip-2-gram입니다. 건너뛸 수 있습니다.

건너뛰기-그램은 단어 주변 컨텍스트를 더 많이 이해하는 데 유용합니다. 이 예에서는 'fox'가 사용됩니다. '빠른' 검색어와 인코더-디코더 1-skip-2-gram이지만 2-gram 세트에는 포함되지 않음.

학습에 도움이 되는 건너뛰기-그램 단어 임베딩 모델입니다.

소프트맥스

#fundamentals

데이터에서 가능한 각 클래스의 확률을 구하는 함수 다중 클래스 분류 모델. 확률의 합은 정확하게 1.0이 됩니다. 예를 들어 다음 표는 소프트맥스에서 확률 분포를 사용하여

이미지 유형 확률
0.85
고양이 0.13
0.02

소프트맥스는 전체 소프트맥스라고도 합니다.

후보 샘플링과 대비되는 개념입니다.

소프트 프롬프트 조정

#language
#generativeAI

대규모 언어 모델을 조정하는 기술 리소스를 많이 쓰지 않고도 특정 태스크에 맞게 미세 조정 모든 머신러닝 프로세스를 모델의 가중치, 소프트 프롬프트 조정 동일한 목표를 달성하기 위해 프롬프트를 자동으로 조정합니다.

텍스트 프롬프트에 따른 소프트 프롬프트 조정 일반적으로 프롬프트에 추가 토큰 임베딩을 추가하고 역전파를 통해 입력을 최적화할 수 있습니다.

'어려움' 프롬프트에는 토큰 임베딩 대신 실제 토큰이 포함됩니다.

희소 특성

#language
#fundamentals

대부분의 값이 0이거나 비어 있는 특성입니다. 예를 들어 하나의 값 1개와 백만 개의 0 값을 포함하는 특성은 희소. 반대로 밀집 특성은 대부분의 경우 0이 아니거나 비어 있습니다.

머신러닝에서 희소 특성은 놀라울 정도로 많습니다. 범주형 특성은 일반적으로 희소 특성입니다. 예를 들어, 한 숲에서 300종의 수목 중에서 단풍나무만 식별할 수도 있습니다. 또는 수백만 개의 가장 가능성이 높은 동영상을 찾는다면 한 가지 예를 통해 '카사블랑카'만 입력하면 됩니다.

모델에서는 일반적으로 희소 특성을 원-핫 인코딩. 원-핫 인코딩이 큰 경우에는 임베딩 레이어를 레이어의 원-핫 인코딩을 사용해 효율성을 높입니다.

희소 표현

#language
#fundamentals

희소 지형지물에 0이 아닌 요소의 위치만 저장합니다.

예를 들어 species라는 범주형 특성이 볼 수 있습니다. 또한 각 example은 단일 종만 식별합니다.

원-핫 벡터를 사용하여 각 예에서 수종을 나타낼 수 있습니다. 원-핫 벡터에는 단일 1( 35개의 0 (해당 예의 특정 수종) 이 예에서는 없는 수종 35종). 즉, 원-핫 표현은 maple의 상태는 다음과 같을 수 있습니다.

위치 0에서 23까지의 값이 0, position을 보유하는 벡터입니다.
          24에는 값 1이 있고, 위치 25~35에는 값 0이 있습니다.

반면에 희소 표현은 단순히 주어진 요소의 위치를 식별합니다. 찾을 수 있습니다. maple이 위치 24에 있으면 희소 표현입니다. maple의 관계는 다음과 같습니다.

24

희소 표현은 원-핫보다 훨씬 간결하다는 것을 알 수 있습니다. 나타냅니다.

희소 벡터

#fundamentals

값이 대부분 0인 벡터입니다. 희소성도 참조하세요. 특성희소성을 모두 고려합니다.

희소성

벡터 또는 행렬에서 0 또는 null로 나눈 요소의 수입니다. 해당 벡터 또는 행렬의 총 항목 수로 나눈 값입니다. 예를 들어 98개의 셀에 0이 포함된 100개의 요소가 포함된 행렬을 생각해 보세요. 이 희소성은 다음과 같습니다.

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

특성 희소성은 특성 벡터의 희소성을 의미합니다. 모델 희소성은 모델 가중치의 희소성을 의미합니다.

공간 풀링

#image

풀링을 참조하세요.

분할

#df

결정 트리에서는 condition 상태

스플리터

#df

결정 트리를 학습시키는 동안 루틴은 가장 적합한 모델을 찾는 데 있어 각 노드조건입니다.

SPMD

단일 프로그램 / 다중 데이터의 약어입니다.

제곱 힌지 손실

힌지 손실의 제곱입니다. 제곱 힌지 손실이 페널티를 줌 더 심하게 이상치를 발생시킵니다.

제곱 손실

#fundamentals

L2 손실의 동의어입니다.

단계적 학습

#language

불연속 단계의 시퀀스로 모델을 학습시키는 전략입니다. 목표는 즉, 학습 프로세스 속도를 높이거나 모델 품질을 향상시키는 데 사용할 수 있습니다

다음은 점진적 스태킹 접근 방식을 보여주는 그림입니다.

  • 1단계에는 3개의 히든 레이어가 있고, 2단계에는 6개의 히든 레이어가 있습니다. 3단계에는 12개의 히든 레이어가 있습니다.
  • 2단계에서는 3개의 히든 레이어에서 학습된 가중치로 학습을 시작 구현해 보겠습니다. 3단계에서는 6단계에서 학습한 가중치로 학습을 시작합니다. 2단계의 히든 레이어로 구성됩니다.

1단계, 2단계, 3단계라는 3가지 단계가 있습니다.
          각 단계에는 서로 다른 수의 레이어가 있습니다. 1단계에는
          2단계에는 6개의 레이어가, 3단계에는 12개의 레이어가 있습니다.
          1단계의 3개 레이어가 2단계의 처음 3개 레이어가 됩니다.
          마찬가지로 2단계의 6개 레이어가 데이터 분석의 처음 6개 레이어가 됩니다.
          3단계.

파이프라이닝도 참고하세요.

#rl

강화 학습에서 현재 입력 문장을 설명하는 매개변수 값은 환경의 구성으로, 에이전트작업을 선택합니다.

상태 작업 값 함수

#rl

Q-함수의 동의어입니다.

정적

#fundamentals

지속이 아닌 한 번만 수행하는 작업 용어 정적오프라인은 동의어입니다. 다음은 머신에서 정적오프라인의 일반적인 용도입니다. 학습:

  • 정적 모델 (또는 오프라인 모델)은 한 번 학습된 모델입니다. 한동안 사용되었습니다.
  • 정적 학습 (또는 오프라인 학습)은 정적 모델입니다.
  • 정적 추론 (또는 오프라인 추론)은 모델이 한 번에 일괄 예측을 생성하는 프로세스입니다.

동적과 대비되는 개념입니다.

정적 추론

#fundamentals

오프라인 추론의 동의어입니다.

정상성

#fundamentals

하나 이상의 측정기준(일반적으로 시간)에서 값이 변경되지 않는 특성입니다. 예를 들어 2021년에 값이 거의 같은 특성과 2023년 전시관이 정상성입니다.

실제로 정상성을 나타내는 기능은 거의 없습니다. 짝수 지형지물 시간의 경과에 따른 안정성 (해수면 등) 변화와 동의어입니다.

비고정성과 대비되는 개념입니다.

단계

한 개의 배치에 대한 정방향 전달 및 역방향 전달입니다.

자세한 내용은 역전파를 참고하세요. 정방향 전달과 역방향 전달에서 사용됩니다.

보폭

학습률의 동의어입니다.

확률적 경사하강법 (SGD)

#fundamentals

경사하강법 알고리즘으로, 경사하강법은 batch size는 1입니다. 다시 말해 SGD는 균일하게 선택된 단일 예를 학습 세트에서 무작위로 선택합니다.

보폭

#image

컨볼루셔널 연산 또는 풀링에서 각 차원의 델타는 입력 슬라이스의 한 유형입니다. 예를 들어 다음 애니메이션은 는 컨볼루셔널 연산 도중 (1,1) 스트라이드를 보여줍니다. 따라서 다음 입력 슬라이스는 이전 입력의 오른쪽 한 위치에서 시작 슬라이스 연산이 오른쪽 가장자리에 도달하면 다음 슬라이스가 한 포지션 아래로 이동하도록 해 보겠습니다.

입력 5x5 행렬과 3x3 컨볼루셔널 필터 왜냐하면
     스트라이드가 (1,1)이면 컨볼루셔널 필터가 9번 적용됩니다. 첫 번째
     컨볼루셔널 슬라이스는 입력의 왼쪽 상단 3x3 하위 행렬을 평가합니다.
     행렬입니다. 두 번째 슬라이스는 상단 중간 3x3을 평가합니다.
     하위 행렬입니다. 세 번째 컨볼루셔널 슬라이스는 오른쪽 상단 3x3을 평가합니다.
     하위 행렬입니다.  네 번째 슬라이스는 왼쪽 중간 행렬인 3x3 하위 행렬을 평가합니다.
     다섯 번째 슬라이스에서는 중간 3x3 하위 행렬을 평가합니다. 여섯 번째 슬라이스
     중간-오른쪽 3x3 하위 행렬을 평가합니다. 일곱 번째 슬라이스는
     왼쪽 하단 3x3 하위 행렬입니다.  여덟 번째 슬라이스는
     하단 중간 3x3 하위 행렬입니다. 아홉 번째 슬라이스는 오른쪽 하단 3x3을 평가합니다.
     하위 행렬입니다.

앞의 예는 2차원 스트라이드를 보여줍니다. 입력 값이 행렬은 3차원이라면 스트라이드도 3차원이 됩니다.

구조적 위험 최소화 (SRM)

두 목표의 균형을 맞추는 알고리즘:

  • 예측 가능성이 가장 높은 모델을 빌드해야 함 (예: 손실 최소화)
  • 모델을 최대한 단순하게 유지해야 하는 경우 (예: 정규화)

예를 들어, 데이터 포인트에서 손실을 최소화하고 정규화를 구조적 위험 최소화 알고리즘입니다.

경험적 위험 최소화와 대비되는 개념입니다.

서브 샘플링

#image

풀링을 참조하세요.

하위 단어 토큰

#language

언어 모델에서 토큰 단어의 하위 문자열이며 전체 단어일 수 있습니다.

예를 들어 'itemize'와 같은 단어는 '항목'이라는 단어의 조각으로 (어근) 및 'ize' (접미사)로, 각 접미어는 토큰입니다. 일반적이지 않은 단어를 하위 단어라고 하는 이러한 조각으로 나누면 단어의 더 일반적인 구성 부분에서 작동하기 위해 접두사 및 접미어를 예로 들 수 있습니다

반대로 '가는'와 같은 일반적인 단어는 분할되지 않을 수도 있고 단일 토큰으로 표현됩니다.

요약

#TensorFlow

TensorFlow에서는 특정 시간에 계산된 값 또는 값 집합을 step: 일반적으로 학습 중에 모델 측정항목을 추적하는 데 사용됩니다.

지도 머신러닝

#fundamentals

특성과 특성에서 모델을 학습시킵니다. 해당하는 라벨입니다. 지도 머신러닝은 일련의 질문을 공부하여 과목을 학습하고 표시됩니다. 질문과 답변 사이의 매핑을 마스터한 후 학생은 이전에 본 적 없는 새로운 질문에 대한 답변을 제공할 수 있습니다. 동일한 주제의 질문이 있습니다.

비교 대상 비지도 머신러닝입니다.

합성 특성

#fundamentals

입력 특성 중에는 없는 특성이지만 그것들 중 하나 이상으로 조립되었습니다. 합성 특성을 만드는 메서드 다음이 포함됩니다.

  • 연속 특성을 범위 빈으로 버케팅합니다.
  • 특성 교차를 생성합니다.
  • 하나의 특성 값에 다른 특성 값을 곱하거나 나누기 또는 자체로 수행됩니다. 예를 들어 ab가 입력 특성인 경우 다음은 합성 특성의 예입니다. <ph type="x-smartling-placeholder">
      </ph>
    • ab
    • a2
  • 특성 값에 초월 함수 적용 예를 들어 c 입력 특성인 경우 다음은 합성 특성의 예입니다. <ph type="x-smartling-placeholder">
      </ph>
    • sin(c)
    • ln(c)

정규화 또는 확장으로 생성된 특성 합성 특성으로 간주되지 않습니다.

T

T5

#language

텍스트 간 전이 학습 모델 도입 2020년 Google AI. T5는 인코더-디코더-디코더 모델로, 초대형 대규모 데이터 세트에서 학습된 Transformer 아키텍처 데이터 세트로 그룹화됩니다. 다양한 자연어 처리 태스크에 효과적이므로 텍스트 생성, 언어 번역, 질문에 답하기 등의 작업은 대화하는 방식으로 이루어집니다.

T5는 '텍스트 간 전송 Transformer'의 5가지 T에서 이름을 따왔습니다.

T5X

#language

이를 위해 설계된 머신러닝 오픈소스 프레임워크 대규모 자연어 처리를 빌드하고 학습하는 데 모델을 학습시키는 작업도 반복해야 합니다 T5는 T5X 코드베이스( JAXFlax에서 빌드됩니다.

테이블 형식 Q-러닝

#rl

강화 학습에서는 Q-learning: 테이블을 사용해 모든 조합에 대한 Q-함수 상태액션을 전달합니다.

target

라벨의 동의어입니다.

타겟 네트워크

#rl

딥 Q-러닝에서는 기본 신경망의 근사치입니다. 기본 신경망은 Q-function 또는 정책을 구현합니다. 그런 다음 타겟이 예측한 Q-값으로 메인 네트워크를 학습시킬 수 있습니다. 네트워크에 속합니다. 따라서 기본 스레드가 실행될 때 발생하는 피드백 루프를 학습한다는 것입니다. 이러한 피드백을 피함으로써 학습 안정성이 향상됩니다

태스크

다음과 같은 머신러닝 기법을 사용하여 해결할 수 있는 문제입니다.

기온

#language
#image
#generativeAI

무작위성의 수준을 제어하는 초매개변수 출력됩니다. 온도가 높을수록 출력이 더 무작위이고 온도가 낮을수록 무작위 출력이 줄어듭니다.

최적의 온도를 선택하는 것은 특정 용도와 사용 방법에 따라 선호되는 속성을 정의합니다. 예를 들어 애플리케이션 개발 단계에서 CPU 사용률이 창의적인 결과물을 생성합니다. 반대로 온도가 낮아지면 성능을 개선하기 위해 이미지나 텍스트를 분류하는 모델을 빌드할 때 모델의 정확성과 일관성이 유지되어야 합니다.

온도는 소프트맥스와 함께 자주 사용됩니다.

시간적 데이터

서로 다른 시점에 기록된 데이터 예: 겨울 코트 판매 시간 데이터일 것입니다.

텐서

#TensorFlow

TensorFlow 프로그램의 기본 데이터 구조 N차원인 텐서 (여기서 N은 매우 클 수 있음) 데이터 구조, 가장 일반적으로 스칼라, 벡터, 행렬입니다. 텐서의 요소는 정수, 부동 소수점, 또는 문자열 값일 수 있습니다.

텐서보드

#TensorFlow

하나 이상의 더 많은 TensorFlow 프로그램을 사용할 수 있습니다.

TensorFlow

#TensorFlow

대규모 분산형 머신러닝 플랫폼입니다. 또한 용어는 일반 계산을 지원하는 TensorFlow 스택의 기본 API 레이어 데이터 흐름 그래프에서 볼 수 있습니다

TensorFlow는 주로 머신러닝에 사용되지만 다음을 사용하여 수치 연산이 필요한 비ML 작업용 TensorFlow 데이터 흐름 그래프입니다

TensorFlow Playground

#TensorFlow

다양한 제품과 서비스를 초매개변수가 모델에 영향을 미침 학습에 사용할 수 있습니다. 이동 <ph type="x-smartling-placeholder"></ph> http://playground.tensorflow.org TensorFlow Playground를 실험해 보세요.

TensorFlow Serving

#TensorFlow

학습된 모델을 프로덕션 환경에 배포하는 플랫폼입니다.

Tensor Processing Unit(TPU)

#TensorFlow
#GoogleCloud

애플리케이션 전용 집적회로 (Application-Specific Integrated Circuit)는 머신러닝 워크로드 성능을 최적화할 수 있습니다 이러한 ASIC는 TPU 기기에 있는 여러 개의 TPU 칩.

텐서 순위

#TensorFlow

순위 (텐서)를 참조하세요.

텐서 형태

#TensorFlow

다양한 차원에서 Tensor에 포함된 요소의 수입니다. 예를 들어 [5, 10] 텐서의 형태는 1차원이 5이고 도형이 10입니다. 사용할 수 있습니다.

텐서 크기

#TensorFlow

Tensor가 포함하는 스칼라의 총 개수입니다. 예를 들어 [5, 10] 텐서의 크기는 50입니다.

TensorStore

효율적으로 읽고 효율적으로 읽고 작업할 수 있는 라이브러리 큰 다차원 배열을 쓰는 데 도움이 되셨기를 바랍니다

종료 조건

#rl

강화 학습에서 상담사가 에피소드가 끝나는 시점을 결정합니다. 특정 상태 전환 임계값 수를 초과하는 경우 예를 들어 tic-tac-toe에서 누트 및 크로스라고 함) 플레이어가 마크를 클릭하면 에피소드가 종료됩니다. 세 개의 공백 또는 모든 공백이 표시되어 있을 때 발생합니다.

테스트

#df

결정 트리에서는 condition 상태

테스트 손실

#fundamentals

모델의 손실을 나타내는 측정항목 테스트 세트 모델을 빌드할 때 테스트 손실을 최소화하려고 합니다 낮은 테스트 손실은 낮은 학습 손실보다 더 강한 품질 신호 또는 낮은 유효성 검사 손실입니다.

경우에 따라 테스트 손실과 학습 손실 또는 검증 손실 사이에 큰 격차가 있음 더 낮은 타겟 CPM의 값을 정규화율.

테스트 세트

테스트를 위해 예약된 데이터 세트의 하위 집합입니다. 학습된 모델.

일반적으로 데이터 세트의 예를 다음 세 가지로 나눕니다. 구분되는 하위 집합:

데이터 세트의 각 예는 앞의 하위 집합 중 하나에만 속해야 합니다. 예를 들어, 하나의 예시가 학습 세트와 학습 세트에 모두 속해서는 안 됩니다. 테스트 세트에 적용할 수 있습니다.

학습 세트와 검증 세트는 모두 모델 학습과 밀접한 관련이 있습니다. 테스트 세트는 학습과 간접적으로만 연결되기 때문에 테스트 손실은 다른 테스트 손실보다 학습 손실 또는 검증 손실입니다.

텍스트 범위

#language

텍스트 문자열의 특정 하위 섹션과 연관된 배열 색인 스팬입니다. 예를 들어 Python 문자열 s="Be good now"good 단어가 3~6 사이의 텍스트를 사용합니다.

tf.Example

#TensorFlow

표준 <ph type="x-smartling-placeholder"></ph> 프로토콜 버퍼 - 머신러닝 모델 학습 또는 추론을 위한 입력 데이터 설명

tf.keras

#TensorFlow

Google Cloud에 통합된 KerasTensorFlow

임곗값 (결정 트리용)

#df

축 정렬 조건에서 기능을 비교하는 중입니다. 예를 들어 75는 다음 조건에서 임계값에 도달할 수 있습니다.

grade >= 75
<ph type="x-smartling-placeholder">

시계열 분석

#clustering

머신러닝 및 통계 분야의 하위 분야는 시간적 데이터. 다양한 유형의 머신러닝 문제 해결에는 분류, 클러스터링, 예측, 이상 감지에 사용됩니다 예를 들어 월간 겨울 코트의 향후 판매를 예측하는 시계열 분석 이전 판매 데이터에 기반합니다.

타임스텝

#seq

'언롤된' 항목 1개 한 셀 안에 순환 신경망(RNN)입니다. 예를 들어 다음 그림은 아래 첨자 t-1, t, t+1):

순환 신경망의 세 단계 디코더의 출력은
          첫 번째 타임스텝이 두 번째 타임스텝의 입력이 됩니다. 출력
          가 세 번째 타임스텝에 입력됩니다.

토큰

#language

언어 모델에서 모델이 나타내는 원자 단위 예측을 수행하는 방법을 알아봅니다 토큰은 일반적으로 있습니다.

  • 단어(예: '개 같은 고양이)' 세 단어로 구성됨 토큰: 'dogs', 'like', 'cats'입니다.
  • 문자(예: '자전거 물고기' 문구) 9개의 합니다. 공백은 토큰 중 하나로 계산됩니다.
  • 하위 단어입니다. 여기서 한 단어는 단일 토큰 또는 여러 토큰이 될 수 있습니다. 하위 단어는 어근, 접두사 또는 접미어로 구성됩니다. 예를 들어 하위 단어를 토큰으로 사용하는 언어 모델은 'dogs'라는 단어를 두 개의 토큰 (근 단어 'dog' 및 복수형 접미사 's')으로 표현됩니다. 같은 거 '더 큰'이라는 단일 단어를 두 개의 하위 단어( 루트 단어 'tall' 뒤에 접미사 'er')를 입력합니다.

언어 모델 외부의 도메인에서 토큰은 분자 단위로 나눌 수 있습니다 예를 들어 컴퓨터 비전에서 토큰은 예로 들 수 있습니다

다음과 같은 심층신경망의 구성요소입니다. 심층신경망입니다. 어떤 경우, 각 탑은 타워가 완전히 독립되어 있고, 타워는 출력은 최종 레이어에서 결합됩니다. 다른 경우에는(예: 상위 계층의 인코더디코더 타워는 많은 트랜스포머), 타워는 제공할 수 있습니다.

TPU

#TensorFlow
#GoogleCloud

Tensor Processing Unit의 약어입니다.

TPU 칩

#TensorFlow
#GoogleCloud

온칩 고대역폭 메모리를 갖춘 프로그래밍 가능한 선형 대수학 가속기 머신러닝 워크로드에 맞게 최적화되어 있습니다 여러 TPU 칩이 TPU 기기에 배포됩니다.

TPU 기기

#TensorFlow
#GoogleCloud

TPU 칩이 여러 개 포함된 인쇄 회로 기판 (PCB) 높은 대역폭 네트워크 인터페이스 및 시스템 냉각 하드웨어가 포함됩니다.

TPU 마스터

#TensorFlow
#GoogleCloud

호스트 머신에서 실행 중인 중앙 조정 프로세스는 데이터, 결과, 프로그램, 성능 및 시스템 상태 정보 수신 TPU 작업자로 전달됩니다. 또한 TPU 마스터는 및 TPU 기기 종료.

TPU 노드

#TensorFlow
#GoogleCloud

Google Cloud의 TPU 리소스이며 TPU 유형. TPU 노드는 VPC 네트워크 피어 VPC 네트워크. TPU 노드는 Cloud TPU API

TPU Pod

#TensorFlow
#GoogleCloud

Google Cloud 서비스의 TPU 기기 구성에는 데이터 센터 TPU Pod의 모든 기기는 서로 연결됨 전용 고속 네트워크를 통해 통신할 수 있습니다 TPU 포드는 CPU와 GPU를 갖춘 특정 TPU 버전에 사용할 수 있는 TPU 기기

TPU 리소스

#TensorFlow
#GoogleCloud

사용자가 만들거나 관리하거나 사용하는 Google Cloud의 TPU 항목입니다. 대상 예를 들어 TPU 노드TPU 유형은 다음과 같습니다. TPU 리소스입니다.

TPU 슬라이스

#TensorFlow
#GoogleCloud

TPU 슬라이스는 CPU 및 GPU와 같은 TPU 기기TPU Pod. TPU 슬라이스의 모든 기기가 연결됨 전용 고속 네트워크를 통해 서로 통신합니다

TPU 유형

#TensorFlow
#GoogleCloud

하나 이상의 TPU 기기 구성 TPU 하드웨어 버전 만들 때 TPU 유형을 선택합니다. Google Cloud의 TPU 노드. 예: v2-8 TPU 유형은 코어가 8개 있는 단일 TPU v2 기기입니다. v3-2048 TPU 유형에는 256 네트워크로 연결된 TPU v3 기기와 총 2,048개의 코어를 기반으로 했습니다. TPU 유형은 에 정의된 Cloud TPU API

TPU 워커

#TensorFlow
#GoogleCloud

호스트 머신에서 실행되며 머신러닝 프로그램을 실행하는 프로세스 TPU 기기에 사용 가능

학습

#fundamentals

이상적인 매개변수 (가중치 및 편향)을 모델으로 구성해 보세요. 학습 중에 시스템은 예시와 점진적으로 매개변수를 조정합니다. 학습에서는 몇 번에서 수십억 회에 이르기도 합니다.

학습 손실

#fundamentals

일정 기간 동안 모델의 손실을 나타내는 측정항목 특정 학습 반복을 예로 들 수 있습니다 예를 들어 손실 함수가 평균 제곱 오차입니다. 아마도 학습 손실 (평균 이때의 학습 손실은 10번째 반복에서 2.2이고 100번째 반복은 1.9입니다.

손실 곡선은 손실과 학습 손실의 수를 비교하여 표시합니다. 있습니다. 손실 곡선은 학습에 대해 다음과 같은 힌트를 제공합니다.

  • 하향 경사는 모델이 개선되고 있음을 의미합니다.
  • 위쪽 경사는 모델이 점점 더 나빠지고 있음을 의미합니다.
  • 기울기가 평평한 경우 모델이 수렴.

예를 들어 다음과 같이 다소 이상화된 손실 곡선은 표시:

  • 초기 반복 중 가파른 하향 경사로, 이는 다음을 의미합니다. 모델을 신속하게 개선할 수 있습니다.
  • 끝부분에 가까워질 때까지 점진적으로 평탄해지는 (그러나 계속 하향) 경사 이는 모델이 100%의 학습률로 계속 개선되고 있음을 의미합니다. 속도가 느리다는 것을 의미합니다
  • 학습이 종료될 때의 평평한 경사로, 수렴을 나타냅니다.

학습 손실 대 반복 플롯 이 손실 곡선은
     경사가 가파른 하산합니다. 기울기가 점진적으로 평평해지면
     기울기가 0이 됩니다.

학습 손실이 중요하지만 일반화.

학습-제공 편향

#fundamentals

일정 기간 동안 모델 성능 간의 학습과 동일한 모델의 성능을 게재.

학습 세트

#fundamentals

모델 학습에 사용되는 데이터 세트의 하위 집합입니다.

일반적으로 데이터 세트의 예는 다음 세 가지로 나뉩니다. 구분되는 하위 집합:

이상적으로 데이터 세트의 각 예는 다음 중 하나에만 속해야 합니다. 선행 하위 집합을 학습합니다. 예를 들어 하나의 예시가 학습 세트와 검증 세트에 모두 적용할 수 있습니다.

궤적

#rl

강화 학습에서는 튜플에이전트상태 전환 시퀀스 여기서 각 튜플은 action 상태에 해당합니다. 보상, 특정 상태 전환의 다음 상태입니다.

전이 학습

한 머신러닝 태스크에서 다른 태스크로 정보를 전송합니다. 예를 들어 멀티태스크 학습에서는 단일 모델이 여러 태스크를 해결하지만 (예: 심층 모델)은 모델에 대한 여러 출력 노드를 실행할 수 있습니다 전이 학습에는 지식 전달이 포함될 수 있음 또는 더 복잡한 작업으로 전환하는 데 도움이 되는 더 많은 데이터가 있는 작업에서 지식을 사용하는 작업으로 데이터가 적기 때문입니다.

대부분의 머신러닝 시스템은 단일 작업을 해결합니다. 전이 학습은 하나의 프로그램으로 해결할 수 있는 문제를 여러 태스크가 가능합니다.

Transformer

#language

Google에서 개발한 신경망 아키텍처는 셀프 어텐션 메커니즘을 통해 일련의 입력 임베딩 시퀀스를 출력 시퀀스에 컨볼루션 또는 순환 신경망(RNN). Transformer는 셀프 어텐션 계층의 스택으로 볼 수 있습니다

Transformer에는 다음 중 하나가 포함될 수 있습니다.

인코더는 임베딩 시퀀스를 새로운 시퀀스로 변환합니다. 같은 길이여야 합니다. 인코더에는 동일한 레이어 N개가 있으며, 각 레이어에는 살펴보겠습니다 이 두 개의 하위 레이어가 입력의 각 위치에 적용됩니다. 임베딩 시퀀스를 사용해 시퀀스의 각 요소를 새로운 있습니다. 첫 번째 인코더 하위 레이어는 입력 시퀀스입니다. 두 번째 인코더 하위 레이어는 출력 임베딩으로 변환할 수 있습니다.

디코더는 입력 임베딩 시퀀스를 시퀀스의 시퀀스로 변환합니다. 출력 임베딩에 대해 학습합니다. 또한 디코더는 3개의 하위 레이어가 있는 N개의 동일한 레이어. 그 중 2개는 인코더 하위 레이어가 있습니다. 세 번째 디코더 하위 레이어는 인코더를 빌드하고 셀프 어텐션 메커니즘을 거기서 정보를 수집할 수 있습니다.

Transformer: 언어를 위한 새로운 신경망 아키텍처 이해 Transformer를 소개하겠습니다

병진 불변

#image

이미지 분류 문제에서 성공적으로 수행하는 알고리즘의 능력은 이미지에서 객체의 위치가 바뀌더라도 이미지를 분류할 수 있습니다. 예를 들어, 알고리즘은 개가 중앙 또는 프레임의 왼쪽 끝에 놓입니다.

크기 불변회전 불변을 참조하세요.

트라이그램

#seq
#language

N=3인 N-그램입니다.

참음성 (TN)

#fundamentals

모델이 올바르게 예측한 네거티브 클래스에 속합니다. 예를 들어 모델은 특정 이메일 메시지가 스팸이 아니며 해당 이메일 메시지가 실제로 스팸인 경우 스팸 아님:

참양성 (TP)

#fundamentals

모델이 올바르게 예측한 포지티브 클래스 예를 들어 모델은 스팸인 경우를 생각해 볼 수 있습니다.

참양성률 (TPR)

#fundamentals

재현율의 동의어입니다. 이는 다음과 같은 의미입니다.

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

참양성률은 ROC 곡선의 y축입니다.

U

인지하지 못함 (민감한 속성)

#fairness

민감한 속성은 학습 데이터에는 포함되지 않습니다. 민감한 속성은 데이터의 다른 속성과 상관관계가 있는 경우가 많음 민감한 속성을 인식하지 못하는 경우 해당 속성과 관련하여 상이한 영향을 미칩니다. 기타 공정성 제약을 위반하는 행위

과소적합

#fundamentals

예측 능력이 떨어지는 모델 생성은 모델이 학습 데이터의 복잡성을 완전히 포착하지 못한 경우입니다. 문제 많음 다음과 같은 과소적합이 발생할 수 있습니다.

언더샘플링

다음에서 예시를 삭제하면 업계의 주요 집단 클래스 불균형 데이터 세트를 사용해 보다 균형 잡힌 학습 세트를 만듭니다.

예를 들어 대다수 클래스 대비 대다수 클래스의 비율이 다수 범주는 20:1입니다. 이 학급을 극복하기 위해 불균형이 있으면 소수를 모두 포함하는 학습 세트를 만들 수 있습니다. 클래스 예제이지만 대부분의 클래스 예제 중 10분의 1에 불과하므로 2:1의 학습 세트 클래스 비율을 생성해야 합니다 언더샘플링 덕분에 이 정도는 더 나은 모델을 생성할 수 있습니다 또는 이 균형이 잡힌 학습 세트에는 학습을 위한 예시가 충분하지 않을 수 있습니다. 모델입니다.

오버샘플링과 대비되는 개념입니다.

단방향

#language

대상 텍스트 섹션 앞에 오는 텍스트만 평가하는 시스템입니다. 반면에 양방향 시스템은 텍스트의 대상 섹션 에 오는 텍스트 자세한 내용은 양방향을 참고하세요.

단방향 언어 모델

#language

특정 단어에 대한 확률만을 기반으로 하는 언어 모델 tokens는 대상 토큰 가 아닌 에 표시됩니다. 양방향 언어 모델과 대비되는 개념입니다.

라벨이 없는 예

#fundamentals

특성은 포함하고 라벨은 포함하지 않는 예입니다. 예를 들어 다음 표에는 라벨이 지정되지 않은 주택의 세 가지 예시가 나와 있습니다. 3가지 특징이 있지만 주택 가치는 없음:

침실 수 욕실 수 연식
3 2 15
2 1 72
4 2 34

지도 머신러닝에서는 모델은 라벨이 있는 예를 학습하고 라벨이 없는 예.

준지도비지도 학습 라벨이 없는 예가 학습에 사용됩니다.

라벨이 없는 예를 라벨이 있는 예와 대조하세요.

비지도 머신러닝

#clustering
#fundamentals

데이터 세트에서 패턴을 찾도록 모델을 학습시킵니다. 일반적으로 라벨이 지정되지 않은 데이터 세트입니다.

비지도 머신러닝의 가장 일반적인 용도는 클러스터 데이터 그룹화할 수 있습니다. 예를 들어 비지도 머신은 다양한 속성을 기반으로 곡을 클러스터링할 수 있는 학습 알고리즘 있습니다. 결과 클러스터는 다른 머신에 대한 입력이 될 수 있음 음악 추천 서비스 등을 예로 들 수 있습니다. 클러스터링은 유용한 라벨이 없거나 없을 때 도움이 될 수 있습니다. 예를 들어 악용 및 사기 방지와 같은 영역에서 클러스터가 인간이 데이터를 더 잘 이해할 수 있게 되었습니다.

지도 머신러닝과 대비되는 개념입니다.

상승 모델링

마케팅에서 일반적으로 사용되는 모델링 기법은 '인과적 효과' '증분 효과'라고도 하며 '처리' '개인' 카테고리입니다. 다음은 두 가지 예입니다.

  • 의사는 증가 모델링을 사용하여 사망률 감소를 예측할 수 있음 (인과적 영향)을 의미하지는 않습니다. 환자 (개인)의 연령 및 의료 기록
  • 마케팅 담당자는 증가 모델링을 사용하여 광고로 인한 구매 확률 (인과적 영향) 치료).

상승 폭 모델링은 분류와는 다릅니다. 회귀로 분류하여 증가 모델링에서 항상 누락되는 경우가 많습니다. 예를 들어, 환자는 치료를 받거나 받지 않을 수 있습니다. 따라서 환자가 치유될지 아니면 환자가 회복할지 여부만 둘 다 해결되지는 않습니다. 증가 모델의 주요 이점은 예측을 생성할 수 있다는 것입니다. 이를 반사실적 조건으로 변환하고 이를 사용하여 인과 효과를 나타냅니다.

가중치 보정

다운샘플링된 클래스에 가중치를 적용하면 다운샘플링한 배율로 변경합니다.

사용자 매트릭스

#recsystems

추천 시스템에서는 다음과 같은 방식으로 생성된 임베딩 벡터 행렬 분해 사용자 선호에 대한 잠재 신호가 있습니다. 사용자행렬의 각 행에는 상대 행렬에 대한 정보가 강도를 나타냅니다. 영화 추천 시스템을 예로 들어보겠습니다. 이 시스템에서는 사용자 매트릭스의 잠재 신호가 각 사용자의 관심사를 나타낼 수 있습니다. 특정 장르의 특정 장르에 불과할 수 있으며, 게임과 관련된 복잡한 상호작용을 수행할 수 있습니다

사용자 행렬에는 각 잠재 특성에 대한 열과 각 사용자에 대한 행이 있습니다. 즉, 사용자행렬의 행 수는 타겟의 행과 동일합니다. 인수 분해되는 행렬입니다. 예를 들어, 어떤 영화가 1,000,000명의 사용자에게 추천 시스템을 사용자 매트릭스에는 1,000,000개의 행이 있습니다.

V

validation

#fundamentals

모델 품질의 초기 평가입니다. 검증은 모델의 예측 품질을 검증세트와 같습니다.

검증세트는 학습 세트와 다르기 때문에 검증은 과적합을 방지하는 데 도움이 됩니다.

검증세트를 기준으로 모델을 평가하는 것은 1차 테스트 및 6개월 예측을 통해 테스트 세트를 두 번째 테스트로 사용합니다.

검증 손실

#fundamentals

모델의 손실을 나타내는 측정항목 특정 기간에 검증 세트를 학습의 반복

일반화 곡선도 참고하세요.

검증 세트

#fundamentals

초기 데이터 세트를 수행하는 데이터 세트의 하위 집합 학습된 모델을 기준으로 평가합니다. 일반적으로 학습된 모델을 여러 검증 세트와 비교하여 테스트 세트를 기준으로 모델을 평가합니다.

일반적으로 데이터 세트의 예를 다음 세 가지로 나눕니다. 구분되는 하위 집합:

이상적으로 데이터 세트의 각 예는 다음 중 하나에만 속해야 합니다. 선행 하위 집합을 학습합니다. 예를 들어 하나의 예시가 학습 세트와 검증 세트에 모두 적용할 수 있습니다.

값 대치

누락된 값을 허용되는 대체 값으로 바꾸는 과정입니다. 값이 누락된 경우 전체 예시를 삭제하거나 값 대치를 사용하여 예시를 복구할 수 있습니다

예를 들어 다음과 같은 temperature 특성이 포함된 데이터 세트를 가정해 보겠습니다. 매시간 녹화되어야 합니다. 하지만 온도 측정값은 다음과 같았습니다 특정 시간에 사용할 수 없습니다. 다음은 데이터 세트의 섹션입니다.

타임스탬프 온도
1680561000 10
1680564600 12
1680568200 결측치
1680571800 20
1680575400 21
1680579000 21

시스템은 누락된 예를 삭제하거나 누락된 예를 귀속할 수 있습니다. 12, 16, 18 또는 20으로 설정할 수 있습니다.

경사 소실 문제

#seq

초기 히든 레이어의 경사 경향 몇 가지 심층신경망을 매우 평평합니다 (낮음). 경사가 점점 낮아질수록 심층신경망의 노드에서 가중치를 조금만 변경하면 학습이 전혀 또는 거의 없다는 것입니다 경사 소실 문제가 발생한 모델 학습이 어렵거나 불가능해지는 경우가 있습니다 장기 단기 메모리 셀에서 이 문제를 해결합니다.

폭발 경사 문제와 비교해 보세요.

변수 중요도

#df

각 항목의 상대적 중요도를 나타내는 점수 집합 특성을 모델에 추가합니다.

예를 들어 다음과 같은 결정 트리가 있다고 가정해 보겠습니다. 예상 주택 가격. 이 결정 트리가 세 가지 특성: 크기, 나이 및 스타일 변수 중요도 집합이 3개의 특성이 다음과 같이 계산됩니다. {size=5.8, age=2.5, style=4.7}인 경우 크기가 더 중요한 결정 트리를 살펴보겠습니다.

다양한 중요도 측정항목이 존재하여 모델의 다양한 측면에 대한 ML 전문가

변이 자동 인코더 (VAE)

#language

불일치를 활용하는 자동 인코더 유형 수정된 입력 버전을 생성합니다. 변분 자동 인코더는 생성형 AI에 유용합니다.

VAE는 변이 추론을 기반으로 합니다. 변이 추론은 매개변수입니다.

벡터

매우 중복되어 사용되는 용어로, 여러 수학적 용어에 따라 그 의미가 다릅니다. 매우 다양합니다. 머신러닝에서 벡터에는 두 가지 속성이 있습니다.

  • 데이터 유형: 머신러닝의 벡터는 일반적으로 부동 소수점 숫자를 포함합니다.
  • 요소 수: 벡터의 길이 또는 차원입니다.

예를 들어 8개의 특성이 있는 특성 벡터가 있다고 가정해 보겠습니다. 부동 소수점 숫자입니다. 이 특성 벡터의 길이 또는 차원은 8입니다. 머신러닝 벡터는 종종 엄청나게 많은 차원을 갖습니다.

다양한 종류의 정보를 벡터로 표현할 수 있습니다. 예를 들면 다음과 같습니다.

  • 지구 표면의 모든 위치를 2차원으로 표현할 수 있음 벡터입니다. 여기서 한 차원은 위도이고 다른 차원은 경도입니다.
  • 500개 주식의 현재 가격은 500차원 벡터입니다.
  • 유한한 수의 클래스에 대한 확률 분포를 표현할 수 있음 벡터로 표현됩니다. 예를 들어 멀티클래스 분류 시스템을 은 세 가지 출력 색상 (빨간색, 녹색, 노란색) 중 하나가 벡터 (0.3, 0.2, 0.5)P[red]=0.3, P[green]=0.2, P[yellow]=0.5를 의미합니다.

벡터를 연결할 수 있습니다. 다양한 매체를 통해 단일 벡터로 표현됩니다. 일부 모델은 많은 원-핫 인코딩의 조합입니다.

TPU와 같은 특수 프로세서는 해를 입혔습니다.

벡터는 rank 1인 텐서입니다.

W

Wasserstein 손실

손실 함수 중 하나는 생성적 적대 신경망(GAN)의 다음 2가지 행 사이의 이동자 거리를 기준으로 인코더-디코더 모델을 생성합니다.

무게

#fundamentals

모델이 다른 값과 곱하는 값입니다. 학습은 모델의 이상적인 가중치를 결정하는 프로세스입니다. 추론은 학습된 가중치를 사용해 예측하기.

Weighted Alternating Least Squares (WALS)

#recsystems

주어진 시간 동안 목적 함수를 최소화하는 알고리즘 행렬 분해추천 시스템을 통해 가중치를 낮추는 것이 좋습니다 WALS는 가중치가 적용된 원본 행렬과 재구성 사이의 제곱 오차를 행 분해와 열 분해 수정을 번갈아 가며 수정하게 됩니다. 이러한 각 최적화는 최소 제곱으로 해결할 수 있습니다. 볼록 최적화. 자세한 내용은 추천 시스템 과정

가중치가 적용된 합계

#fundamentals

모든 관련 입력 값의 합계에 해당하는 값을 곱한 값입니다. 학습합니다. 예를 들어 관련 입력이 다음과 같이 구성되어 있다고 가정해 보겠습니다.

입력 값 입력 가중치
2 -1.3점
-1 0.6
3 0.4

따라서 가중치가 적용된 합계는 다음과 같습니다.

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

가중치가 적용된 합계는 활성화 함수.

와이드 모델

일반적으로 선형 모델은 희소 입력 특성. 이를 '와이드', 이후 이러한 모델은 특별한 유형의 신경망으로, 출력 노드에 직접 연결되는 많은 수의 입력을 사용합니다. 와이드 모델 심층 모델보다 디버그 및 검사가 더 쉬운 경우가 많습니다. 와이드 모델은 비선형성을 히든 레이어를 통해 표현할 수 없는 경우 와이드 모델은 다음과 같은 변환을 사용할 수 있습니다. 특성 교차버킷화를 사용하여 비선형성을 다양한 방식으로 모델링할 수 있습니다.

심층 모델과 대비되는 개념입니다.

너비

특정 레이어뉴런신경망의 특성입니다.

군중의 지혜

#df

대규모 그룹의 의견이나 추정치를 평균화하는 개념 '군중'은 놀라울 정도로 좋은 결과를 낳는 경우가 많습니다. 예를 들어 사람들이 숫자와 숫자를 맞추는 게임에서 젤리빈을 커다란 병에 담은 것입니다. 대부분의 개인이 정확하지 않을 수 있으므로 모든 추측의 평균값은 놀랍게도 실제 기기 수에 근접한 것으로 항아리에 젤리빈을 넣습니다.

앙상블은 군중의 지혜를 보여주는 소프트웨어 아날로그입니다. 개별 모델이 매우 부정확한 예측을 하더라도 많은 모델의 예측을 평균화하면 놀라울 정도로 예측이 가능합니다. 예를 들어 개인이 결정 트리는 잘못된 예측을 할 수도 있고 결정 포레스트는 종종 매우 좋은 예측을 합니다.

단어 임베딩

#language

안에 설정된 단어의 각 단어를 대표하는 것은 임베딩 벡터 즉, 각 단어를 0.0~1.0 사이의 부동 소수점 값 벡터입니다. 유사한 단어 의미가 다른 단어보다 더 유사한 표현입니다. 예를 들어 당근, 셀러리, 오이는 모두 유사한 표현을 사용할 수 있는데, 이는 인코더-디코더 아키텍처를 사용한 비행기, 선글라스, 치약을 묻지 않아도 됩니다.

X

XLA (Accelerated Linear Algebra)

GPU, CPU, ML 가속기를 위한 오픈소스 머신러닝 컴파일러입니다.

XLA 컴파일러는 널리 사용되는 ML 프레임워크(예: PyTorch TensorFlow, JAX, 그리고 이를 최적화합니다 고성능 실행을 위해 다음과 같은 다양한 하드웨어 플랫폼에서 GPU, CPU, ML 가속기.

Z

제로샷 학습

머신러닝 학습의 일종으로, 모델은 작업에 대한 예측을 추론함 인코더-디코더 모델을 생성합니다. 즉, 모델은 작업별 학습 예시가 0개가 제공되지만 해당 작업에 대한 추론을 수행하는 것입니다.

제로샷 프롬프팅

#language
#generativeAI

원하는 방법의 예시를 제공하지 않는 프롬프트 대규모 언어 모델을 사용하여 응답합니다 예를 들면 다음과 같습니다.

프롬프트 구성 요소 참고
지정된 국가의 공식 통화는 무엇인가요? LLM이 답변할 질문입니다.
인도: 실제 쿼리입니다.

대규모 언어 모델은 다음과 같이 응답할 수 있습니다.

  • 루피 기호
  • INR
  • 인도 루피
  • 루피
  • 인도 루피

모든 답변이 정확하지만 특정 형식을 선호할 수도 있습니다.

제로샷 프롬프팅을 다음 용어와 비교 및 대조하세요.

Z-점수 정규화

#fundamentals

원시 데이터를 대체하는 조정 기술 feature 값을 해당 특성 평균으로부터의 표준 편차 수를 계산합니다. 예를 들어 평균이 800이고 표준이 0인 특성을 편차는 100입니다. 다음 표는 Z-점수 정규화를 보여줍니다. 다음과 같이 원시 값을 Z-점수에 매핑합니다.

원본 값 Z-점수
800 0
950 +1.5
575 -2.25

그런 다음 머신러닝 모델이 Z-점수를 학습합니다. 해당 특성에 대한 예측을 적극적으로 실행할 수 있습니다