이 페이지에는 이미지 모델 용어집 용어가 포함되어 있습니다. 모든 용어집 용어는 여기를 클릭하세요.
A
증강 현실
컴퓨터 생성 이미지를 사용자의 실제 환경 뷰에 겹쳐 합성 뷰를 제공하는 기술입니다.
autoencoder
입력에서 가장 중요한 정보를 추출하는 방법을 학습하는 시스템입니다. 오토인코더는 인코더와 디코더의 조합입니다. 자동 인코더는 다음과 같은 두 단계 프로세스를 사용합니다.
- 인코더는 입력을 일반적으로 손실이 있는 더 낮은 차원의 (중간) 형식으로 매핑합니다.
- 디코더는 낮은 차원 형식을 원래의 더 높은 차원 입력 형식에 매핑하여 원래 입력의 손실이 있는 버전을 빌드합니다.
자동 인코더는 디코더가 인코더의 중간 형식에서 원래 입력을 최대한 근접하게 재구성하도록 하여 엔드 투 엔드로 학습됩니다. 중간 형식은 원본 형식보다 작으므로(차원이 낮음) 자동 인코더는 입력의 어떤 정보가 필수적인지 학습해야 하며 출력은 입력과 완전히 동일하지 않습니다.
예를 들면 다음과 같습니다.
- 입력 데이터가 그래픽인 경우 정확하지 않은 사본은 원본 그래픽과 유사하지만 약간 수정된 것입니다. 정확하지 않은 사본이 원본 그래픽에서 노이즈를 제거하거나 누락된 일부 픽셀을 채울 수 있습니다.
- 입력 데이터가 텍스트인 경우 자동 인코더는 원래 텍스트를 모방하지만 동일하지는 않은 새 텍스트를 생성합니다.
변분 오토인코더도 참고하세요.
자동 회귀 모델
이전 예측을 기반으로 예측을 추론하는 모델입니다. 예를 들어 자동 회귀 언어 모델은 이전에 예측된 토큰을 기반으로 다음 토큰을 예측합니다. 모든 Transformer 기반 대규모 언어 모델은 자기 회귀입니다.
반면 GAN 기반 이미지 모델은 단계별로 반복적으로 이미지를 생성하는 것이 아니라 단일 전방 패스에서 이미지를 생성하므로 일반적으로 자기 회귀가 아닙니다. 그러나 특정 이미지 생성 모델은 단계적으로 이미지를 생성하므로 자동 회귀 입니다.
B
경계 상자
이미지에서 관심 영역(예: 아래 이미지의 강아지)을 둘러싼 직사각형의 (x, y) 좌표입니다.
C
컨볼루션
수학에서 두 함수를 혼합한 것을 가리킵니다. 머신러닝에서 컨볼루션은 가중치를 학습시키기 위해 컨볼루션 필터와 입력 행렬을 혼합합니다.
머신러닝에서 '컨볼루션'이라는 용어는 컨볼루션 연산 또는 컨볼루션 레이어를 지칭하는 축약된 표현으로 사용되는 경우가 많습니다.
컨볼루션이 없으면 머신러닝 알고리즘이 큰 텐서의 모든 셀에 있어서 별도의 가중치를 학습해야 합니다. 예를 들어 2K x 2K 이미지에서 머신러닝 알고리즘을 학습하면 4백만 개의 개별 가중치를 찾아야 합니다. 컨볼루션이 있기 때문에 머신러닝 알고리즘은 컨볼루션 필터에 있는 모든 셀의 가중치만 찾아도 되고, 이로 인해 모델 학습에 필요한 메모리가 크게 줄어듭니다. 컨볼루션 필터가 적용되면 각 필터가 필터로 곱해지도록 셀 전체에 복제됩니다.
자세한 내용은 이미지 분류 과정의 컨볼루션 신경망 소개를 참고하세요.
컨볼루션 필터
컨볼루션 연산에서 사용되는 두 가지 중 하나입니다. 다른 행위자는 입력 행렬의 슬라이스입니다. 컨볼루션 필터는 입력 행렬과 순위는 동일하지만 모양은 더 작은 행렬입니다. 예를 들어 28x28 입력 행렬이 주어지면 필터는 28x28보다 작은 2D 행렬이 될 수 있습니다.
사진 조작에서 컨볼루션 필터의 모든 셀은 일반적으로 1과 0의 상수 패턴으로 설정됩니다. 머신러닝에서 컨볼루션 필터는 일반적으로 랜덤 숫자로 시드된 후 네트워크가 이상적인 값을 학습합니다.
자세한 내용은 이미지 분류 과정의 컨볼루션을 참고하세요.
컨볼루션 레이어
심층신경망의 한 레이어로, 입력 행렬에 컨볼루션 필터를 적용합니다. 예를 들어 다음과 같은 3x3 컨볼루션 필터가 있다고 생각해 보세요.
다음 애니메이션은 5x5 입력 행렬과 관련된 9개의 컨볼루션 연산으로 구성된 컨볼루션 레이어를 보여줍니다. 각 컨볼루션 연산은 입력 행렬의 서로 다른 3x3 슬라이스에 작동합니다. 결과 3x3 행렬 (오른쪽)은 9개의 컨볼루션 연산의 결과로 구성됩니다.
자세한 내용은 이미지 분류 과정의 전체 연결 레이어를 참고하세요.
컨볼루셔널 신경망
적어도 하나의 레이어가 컨볼루셔널 레이어인 신경망입니다. 일반적인 컨볼루션 신경망은 다음 레이어의 조합으로 구성됩니다.
컨볼루션 신경망은 이미지 인식과 같은 특정 유형의 문제에서 큰 성공을 거두었습니다.
컨볼루션 연산
컨볼루션 연산은 다음과 같은 2단계 수학 연산입니다.
- 컨볼루션 필터 및 입력 행렬의 슬라이스 등 요소별 곱셈입니다. 입력 행렬의 슬라이스는 컨볼루션 필터와 순위 및 크기가 동일합니다.
- 곱셈의 결과로 얻어지는 행렬 내 모든 값의 합계입니다.
예를 들어 다음과 같은 5x5 입력 행렬을 고려해 보겠습니다.
이제 다음과 같은 2x2 컨볼루션 필터를 가정해 보겠습니다.
각 컨볼루션 연산에는 입력 행렬의 단일 2x2 슬라이스가 포함됩니다. 예를 들어 입력 행렬의 왼쪽 상단에 2x2 슬라이스를 사용한다고 가정해 보겠습니다. 따라서 이 슬라이스의 컨볼루션 연산은 다음과 같습니다.
컨볼루셔널 레이어는 일련의 컨볼루셔널 연산으로 이루어지며, 각 연산은 입력 행렬의 서로 다른 슬라이스에 적용됩니다.
D
데이터 증강
기존 예시를 변형하여 추가 예시를 생성함으로써 학습 예의 범위와 수를 인위적으로 늘립니다. 예를 들어 이미지가 특성 중 하나이지만, 모델에서 유용한 연결을 학습하는 데 충분한 이미지 예가 데이터 세트에 포함되어 있지 않다고 가정합니다. 모델에서 적절히 학습할 수 있도록 데이터 세트에 라벨이 지정된 이미지를 충분히 추가하는 것이 좋습니다. 그렇게 할 수 없는 경우 데이터 증강을 통해 각 이미지를 회전, 확대, 반사하여 원본 그림의 다양한 변형을 생성할 수 있습니다. 그러면 충분한 수의 라벨이 지정된 데이터가 생성되어 효과적인 학습을 지원할 수 있습니다.
깊이별 분리 가능한 컨볼루션 신경망 (sepCNN)
Inception에 기반하지만 Inception 모듈이 깊이별로 분리 가능한 컨볼루션으로 대체된 컨볼루션 신경망 아키텍처입니다. Xception이라고도 합니다.
깊이별 분리 가능한 컨볼루션 (분리 가능한 컨볼루션이라고도 함)은 표준 3D 컨볼루션을 계산상 더 효율적인 두 개의 개별 컨볼루션 작업으로 분해합니다. 첫 번째는 깊이가 1인 깊이별 컨볼루션 (n ✕ n ✕ 1)이고, 두 번째는 길이와 너비가 1인 포인트별 컨볼루션 (1 ✕ 1 ✕ n)입니다.
자세한 내용은 Xception: Depthwise Separable Convolutions를 사용한 딥 러닝을 참고하세요.
다운샘플링
중복으로 정의된 용어로서 다음 중 하나를 의미할 수 있습니다.
- 모델을 더 효율적으로 학습하기 위해 특성에서 정보의 양을 줄입니다. 예를 들어 이미지 인식 모델을 학습하기 전에 고해상도 이미지를 저해상도 형식으로 다운샘플링합니다.
- 기반이 취약한 클래스에 대한 모델 학습을 개선하기 위해 과대 표현된 클래스의 예시를 불균형적으로 낮은 비율로 학습합니다. 예를 들어 클래스 불균형 데이터 세트에서는 모델이 다수 클래스에 관해 많이 학습하고 소수 클래스에 관해 충분히 학습하지 않는 경향이 있습니다. 다운샘플링을 사용하면 다수 클래스와 소수 클래스에 대한 학습량을 균형 조정할 수 있습니다.
자세한 내용은 머신러닝 단기집중과정의 데이터 세트: 불균형 데이터 세트를 참고하세요.
F
미세 조정
사전 학습된 모델에서 수행되는 두 번째 태스크별 학습 패스로, 특정 사용 사례에 맞게 매개변수를 미세 조정합니다. 예를 들어 일부 대규모 언어 모델의 전체 학습 시퀀스는 다음과 같습니다.
- 선행 학습: 모든 영어 위키백과 페이지와 같은 방대한 일반 데이터 세트에서 대규모 언어 모델을 학습합니다.
- 미세 조정: 의료 관련 질문에 답변하는 등 특정 태스크를 수행하도록 사전 학습된 모델을 학습합니다. 미세 조정에는 일반적으로 특정 작업에 중점을 둔 수백 또는 수천 개의 예시가 포함됩니다.
또 다른 예로 대규모 이미지 모델의 전체 학습 시퀀스는 다음과 같습니다.
- 선행 학습: Wikimedia Commons의 모든 이미지와 같은 방대한 일반 이미지 데이터 세트에서 대규모 이미지 모델을 학습합니다.
- 미세 조정: 선행 학습된 모델을 훈련하여 범고래 이미지 생성과 같은 특정 작업을 실행합니다.
미세 조정에는 다음 전략을 조합하여 적용할 수 있습니다.
- 선행 학습된 모델의 기존 매개변수를 모두 수정합니다. 이를 전체 미세 조정이라고도 합니다.
- 선행 학습된 모델의 기존 매개변수 중 일부(일반적으로 출력 레이어에 가장 가까운 레이어)만 수정하고 다른 기존 매개변수 (일반적으로 입력 레이어에 가장 가까운 레이어)는 변경하지 않습니다. 파라미터 효율적인 튜닝을 참고하세요.
- 일반적으로 출력 레이어에 가장 가까운 기존 레이어 위에 레이어를 추가합니다.
미세 조정은 전이 학습의 한 형태입니다. 따라서 미세 조정은 사전 학습된 모델을 학습하는 데 사용된 것과 다른 손실 함수 또는 다른 모델 유형을 사용할 수 있습니다. 예를 들어 선행 학습된 대규모 이미지 모델을 미세 조정하여 입력 이미지의 새 수를 반환하는 회귀 모델을 만들 수 있습니다.
미세 조정을 다음 용어와 비교 및 대조하세요.
자세한 내용은 머신러닝 단기집중과정의 미세 조정을 참고하세요.
G
Gemini
Google의 가장 진보된 AI로 구성된 생태계입니다. 이 생태계의 요소는 다음과 같습니다.
- 다양한 Gemini 모델
- Gemini 모델의 대화형 대화 인터페이스입니다. 사용자가 프롬프트를 입력하면 Gemini가 해당 프롬프트에 응답합니다.
- 다양한 Gemini API
- Gemini 모델을 기반으로 하는 다양한 비즈니스 제품(예: Google Cloud용 Gemini)
Gemini 모델
Google의 최첨단 Transformer 기반 멀티모달 모델입니다. Gemini 모델은 상담사와 통합되도록 특별히 설계되었습니다.
사용자는 대화형 대화상자 인터페이스, SDK 등을 통해 다양한 방식으로 Gemini 모델과 상호작용할 수 있습니다.
생성형 AI의
공식적인 정의가 없는 신흥 혁신 분야입니다. 하지만 대부분의 전문가는 생성형 AI 모델이 다음을 모두 충족하는 콘텐츠를 만들 수 있다고 동의합니다.
- 복잡한
- 일관된
- 원본
예를 들어 생성형 AI 모델은 정교한 에세이나 이미지를 만들 수 있습니다.
LSTM 및 RNN을 비롯한 일부 이전 기술도 독창적이고 일관된 콘텐츠를 생성할 수 있습니다. 일부 전문가는 이러한 이전 기술을 생성형 AI로 간주하는 반면, 진정한 생성형 AI에는 이전 기술에서 생성할 수 있는 것보다 더 복잡한 출력이 필요하다고 생각하는 전문가도 있습니다.
예측 ML과 대비되는 개념입니다.
I
이미지 인식
이미지에서 객체, 패턴 또는 개념을 분류하는 프로세스입니다. 영상 인식을 이미지 분류라고도 합니다.
자세한 내용은 ML 실습: 이미지 분류를 참고하세요.
자세한 내용은 ML 실습: 이미지 분류 과정을 참고하세요.
교집합 (IoU)
두 집합의 교집합을 합집합으로 나눈 값입니다. 머신러닝 이미지 감지 작업에서 IoU는 정답 경계 상자에 대해 모델의 예측 경계 상자의 정확도를 측정하는 데 사용됩니다. 이 경우 두 상자의 IoU는 겹치는 영역과 총 영역의 비율이며, 값의 범위는 0 (예측 경계 상자와 실제 경계 상자 간의 겹침 없음)~1 (예측 경계 상자와 실제 경계 상자의 좌표가 정확히 동일함)입니다.
예를 들어 아래 이미지에서
- 예측된 경계 상자 (모델이 그림의 침대 위치를 예측하는 곳을 정의하는 좌표)는 보라색으로 표시됩니다.
- 실측 경계 상자 (그림의 야간 조명이 실제로 위치한 곳을 구분하는 좌표)는 녹색으로 표시됩니다.
여기서 예측과 정답의 경계 상자 교차 영역(왼쪽 아래)은 1이고 예측과 정답의 경계 상자 합집합 (오른쪽 아래)은 7이므로 IoU는 \(\frac{1}{7}\)입니다.
K
keypoints
이미지의 특정 지형지물의 좌표입니다. 예를 들어 꽃 종을 구분하는 이미지 인식 모델의 경우 각 꽃잎의 중심, 줄기, 암술 등이 키포인트가 될 수 있습니다.
L
landmarks
키포인트의 동의어입니다.
M
MMIT
멀티모달 명령어 조정의 약어입니다.
MNIST
LeCun, Cortes, Burges 등이 컴파일한 공개 도메인 데이터 세트이며,60, 000개의 이미지가 포함됩니다. 각 이미지는 사람이 0~9 사이의 특정 숫자를 쓰는 방법을 보여줍니다. 각 이미지는 28x28 정수 배열로 저장되며, 각 정수는 0과 255 사이의 그레이 스케일 값입니다.
MNIST는 머신러닝을 위한 표준 데이터 세트이며, 주로 새 머신러닝 접근법을 테스트하는 데 사용됩니다. 자세한 내용은 필기 입력된 숫자의 MNIST 데이터베이스를 참고하세요.
MOE
전문가 집단의 약어입니다.
P
풀링
이전의 컨볼루셔널 레이어에서 생성된 행렬을 작은 행렬로 줄이는 과정입니다. 풀링에는 일반적으로 풀링된 영역에서 최대값 또는 평균값을 취하는 작업이 포함됩니다. 예를 들어 다음과 같은 3x3 행렬이 있다고 가정해 보겠습니다.
풀링 연산에서는 컨볼루션 연산에서와 마찬가지로 행렬을 슬라이스로 나눈 다음 스트라이드 보폭으로 슬라이드하면서 컨볼루션 연산을 수행합니다. 예를 들어 풀링 연산이 컨볼루션 행렬을 1x1 스트라이드로 2x2 슬라이스로 나눈다고 가정해 보겠습니다. 다음 다이어그램과 같이 4개의 풀링 작업이 실행됩니다. 각 풀링 작업이 해당 슬라이스의 4개 값 중 최대 값을 선택한다고 가정해 보겠습니다.
풀링을 사용하면 입력 행렬에서 병진 불변을 적용할 수 있습니다.
비전 애플리케이션의 풀링은 더 공식적으로 공간 풀링이라고 합니다. 시계열 애플리케이션에서는 일반적으로 풀링을 시간 풀링이라고 합니다. 풀링을 덜 형식적으로 하위 샘플링 또는 다운샘플링이라고도 합니다.
학습 후 모델
일반적으로 다음 중 하나 이상의 후처리를 거친 사전 학습된 모델을 나타내는 느슨하게 정의된 용어입니다.
선행 학습된 모델
일반적으로 이미 학습된 모델입니다. 이 용어는 이전에 학습된 임베딩 벡터를 의미할 수도 있습니다.
사전 학습된 언어 모델이라는 용어는 일반적으로 이미 학습된 대규모 언어 모델을 나타냅니다.
사전 학습
대규모 데이터 세트에서 모델을 초기 학습하는 작업입니다. 일부 사전 학습된 모델은 거대하지만 부정확하므로 일반적으로 추가 학습을 통해 미세 조정해야 합니다. 예를 들어 ML 전문가는 위키피디아의 모든 영어 페이지와 같은 방대한 텍스트 데이터 세트에서 대규모 언어 모델을 사전 학습할 수 있습니다. 선행 학습 후에는 다음 기법 중 하나를 통해 결과 모델을 추가로 미세 조정할 수 있습니다.
R
회전 불변
이미지 분류 문제에서 이미지의 방향이 변경되더라도 이미지를 성공적으로 분류하는 알고리즘의 능력입니다. 예를 들어 이러한 능력을 갖춘 알고리즘은 테니스 라켓이 위쪽을 향하고 있든, 옆을 향하고 있든, 아래쪽을 향하고 있든 간에 테니스 라켓을 식별해 낼 수 있습니다. 회전 불변이 항상 바람직한 것은 아닙니다. 예를 들어 거꾸로 된 9는 9로 분류되어서는 안 됩니다.
S
크기 불변
이미지 분류 문제에서 이미지 크기가 변경되더라도 이미지를 성공적으로 분류하는 알고리즘의 능력입니다. 예를 들어 이러한 능력을 갖춘 알고리즘은 고양이가 200만 픽셀을 사용하든 20만 픽셀을 사용하든 간에 고양이를 식별해 낼 수 있습니다. 최고의 이미지 분류 알고리즘도 크기 불변성에 관한 실질적인 한계가 있습니다. 예를 들어 고작 20픽셀만 사용하는 고양이 이미지를 알고리즘 또는 인간이 올바르게 분류해 낼 가능성은 낮습니다.
공간 풀링
풀링을 참고하세요.
보폭
컨볼루션 연산 또는 풀링에서 다음 입력 슬라이스 계열의 각 측정기준의 델타입니다. 예를 들어 다음 애니메이션은 컨볼루션 작업 중에 (1,1) 스트라이드를 보여줍니다. 따라서 다음 입력 슬라이스는 이전 입력 슬라이스의 오른쪽 1개 위치에서 시작됩니다. 작업이 오른쪽 가장자리에 도달하면 다음 슬라이스는 왼쪽으로 완전히 이동하지만 한 위치 아래로 이동합니다.
위의 예는 2차원 스트라이드를 보여줍니다. 입력 행렬이 3차원인 경우 스트라이드도 3차원이 됩니다.
서브 샘플링
풀링을 참고하세요.
T
기온
모델 출력의 무작위성 수준을 제어하는 초매개변수입니다. 온도가 높을수록 무작위 출력이 많아지고 온도가 낮을수록 무작위 출력이 적어집니다.
최적의 온도는 특정 애플리케이션과 모델 출력의 선호 속성에 따라 다릅니다. 예를 들어 창의적인 결과물을 생성하는 애플리케이션을 만들 때는 온도를 높일 수 있습니다. 반대로 이미지나 텍스트를 분류하는 모델을 빌드할 때는 모델의 정확성과 일관성을 개선하기 위해 온도를 낮추는 것이 좋습니다.
온도는 softmax와 함께 사용되는 경우가 많습니다.
병진 불변
이미지 분류 문제에서 이미지 내 객체의 위치가 변경되더라도 이미지를 성공적으로 분류하는 알고리즘의 능력입니다. 예를 들어 이러한 능력을 갖춘 알고리즘은 강아지가 프레임의 중앙에 있든 왼쪽 끝에 있든 간에 강아지를 식별해 낼 수 있습니다.