機械学習用語集: 画像モデル

このページには、画像モデルの用語集の用語が記載されています。用語集のすべての用語については、こちらをクリックしてください。

A

拡張現実

#image

コンピュータ生成の画像をユーザーの現実世界ビューに重ねて、合成ビューを提供する技術。

オートエンコーダ

#language
#image

入力から最も重要な情報を抽出することを学習するシステム。オートエンコーダは、エンコーダデコーダの組み合わせです。オートエンコーダは、次の 2 段階のプロセスに依存しています。

  1. エンコーダは、入力を(通常は)非可逆の低次元(中間)形式にマッピングします。
  2. デコーダは、低次元形式を元の高次元入力形式にマッピングすることで、元の入力の非可逆バージョンを構築します。

オートエンコーダは、デコーダがエンコーダの中間形式から元の入力をできるだけ正確に再構成しようとすることで、エンドツーエンドでトレーニングされます。中間形式は元の形式よりも小さい(低次元)ため、オートエンコーダは入力内のどの情報が重要かを学習する必要があります。出力は入力と完全には一致しません。

次に例を示します。

  • 入力データがグラフィックの場合、正確でないコピーは元のグラフィックに似ていますが、多少変更されています。正確でないコピーでは、元のグラフィックからノイズが除去されたり、欠落しているピクセルが埋め込まれたりする可能性があります。
  • 入力データがテキストの場合、オートエンコーダは元のテキストを模倣した(ただし同一ではない)新しいテキストを生成します。

変分オートエンコーダもご覧ください。

自己回帰モデル

#language
#image
#generativeAI

独自の過去の予測に基づいて予測を推定するモデル。たとえば、自己回帰言語モデルは、以前に予測されたトークンに基づいて次のトークンを予測します。Transformer ベースの大規模言語モデルはすべて自動回帰型です。

一方、GAN ベースの画像モデルは、ステップで反復処理せずに 1 回の順方向パスで画像を生成するため、通常は自己回帰的ではありません。ただし、特定の画像生成モデルは、画像を段階的に生成するため、自己回帰的です。

B

境界ボックス

#image

画像内の対象領域(下の画像の犬など)を囲む長方形の(xy)座標。

ソファに座っている犬の写真。左上の座標が(275, 1271)、右下の座標が(2954, 2761)の緑色の境界ボックスが犬の体を囲んでいる

C

畳み込み

#image

数学では、簡単に言えば、2 つの関数の混合です。ML では、畳み込みによって畳み込みフィルタと入力行列が混合され、重みがトレーニングされます。

機械学習における「畳み込み」という用語は、多くの場合、畳み込み演算または畳み込みレイヤの省略形として使用されます。

畳み込みがないと、機械学習アルゴリズムは大きなテンソル内のセルごとに個別の重みを学習する必要があります。たとえば、2K x 2K の画像で機械学習アルゴリズムをトレーニングする場合、400 万個の個別の重みを検出する必要があります。畳み込みにより、機械学習アルゴリズムは畳み込みフィルタ内のすべてのセルの重みを見つけるだけで済むため、モデルのトレーニングに必要なメモリが大幅に削減されます。畳み込みフィルタが適用されると、各セルがフィルタで乗算されるように、セル全体にレプリケートされます。

詳細については、画像分類コースの畳み込みニューラル ネットワークの概要をご覧ください。

畳み込みフィルタ

#image

畳み込み演算の 2 つのアクターの 1 つ。(もう一方の演算子は入力マトリックスのスライスです)。畳み込みフィルタは、入力マトリックスと同じランクを持ち、サイズが小さいマトリックスです。たとえば、28x28 の入力行列が与えられた場合、フィルタは 28x28 より小さい任意の 2D 行列にすることができます。

写真の操作では、通常、畳み込みフィルタ内のすべてのセルは 1 と 0 の一定パターンに設定されます。機械学習では、通常、畳み込みフィルタに乱数をシードし、ネットワークが理想的な値をトレーニングします。

詳細については、画像分類コースの畳み込みをご覧ください。

畳み込みレイヤ

#image

ディープ ニューラル ネットワークのレイヤ。畳み込みフィルタが入力行列を通過します。たとえば、次の 3x3 の畳み込みフィルタについて考えてみましょう。

次の値を持つ 3x3 行列: [[0,1,0], [1,0,1], [0,1,0]]

次のアニメーションは、5x5 入力行列を含む 9 つの畳み込み演算で構成される畳み込みレイヤを示しています。各畳み込み演算は、入力行列の異なる 3x3 スライスに対して動作します。結果の 3x3 行列(右側)は、9 つの畳み込み演算の結果で構成されています。

2 つの行列を示すアニメーション。最初の行列は 5x5 行列です。[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]2 つ目の行列は 3x3 行列です。
          [[181,303,618], [115,338,605], [169,351,560]].
          2 つ目の行列は、5x5 行列の異なる 3x3 サブセットに畳み込みフィルタ [[0, 1, 0], [1, 0, 1], [0, 1, 0]] を適用することで計算されます。

詳細については、画像分類コースの全結合層をご覧ください。

畳み込みニューラル ネットワーク

#image

少なくとも 1 つのレイヤが畳み込みレイヤであるニューラル ネットワーク。一般的な畳み込みニューラル ネットワークは、次のレイヤの組み合わせで構成されます。

畳み込みニューラル ネットワークは、画像認識などの特定の問題で大きな成功を収めています。

畳み込み演算

#image

次の 2 段階の算術演算:

  1. 畳み込みフィルタと入力行列のスライスの要素ごとの乗算。(入力マトリックスのスライスには、畳み込みフィルタと同じランクとサイズがあります)。
  2. 結果の積行列のすべての値の合計。

たとえば、次の 5x5 入力行列について考えてみましょう。

5x5 行列: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]。

次に、2x2 畳み込みフィルタについて考えてみましょう。

2 x 2 行列: [[1, 0], [0, 1]]

各畳み込み演算には、入力行列の 2x2 スライスが 1 つ含まれます。たとえば、入力行列の左上にある 2x2 スライスを使用するとします。このスライスに対する畳み込み演算は次のようになります。

入力行列の左上の 2x2 セクション([[128,97], [35,22]])に畳み込みフィルタ [[1, 0], [0, 1]] を適用します。畳み込みフィルタは 128 と 22 をそのまま残しますが、97 と 35 はゼロにします。したがって、畳み込み演算の結果は 150(128+22)になります。

畳み込みレイヤは、一連の畳み込み演算で構成され、それぞれが入力行列の異なるスライスに作用します。

D

データの拡張

#image

既存のサンプルを変換して追加のサンプルを作成し、トレーニング サンプルの範囲と数を人為的に増やす。たとえば、画像が特徴の 1 つであるが、データセットに、モデルが有用な関連性を学習するのに十分な画像サンプルが含まれていないとします。モデルを適切にトレーニングできるように、データセットに十分なラベル付き画像を追加することをおすすめします。それが不可能な場合は、データ拡張によって各画像を回転、伸縮、反射して、元の画像のバリエーションを多数生成できます。これにより、優れたトレーニングを可能にする十分なラベル付きデータが得られる可能性があります。

深さ方向に分離可能な畳み込みニューラル ネットワーク(sepCNN)

#image

Inception に基づく畳み込みニューラル ネットワーク アーキテクチャ。ただし、Inception モジュールは空間方向の分離可能な畳み込みに置き換えられています。Xception とも呼ばれます。

深度方向可分畳み込み(可分畳み込みとも呼ばれます)は、標準の 3D 畳み込みを、計算効率の高い 2 つの個別の畳み込み演算に分解します。1 つ目は深度が 1 の深度方向畳み込み(n ✕ n ✕ 1)、2 つ目は長さと幅が 1 の点畳み込み(1 ✕ 1 ✕ n)です。

詳細については、Xception: Depthwise Separable Convolutions を使用したディープラーニングをご覧ください。

ダウンサンプリング

#image

次のいずれかを意味するオーバーロードされた用語。

  • モデルのトレーニングをより効率的に行うために、特徴量の情報量を減らします。たとえば、画像認識モデルをトレーニングする前に、高解像度の画像を低解像度の形式にダウンサンプリングします。
  • 過剰に代表されているクラスのサンプルの割合を不均衡に低くして、過小代表クラスのモデル トレーニングを改善する。たとえば、クラスの不均衡なデータセットでは、モデルは多数派クラスについて多く学習し、少数派クラスについては十分に学習しません。ダウンサンプリングは、多数クラスと少数クラスのトレーニング量のバランスを取るのに役立ちます。

詳細については、機械学習集中講座のデータセット: 不均衡なデータセットをご覧ください。

F

ファインチューニング

#language
#image
#generativeAI

2 つ目のタスク固有のトレーニング パスは、事前トレーニング済みモデルで実行され、特定のユースケースに合わせてパラメータを調整します。たとえば、一部の大規模言語モデルの完全なトレーニング シーケンスは次のとおりです。

  1. 事前トレーニング: すべての英語の Wikipedia ページなど、膨大な一般的なデータセットで大規模言語モデルをトレーニングします。
  2. ファインチューニング: 医療に関するクエリへの回答など、特定のタスクを実行するように事前トレーニング済みモデルをトレーニングします。通常、ファインチューニングでは、特定のタスクに焦点を当てた数百または数千のサンプルが使用されます。

別の例として、大規模な画像モデルの完全なトレーニング シーケンスは次のとおりです。

  1. 事前トレーニング: 膨大な一般的な画像データセット(ウィキメディア コモンズ内のすべての画像など)で大規模な画像モデルをトレーニングします。
  2. ファインチューニング: オルカの画像の生成など、特定のタスクを実行するように事前トレーニング済みモデルをトレーニングします。

ファインチューニングでは、次の戦略を組み合わせて使用できます。

  • 事前トレーニング済みモデルの既存のパラメータすべて変更する。これは「完全なファインチューニング」と呼ばれることもあります。
  • 事前トレーニング済みモデルの既存のパラメータの一部のみを変更し(通常は出力レイヤに最も近いレイヤ)、他の既存のパラメータは変更しない(通常は入力レイヤに最も近いレイヤ)。パラメータ効率チューニングをご覧ください。
  • レイヤを追加します。通常は、出力レイヤに最も近い既存のレイヤの上に追加します。

ファインチューニングは転移学習の一種です。そのため、ファインチューニングでは、トレーニング済みモデルのトレーニングに使用したものとは異なる損失関数やモデルタイプを使用する場合があります。たとえば、事前トレーニング済みの大規模画像モデルをファインチューニングして、入力画像の鳥の数を返す回帰モデルを生成できます。

ファインチューニングと次の用語を比較します。

詳細については、機械学習集中講座のファインチューニングをご覧ください。

G

Gemini

#language
#image
#generativeAI

Google の最先端の AI を構成するエコシステム。このエコシステムの要素には次のようなものがあります。

  • さまざまな Gemini モデル
  • Gemini モデルへのインタラクティブな会話型インターフェース。ユーザーがプロンプトを入力すると、Gemini がそのプロンプトに応答します。
  • 各種 Gemini API。
  • Gemini モデルに基づくさまざまなビジネス プロダクト(Gemini for Google Cloud など)。

Gemini モデル

#language
#image
#generativeAI

Google の最先端の Transformer ベースのマルチモーダル モデル。Gemini モデルは、エージェントと統合するように特別に設計されています。

ユーザーは、インタラクティブなダイアログ インターフェースや SDK など、さまざまな方法で Gemini モデルを操作できます。

生成 AI

#language
#image
#generativeAI

正式な定義のない新しい変革分野。ただし、ほとんどの専門家は、生成 AI モデルが次のすべてのコンテンツを作成(「生成」)できると考えています。

  • 複雑
  • 一貫性
  • オリジナル

たとえば、生成 AI モデルは高度なエッセイや画像を作成できます。

LSTMRNN などの以前のテクノロジーでも、独自の整合性のあるコンテンツを生成できます。一部の専門家は、これらの初期のテクノロジーを生成 AI と見なしていますが、真の生成 AI には、それらの初期のテクノロジーが生成できるよりも複雑な出力が必要だと考える専門家もいます。

予測 ML とは対照的です。

I

画像認識

#image

画像内のオブジェクト、パターン、コンセプトを分類するプロセス。画像認識は、画像分類とも呼ばれます。

詳細については、ML 演習: 画像分類をご覧ください。

詳細については、ML 演習: 画像分類コースをご覧ください。

Intersection over Union(IoU)

#image

2 つの集合の共通部分をその和で除算した値。機械学習の画像検出タスクでは、IoU を使用して、グラウンド トゥルースの境界ボックスに対するモデルの予測境界ボックスの精度を測定します。この場合、2 つのボックスの IoU は重複領域と合計領域の比率であり、その値は 0(予測境界ボックスとグラウンド トゥルースの境界ボックスが重複しない)から 1(予測境界ボックスとグラウンド トゥルースの境界ボックスが完全に同じ座標を持つ)の範囲です。

たとえば、次の画像では、

  • 予測された境界ボックス(モデルが絵画のナイトテーブルが配置されていると予測する場所を区切る座標)は紫色の枠線で囲まれています。
  • 正解の境界ボックス(絵画のナイトテーブルが実際に存在する場所を区切る座標)は緑色の枠線で囲まれています。

ファン ゴッホの絵画「アルルの寝室」で、ベッドの横のナイトテーブルの周囲に 2 つの異なるバウンディング ボックスが設定されています。正解の境界ボックス(緑色)は、ナイトテーブルを完全に囲んでいます。予測された境界ボックス(紫色)は、グラウンド トゥルースの境界ボックスの下 50% と右にオフセットされています。夜間のテーブルの右下 1/4 を囲んでいますが、テーブルの残りの部分は囲んでいません。

ここで、予測境界ボックスと正解境界ボックスの交差(左下)は 1、予測境界ボックスと正解境界ボックスの和(右下)は 7 であるため、IoU は \(\frac{1}{7}\)です。

上記と同じ画像ですが、各境界ボックスが 4 つの象限に分割されています。グラウンド トゥルースの境界ボックスの右下と予測境界ボックスの左上は重なるため、合計 7 つの四分割があります。この重複する部分(緑色でハイライト表示)は交差を表し、面積は 1 です。 上記と同じ画像ですが、各境界ボックスが 4 つの象限に分割されています。グラウンド トゥルースの境界ボックスの右下と予測境界ボックスの左上は重複するため、合計 7 つの四分割があります。両方の境界ボックスで囲まれた内部全体(緑色でハイライト表示)が結合を表し、面積は 7 です。

K

キーポイント

#image

画像内の特定の特徴の座標。たとえば、花の種類を区別する画像認識モデルの場合、キーポイントは各花びらの中心、茎、雄しべなどです。

L

landmarks

#image

キーポイントと同義です。

M

MMIT

#language
#image
#generativeAI

マルチモーダル インストラクション チューニングの略語。

MNIST

#image

LeCun、Cortes、Burges によってコンパイルされたパブリック ドメインのデータセット。60,000 個の画像が含まれており、各画像は人間が 0 ~ 9 の特定の数字を手書きした方法を示しています。各画像は 28 x 28 の整数配列として保存されます。各整数は 0 ~ 255 のグレースケール値です。

MNIST は機械学習のカノニカル データセットであり、新しい機械学習アプローチのテストによく使用されます。詳細については、 手書き数字の MNIST データベースをご覧ください。

MOE

#language
#image
#generativeAI

Mixture of Experts の略。

P

プーリング

#image

前の畳み込みレイヤによって作成されたマトリックス(またはマトリックス)を小さいマトリックスに縮小します。通常、プーリングでは、プールされた領域全体の最大値または平均値を取得します。たとえば、次の 3x3 行列があるとします。

3x3 マトリックス [[5,3,1], [8,2,5], [9,4,3]]。

プール演算は、畳み込み演算と同様に、その行列をスライスに分割し、その畳み込み演算をストライドでスライドします。たとえば、プーリング オペレーションで畳み込み行列が 1x1 のストライドで 2x2 スライスに分割されるとします。次の図に示すように、4 つのプーリング オペレーションが行われます。各プーリング オペレーションが、そのスライス内の 4 つの値の最大値を選択するとします。

入力行列は 3x3 で、値は [[5,3,1], [8,2,5], [9,4,3]] です。
          入力行列の左上の 2x2 サブマトリックスは [[5,3], [8,2]] であるため、左上のプーリング オペレーションでは値 8(5、3、8、2 の最大値)が生成されます。入力行列の右上の 2x2 サブマトリックスは [[3,1], [2,5]] であるため、右上のプーリング演算では値 5 が得られます。入力行列の左下 2x2 サブマトリックスは [[8,2], [9,4]] であるため、左下のプーリング演算では値 9 が生成されます。入力マトリックスの右下 2x2 サブマトリックスは [[2,5], [4,3]] であるため、右下のプーリング演算では値 5 が生成されます。要約すると、プーリング オペレーションにより、2x2 行列 [[8,5], [9,5]] が生成されます。

プーリングは、入力行列に変換不変性を適用するのに役立ちます。

ビジョン アプリケーションのプーリングは、正式には空間プーリングと呼ばれます。時系列アプリケーションでは、通常、プールを時間的プールと呼びます。より非公式な用語では、プーリングはサブサンプリングまたはダウンサンプリングと呼ばれます。

トレーニング後のモデル

#language
#image
#generativeAI

厳密に定義されていない用語で、通常は、次のような 1 つ以上の後処理を行った事前トレーニング済みモデルを指します。

事前トレーニング済みモデル

#language
#image
#generativeAI

通常は、すでにトレーニングされているモデルです。この用語は、以前にトレーニングされたエンベディング ベクトルを意味する場合もあります。

事前トレーニング済み言語モデルという用語は、通常、すでにトレーニングされている大規模言語モデルを指します。

事前トレーニング

#language
#image
#generativeAI

大規模なデータセットでのモデルの初期トレーニング。一部の事前トレーニング済みモデルは巨大で扱いづらく、通常は追加のトレーニングで精度を高める必要があります。たとえば、ML の専門家は、Wikipedia のすべての英語ページなど、膨大なテキスト データセットで大規模言語モデルを事前トレーニングする場合があります。事前トレーニングの後、得られたモデルは、次のいずれかの手法でさらに精緻化できます。

R

回転不変性

#image

画像分類問題では、画像の向きが変わっても画像を正しく分類できるアルゴリズムの能力。たとえば、アルゴリズムは、テニスラケットが上向き、横向き、下向きの場合でも、テニスラケットを識別できます。回転不変性は必ずしも望ましいとは限りません。たとえば、上下逆さまの 9 を 9 として分類すべきではありません。

変換不変性サイズ不変性もご覧ください。

S

サイズ不変性

#image

画像分類問題では、画像のサイズが変化しても画像を正しく分類できるアルゴリズムの能力。たとえば、200 万ピクセルでも 20 万ピクセルでも、アルゴリズムは猫を識別できます。最適な画像分類アルゴリズムでも、サイズの不変性には実用的な限界があることに注意してください。たとえば、アルゴリズム(または人間)が 20 ピクセルの猫の画像を正しく分類することはほとんどありません。

移動不変性回転不変性もご覧ください。

空間プーリング

#image

プーリングをご覧ください。

ストライド

#image

畳み込みオペレーションまたはプーリングでは、次の一連の入力スライスの各ディメンションの差分。たとえば、次のアニメーションは、畳み込みオペレーション中のストライド(1,1)を示しています。したがって、次の入力スライスは、前の入力スライスの 1 つ右の位置から開始されます。オペレーションが右端に達すると、次のスライスは左端に移動し、1 つの位置下に移動します。

入力 5x5 マトリックスと 3x3 畳み込みフィルタ。ストライドが(1,1)であるため、畳み込みフィルタが 9 回適用されます。最初の畳み込みスライスは、入力行列の左上の 3x3 サブ行列を評価します。2 つ目のスライスは、上部中央の 3x3 サブマトリックスを評価します。3 番目の畳み込みスライスは、右上の 3x3 サブマトリックスを評価します。4 番目のスライスは、左中央の 3x3 サブマトリックスを評価します。5 番目のスライスは、中央の 3x3 サブマトリックスを評価します。6 番目のスライスは、右中央の 3x3 サブマトリックスを評価します。7 番目のスライスは、左下の 3x3 サブマトリックスを評価します。8 番目のスライスは、下中央の 3x3 サブマトリックスを評価します。9 番目のスライスは、右下の 3x3 サブマトリックスを評価します。

上記の例は、2 次元のストライドを示しています。入力マトリックスが 3 次元の場合、ストライドも 3 次元になります。

サブサンプリング

#image

プーリングをご覧ください。

T

温度

#language
#image
#generativeAI

モデルの出力のランダム性の度合いを制御するハイパーパラメータ。温度が高いほど、出力のランダム性が高まり、温度が低いほど、出力のランダム性が低くなります。

最適な温度の選択は、特定のアプリケーションとモデルの出力の優先プロパティによって異なります。たとえば、クリエイティブな出力を生成するアプリを作成する場合は、温度を上げます。逆に、画像やテキストを分類するモデルを作成する場合は、モデルの精度と一貫性を高めるために温度を下げる必要があります。

Temperature は、softmax と併用されることがよくあります。

平行移動不変性

#image

画像分類問題では、画像内のオブジェクトの位置が変化しても画像を正常に分類できるアルゴリズムの能力。たとえば、犬がフレームの中央にいても、フレームの左端にいても、アルゴリズムは犬を識別できます。

サイズ不変性回転不変性もご覧ください。