このページでは、画像モデルに関する用語集について説明します。用語集のすべての用語については、こちらをクリックしてください。
A
拡張現実
コンピュータで生成した画像をユーザーの現実世界ビューに重ね合わせ、複合ビューを提供するテクノロジー。
B
境界ボックス
次の画像内の犬のように、画像内の対象領域を囲む長方形の(x、y)座標。
C
畳み込み
数学では、簡単に言うと 2 つの関数が組み合わされています。機械学習では、畳み込みで畳み込みフィルタと入力行列を組み合わせて、重みをトレーニングします。
「畳み込み」という用語は、機械学習では多くの場合、畳み込み演算または畳み込み層の略称です。
畳み込みがない場合、機械学習アルゴリズムは大きなテンソルのセルごとに別個の重みを学習しなければなりません。たとえば、2K x 2K の画像で機械学習アルゴリズムのトレーニングを行う場合、400 万の別個の重みを見つける必要が生じます。畳み込みのおかげで、機械学習アルゴリズムは畳み込みフィルタ内のすべてのセルの重みを見つけるだけで済み、モデルのトレーニングに必要なメモリを大幅に削減できます。畳み込みフィルタが適用されると、各フィルタに乗算されるように、単純にセル間で複製されます。
畳み込みフィルタ
畳み込み演算で 2 つのアクターのいずれかが指定されている。(もう一方のアクターは入力マトリックスのスライスです)。畳み込みフィルタは、入力行列と同じランクの小さな行列です。たとえば 28x28 の入力行列であれば、フィルタは 28x28 より小さい任意の 2D 行列になります。
写真操作では、畳み込みフィルタ内のすべてのセルは通常、1 と 0 の一定のパターンに設定されます。機械学習では、通常、畳み込みフィルタに乱数がシードされ、ネットワークが理想的な値をトレーニングします。
畳み込みレイヤ
畳み込みフィルタが入力行列を通過するディープ ニューラル ネットワークのレイヤ。たとえば、次の 3x3 の畳み込みフィルタを考えてみましょう。
次のアニメーションは、5x5 入力行列を含む 9 つの畳み込み演算から構成される畳み込みレイヤを示しています。各畳み込み演算は、入力行列の異なる 3x3 スライスに作用されます。結果の 3x3 行列(右側)は、9 つの畳み込み演算の結果で構成されています。
畳み込みニューラル ネットワーク
ニューラル ネットワーク。少なくとも 1 つのレイヤが畳み込みレイヤです。一般的な畳み込みニューラル ネットワークは、次のレイヤの組み合わせで構成されています。
畳み込みニューラル ネットワークは、画像認識など、特定の種類の問題に対して大きく成功しています。
畳み込み演算
次の 2 段階の数学演算:
- 畳み込みフィルタと入力行列のスライスの要素ごとの乗算。(入力行列のスライスは、畳み込みフィルタと同じランクとサイズです)。
- 結果の商品マトリックス内のすべての値の合計。
たとえば、次の 5x5 入力行列について考えてみます。
次の 2x2 の畳み込みフィルタを考えてみましょう。
各畳み込み演算には、入力行列の単一の 2x2 スライスが含まれます。たとえば、入力マトリックスの左上にある 2x2 スライスを使用するとします。したがって、このスライスの畳み込み演算は次のようになります。
畳み込みレイヤは、一連の畳み込み演算で構成され、それぞれが入力行列の異なるスライスに作用します。
D
データの拡張
既存のサンプルを変換して追加のサンプルを作成することで、トレーニングのサンプルの範囲と数を手動で増加させる。たとえば、画像が特徴の 1 つであるとしますが、データセットに有用な関連性を学習するのに十分な画像サンプルが含まれていません。モデルを適切にトレーニングできるように、十分なラベル付きの画像をデータセットに追加するのが理想的です。それが不可能な場合は、データ拡張で各画像の回転、引き伸ばし、反射を行って元の画像の多くのバリアントを生成し、場合によっては十分なトレーニング済みデータを生成して、優れたトレーニングを実現できます。
深度分離可能な畳み込みニューラル ネットワーク(sepCNN)
Inception に基づく畳み込みニューラル ネットワーク アーキテクチャ。ただし、Inception モジュールは深度に分離可能な畳み込みに置き換えられます。Xception とも呼ばれます。
深度分離可能な畳み込み(分離可能な畳み込みとも呼ばれます)では、標準の 3D 畳み込みを 2 つの別々の畳み込み演算に当てはめて計算効率を高めます。まず、深度 1(n ✕ n ✕ 1)と 2 番目に、点数 1 と 1 和の畳み込みを加算します。
詳細については、Xception: Depthwise Separable Convolutions によるディープ ラーニングをご覧ください。
ダウンサンプリング
次のいずれかの意味を持つ過負荷用語
- モデルを効率的にトレーニングするために、特徴の情報量を減らす。たとえば、画像認識モデルをトレーニングする前に、高解像度画像を低解像度形式にダウンサンプリングします。
- 過小評価対象のクラスのサンプルの割合が過小評価されているものの、過小評価されているクラスのモデル トレーニングを改善する。たとえば、クラス 不均衡なデータセットでは、モデルは大半のクラスについて多くのことを学ぶ傾向があり、マイノリティ クラスについてはあまり学習しない傾向があります。ダウンサンプリングは、大多数のクラスと少数派のクラスのトレーニング量のバランスをとるのに役立ちます。
I
画像認識
画像内のオブジェクト、パターン、またはコンセプトを分類するプロセス。画像認識は、画像分類とも呼ばれます。
詳細については、ML の実践: 画像分類をご覧ください。
ユニオンを介した交差(IoU)
2 つのセットの和集合比。機械学習の画像検出タスクでは、IoU を使用して、グラウンド トゥルース 境界ボックスに対するモデルの予測境界ボックスの精度を測定します。この場合、2 つの箱の IoU は重なり合う面積と総面積の比であり、値の範囲は 0(予測境界ボックスとグラウンド トゥルースの境界ボックスの重なりなし)から 1(予測境界ボックスとグラウンド トゥルースの境界ボックスはまったく同じ座標)です。
たとえば、以下の画像で:
- 予測境界ボックス(モデルがペイントのナイトテーブルが配置される場所を示す座標が紫色で囲まれます)
- グラウンド トゥルースの境界ボックス(ペイントのナイトテーブルが実際に配置されている位置を区切る座標)は緑色で囲まれます。
ここで、予測とグラウンド トゥルースの境界ボックス(左下)の交差は 1、予測とグラウンド トゥルースの境界ボックス(右下)の和集合は 7 であるため、IoU は \(\frac{1}{7}\)になります。


K
キーポイント
画像内の特定の特徴の座標。たとえば、花の種類を区別する画像認識モデルの場合、キーポイントは各花びら、幹、しおりなどの中心になります。
L
landmarks
キーポイントの類義語。
M
MNIST
LeCun、Cortes、Burges によってコンパイルされた 60,000 枚の画像を含む一般公開ドメインのデータセット。各画像は、人間が 0 ~ 9 の数字で手動で書き込んだ方法を示しています。各画像は 28x28 の整数の配列として格納され、各整数は 0 ~ 255 のグレースケール値です。
MNIST は機械学習の正規データセットであり、多くの場合、新しい機械学習アプローチのテストに使用されます。詳細については、手書き数字の MNIST データベースをご覧ください。
P
プーリング
前の畳み込み層で作成した行列(または行列)をより小さな行列に変換します。プールは通常、プールされた領域の最大値または平均値を取ります。たとえば、次の 3x3 マトリックスがあるとします。
畳み込み演算は、畳み込み演算と同様に、そのマトリックスをスライスに分割し、その畳み込み演算をストライドでスライドさせます。たとえば、プーリング オペレーションで畳み込み行列が 1x1 のストライドで 2x2 スライスに分割されたとします。次の図に示すように、4 つのプール操作が行われます。各プーリング オペレーションで、そのスライス内の 4 つの最大値が選択されるとします。
プーリングは、入力行列で変換の不変を適用します。
ビジョン アプリケーション用のプーリングは、より一般的には空間プーリングと呼ばれています。時系列アプリケーションは通常、プーリングを「一時プーリング」と呼びます。一般的には、プーリングは「サブサンプリング」または「ダウンサンプリング」と呼ばれます。
R
回転不変
画像分類問題では、アルゴリズムで画像の向きが変わっても画像を正しく分類する能力が得られます。たとえば、アルゴリズムは、テニスラケットが上、横、下のいずれか向いているかどうかを判断できます。回転不変は常に望ましいとは限りません。たとえば、逆さまの 9 を 9 に分類すべきではありません。
S
サイズの不変性
画像分類問題では、アルゴリズムで画像サイズが変更された場合でも画像を正しく分類できます。たとえば、200 万ピクセルを消費しているか、20 万ピクセルを消費しているかをアルゴリズムが識別することもできます。最良の画像分類アルゴリズムであっても、サイズ不変性には現実的な制限があります。たとえば、アルゴリズム(または人間)は、20 ピクセルしか消費しない猫の画像を正しく分類する可能性はほとんどありません。
空間プーリング
プーリングをご覧ください。
ストライド
畳み込み演算またはプーリングでは、次の一連の入力スライスの各次元のデルタ。たとえば、次のアニメーションは、畳み込み演算中の(1,1)のストライドを示しています。したがって、次の入力スライスは、前の入力スライスの右側に 1 つの位置を開始します。オペレーションが右端に到達すると、次のスライスは左端まで移動しますが、1 つ下の位置になります。
上記の例は、2 次元のストライドを示しています。入力行列が 3 次元の場合、ストライドも 3 次元になります。
サブサンプリング
プーリングをご覧ください。
T
翻訳の不変性
画像分類問題では、画像内のオブジェクトの位置が変化しても、アルゴリズムが画像をうまく分類できます。たとえば、アルゴリズムが犬をフレームの中央に置いていても、フレームの左端にあっても識別を行うことができます。