このページは Cloud Translation API によって翻訳されました。

機械学習の用語集

この用語集では、ML の一般的な用語を定義し、用語について説明します。

A

アブレーション

特徴量またはコンポーネントをモデルから一時的に削除することで、その重要性を評価する手法。次に、その特徴またはコンポーネントのないモデルを再トレーニングします。再トレーニングしたモデルのパフォーマンスが大幅に低下した場合、削除された特徴またはコンポーネントが重要だった可能性があります。

たとえば、30 秒の 分類モデル 88% の適合率を達成し、 テストセット。重要別の 9 個の特徴だけを使ってモデルを再トレーニングできます。説明します。再トレーニングしたモデルのパフォーマンスが大幅に低下した場合（精度が 55% など）、削除された特徴量が重要だった可能性があります。逆に再トレーニングしたモデルのパフォーマンスが同程度であれば、その特徴はおそらくそれほど重要ではありません

アブレーションは、次のような要素の重要性を特定するうえでも役立ちます。

大規模な ML システムのサブシステム全体など、大規模なコンポーネント
データ前処理ステップなどのプロセスまたは手法

どちらの場合も、コンポーネントを削除した後のシステムのパフォーマンスの変化（または変化なし）を確認します。

A/B テスト

2 つ（またはそれ以上）の手法（A と B）を統計的に比較する方法。通常、A は既存のテクニックで、B は新しいテクニックです。A/B テストでは、どの手法のパフォーマンスが優れているかが判明するだけでなく、差に統計的有意性があるかどうかも確認します

A/B テストでは通常、2 つの手法の単一の指標を比較します。たとえば、2 つの手法のモデルの精度を比較します。ただし、A/B テストでは、できます。

アクセラレータチップ

#GoogleCloud

重要な機能を実行するように設計された特殊なハードウェアコンポーネントのカテゴリディープラーニングアルゴリズムに必要な計算量を削減できます。

アクセラレータチップ（略してアクセラレータ）を使用すると、汎用 CPU と比較してトレーニングタスクと推論タスクの速度と効率を大幅に向上させることができます。トレーニングや分析に最適コンピューティング負荷の高い同様のタスクに適しています

アクセラレータチップの例:

専用ハードウェアを備えた Google の Tensor Processing Unit（TPU）ディープラーニング用です。
NVIDIA の GPU でもあります並列処理を可能にするように設計されているため、処理速度を上げることができます

accuracy

#fundamentals

正しい分類予測の数で割った値割った数値です具体的には、次のことが求められます。

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

たとえば、40 件の予測を正しく行い、10 件の予測を誤ったモデルの精度は次のようになります。

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

バイナリ分類では、正しい予測と誤った予測のさまざまなカテゴリに固有の名前が付けられます。したがって、バイナリ分類の精度の式は次のとおりです。

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ここで

TP は真陽性（正しい予測）の数です。
TN は、真陰性（正しい予測）の数です。
FP は偽陽性（誤った予測）の数です。
FN は偽陰性（誤った予測）の数です。

2 つのモデルの精度を比較対照する precision と recall。

アイコンをクリックすると、追加のメモが表示されます。

状況によっては有用な指標ですが、他の状況では誤解を招く可能性があります。特に、精度は通常、指標として画像を処理する分類モデルを評価する クラス不均衡なデータセット。

たとえば、ある特定の地域で雪が降る日数が 100 年あたり 25 日であるとします。考えています。雪が降らない日（陰性クラス）が大きく「雪の日」の降雪データセットがこの都市はクラス不均衡がある 1 日に雪が降るか降らないかを予測するはずのバイナリ分類モデルが、毎日「雪なし」と予測するとします。このモデルは精度は高いものの、予測能力はありません。次の表に、100 年間の予測の結果をまとめます。

カテゴリ	数値
TP	0
TN	36499
FP	0
FN	25

したがって、このモデルの精度は次のようになります。

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

精度が 99.93% は非常に優秀な数値に見えますが、実際にはモデルに予測力はありません。

クラスのバランスが取れていないデータセットでトレーニングされたモデルを評価する場合、通常、精度と再現率は精度よりも有用な指標です。

詳細については、ML 集中講座の分類: 精度、再現率、適合率、関連指標をご覧ください。

アクション

#rl

強化学習では、エージェントが環境の状態を遷移するメカニズムです。エージェントは、以下を使用してアクションを選択します。 policy。

活性化関数

#fundamentals

ニューラルネットワークが特徴とラベルの間の非線形（複雑）な関係を学習できるようにする関数。

よく使用される活性化関数は次のとおりです。

ReLU
シグモイド

活性化関数のグラフは単一の直線ではありません。たとえば、ReLU 活性化関数のグラフは 2 本の直線で構成されています。

2 本の線の直交座標プロット。最初の線は、x 軸に沿って -∞,0 から 0,-0 まで、y 値が常に 0 です。2 行目は 0,0 から始まります。この線の傾きは +1 なので、
0,0 から +infinity,+infinity まで続きます。

シグモイド活性化関数のグラフは次のようになります。

領域をまたがる x 値を持つ 2 次元の曲線プロット
- 無限大から + 正までの範囲で、y 値はほぼ 0 から正
ほぼ 1 です。x が 0 の場合、y は 0.5 です。曲線の傾斜は常に正で、0,0.5 で最大になり、x の絶対値が増加するにつれて徐々に減少します。

アイコンをクリックすると例が表示されます。

ニューラルネットワークでは、活性化関数はニューロンへのすべての入力の加重合計を操作します。加重合計を計算するため、ニューロンは関連する値と重みの積を返すことができますたとえば、ニューロンへの関連入力は、以下の要素で構成されます。

入力値	入力重み
2	-1.3
-1	0.6
3	0.4

したがって、加重和は次のようになります。

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

このニューラルネットワークの設計者が、ニューラルネットワークを シグモイド関数: 活性化関数ですこの場合、ニューロンはシグモイドの -2.0 は約 0.12 です。したがって、ニューロンはニューラルネットワークの次のレイヤに -2.0 ではなく 0.12 を渡します。次の図は、プロセスの関連部分を示しています。

詳細については、ML 集中講座のニューラルネットワーク: 活性化関数をご覧ください。

能動的学習

アルゴリズムが学習するデータの一部を選択するトレーニング アプローチ。アクティブラーニングは、ラベル付きの例が不足している場合や、入手するのが高価な場合に特に有用です。やみくもに多様な情報を探し求めるのではなく、ラベル付きサンプルの範囲を定め、アクティブラーニングアルゴリズムは学習に必要な特定の範囲のサンプルを示します。

AdaGrad

モデルを再スケーリングする洗練された勾配降下アルゴリズムが各パラメータの勾配を使用して、各パラメータを実質的に独立した学習率。詳しくは、こちらの AdaGrad の論文をご覧ください。

エージェント

#rl

強化学習では、エンティティです。お客様の期待する収益を最大化するためのポリシーを策定し、インフラストラクチャの状態間の environment。

より一般的な意味で、エージェントとは、目標を達成するために一連のアクションを自律的に計画して実行し、環境の変化に適応できるソフトウェアです。たとえば、LLM ベースのエージェントは、強化学習ポリシーを適用するのではなく、LLM を使用してプランを生成できます。

アグロメーションクラスタリング

#clustering

階層型クラスタリングをご覧ください。

異常検出

外れ値を特定するプロセス。たとえば、平均値とある特徴の標準偏差が 10 で 100 である場合、異常検出で値 200 に不審な点が報告されます。

AR

拡張現実の略。

PR 曲線の下の面積

PR AUC（PR 曲線の下の面積）をご覧ください。

ROC 曲線の下の面積

AUC（ROC 曲線の下の面積）をご覧ください。

AI 全般

幅広い問題解決能力を提供する、人間に頼らないメカニズム創造性、適応性ですたとえば、人工ニューラル一般的なインテリジェンスは、テキストの翻訳、交響曲の作曲、未知のゲームが登場します

人工知能

#fundamentals

高度なタスクを解決できる、人間以外のプログラムまたはモデル。たとえば、テキストを翻訳するプログラムやモデル、放射線画像から疾患を特定するプログラムやモデルはどちらも人工知能を備えています。

ML は、正式には AI の一分野であるインテリジェンスですしかし近年、一部の組織では AI の活用が進んでいます。「AI」と「ML」を同じ意味で使用します。

Attention、

#language

ニューラルネットワークで使用されるメカニズムのひとつで、特定の単語や単語の一部の重要性を示します。Attention はモデルが次のトークン/単語を予測するために必要な情報量。一般的なアテンションメカニズムは、入力セットの重み付き和で構成されます。各入力の重みは、ニューラルネットワークの別の部分で計算されます。

セルフアテンションと マルチヘッドセルフアテンション: Transformer の構成要素。

LLM: 大規模言語とはどうでしょうか。 ML 集中講座をご覧ください。

属性

#fairness

特徴と同義です。

ML の公平性では、属性は個人に関連する特性を指すことが多いです。

属性サンプリング

#df

ディシジョンフォレストをトレーニングする戦術では、 ディシジョンツリーでは、候補のうち、特徴（条件を学習する場合）通常、特徴のサブセットは、モデルごとに node。一方、属性サンプリングなしで決定木をトレーニングする場合、各ノードに対して考えられるすべての特徴が考慮されます。

AUC（ROC 曲線の下の面積）

#fundamentals

0.0 から 1.0 までの数字は、 バイナリ分類モデルの 正のクラスを分離する機能 ネガティブクラス。 AUC が 1.0 に近いほど、モデルの分離します。

たとえば、次の図は、正クラス（緑色の楕円）と負クラス（紫色の長方形）を完全に分離する分類モデルを示しています。この非現実的な完璧なモデルは AUC が 1.0 の場合:

片側に 8 つの正例、反対側に 9 つの負例がある数直線。

逆に、次の図は分類器の結果を示しています。モデルを定義します。このモデルの AUC は 0.5 です。

6 つのポジティブサンプルと 6 つのネガティブサンプルを含む数直線。サンプルの順序は、正、負、正、負、正、負、正、負、正、負、正、負です。

はい。前のモデルの AUC は 0.5 です。0.0 ではありません。

ほとんどのモデルは、この 2 つの極端な中間にあります。たとえば、次のモデルは正と負をある程度分離しているため、AUC は 0.5～1.0 の範囲にあります。

6 つのポジティブサンプルと 6 つのネガティブサンプルを含む数直線。ネガティブ、ネガティブ、ネガティブ、ネガティブ、
ポジティブ、ネガティブ、ポジティブ、ポジティブ、ネガティブ、ポジティブ、ポジティブ、
評価します

AUC では、分類しきい値に設定した値は無視されます。AUC はは、可能性のあるすべての分類しきい値を考慮します。

アイコンをクリックすると、AUC 曲線と ROC 曲線の関係を確認できます。

AUC は測定対象の面積 ROC 曲線。たとえば、正例と負例を完全に分離するモデルの ROC 曲線は次のようになります。

AUC は、上の図のグレーの領域の面積です。この異例なケースでは、面積はグレー領域の長さ（1.0）にグレー領域の幅（1.0）を掛けたものです。このプロダクトは 1.0 と 1.0 の AUC は正確に 1.0 になります。 AUC スコア。

逆に、クラスを分離できない分類器の ROC 曲線は、次のようなものです。このグレーの領域の面積は 0.5 です。

より一般的な ROC 曲線は、おおよそ次のようになります。

この曲線の下の面積を手動で計算するのは大変な作業です。そのため、通常はプログラムで AUC 値のほとんどを計算します。

アイコンをクリックすると、AUC のより正式な定義が表示されます。

AUC は、分類器が予測値よりも高い信頼度を持つ確率です。陽性のサンプルが無作為に抽出され、陽性と陽性の場合は、ランダムに選択されたネガティブな例が正になります。

詳細については、機械学習集中講座の分類: ROC と AUC をご覧ください。

拡張現実

#image

コンピュータ生成の画像をユーザーの現実世界ビューに重ねて、合成ビューを提供する技術。

オートエンコーダ

#language

#image

最も重要な情報を抽出することを学習する表示されます。オートエンコーダは、エンコーダと decoder。オートエンコーダは次の 2 段階のプロセスに依存します。

エンコーダは、入力を（通常は）損失の多い低次元の（中級）形式にします。
デコーダは、元の入力の非可逆バージョンを、低次元の形式を元の高次元の形式に変換できます。できます。

オートエンコーダは、デコーダにシーケンスをエンコーダの中間形式から元の入力を再構築するできる限り近い位置に集計します中間形式は元の形式よりも小さい（低次元）ため、オートエンコーダは入力内のどの情報が重要かを学習する必要があります。出力は入力と完全には一致しません。

例:

入力データがグラフィックの場合、正確でないコピーは元のグラフィックに似ていますが、多少変更されています。おそらく、元の画像からノイズを取り除いたり、画像を塗りつぶしたりします。ドット抜けがあります
入力データがテキストの場合、オートエンコーダは、元のテキストを模倣している（同じではありません）

変分オートエンコーダもご覧ください。

自動化バイアス

#fairness

自動化された意思決定システムが誤りを犯した場合でも、人間の意思決定者が自動化されていない情報よりも自動化された意思決定システムによる推奨事項を優先する場合。

公平性: バイアスをご覧ください。

AutoML

機械学習モデルを構築するための自動化プロセス。AutoML は、次のようなタスクを自動的に実行できます。

最も適切なモデルを検索します。
ハイパーパラメータをチューニングします。
データを準備します（データの準備、 特徴量エンジニアリング）。
生成されたモデルをデプロイします。

AutoML は、機械学習パイプラインの開発にかかる時間と労力を節約し、予測精度を向上させることができるため、データサイエンティストに役立ちます。また、複雑な構成になるため、専門家でなく ML タスクをより身近なものにします。

詳細については、機械学習集中講座の自動 ML（AutoML）をご覧ください。

自己回帰モデル

#language

#image

#generativeAI

独自の過去のモデルに基づいて予測を推測するモデル 説明します。たとえば、自己回帰言語モデルは、トークン: 以前に予測されたトークンに基づきます。すべて Transformer ベース 大規模言語モデルは自己回帰的です。

対照的に、GAN ベースの画像モデルは通常、自己回帰的ではない反復処理ではなく、単一のフォワードパスで画像を生成するためできます。ただし、特定の画像生成モデルは自己回帰的です。段階的に画像を生成します。

予備損失

損失関数 - ニューラルネットワークのモデルのメイン損失関数とともに使用され、重みがランダムに初期化される初期反復処理中にトレーニングを加速するのに役立ちます。

補助損失関数は、効果的な勾配を前のレイヤにプッシュします。これにより トレーニング中の収束 勾配消失問題に対処する方法を紹介します。

平均適合率

ランク付けされた一連の結果のパフォーマンスを要約するための指標。平均適合率は、トレーニングデータから関連する各結果に対する適合率値（各結果は前の結果と比較して再現率が上昇するランキングリスト）。

PR 曲線の下の面積もご覧ください。

軸に揃えられた条件

#df

ディシジョンツリーでは、単一の特徴のみを含む条件。たとえば、area が特徴の場合、次は軸に沿った条件です。

area > 200

「傾斜条件」も参照してください。

B

誤差逆伝播法

#fundamentals

ニューラルネットワークで勾配降下を実装するアルゴリズム。

ニューラルネットワークのトレーニングには多数の反復が必要次の 2 段階のサイクルで行われます。

順伝播中、システムはサンプルのバッチを処理して予測を生成します。システムは各トークンを予測を各ラベル値に付加します。違いは、予測とラベル値はその例の損失です。システムは、すべてのサンプルの損失を集計して、現在のバッチの合計損失を計算します。
バックワードパス（バックプロパゲーション）の間は、損失がすべてのニューロンの重みを 非表示レイヤ。

多くの場合、ニューラルネットワークは多くの隠れ層にまたがって多くのニューロンを含んでいます。これらのニューロンはそれぞれ、異なる形で全体的な損失に寄与しています。誤差逆伝播法により重みの増減適用できます。

学習率は、学習率を各バックワードパスが各重みを増減する度合い。学習率が大きいほど、各重みの増減は小さい学習率よりも大きくなります。

計算では、誤差逆伝播法は チェーンルール。微積分学から得られたものですつまり、誤差逆伝播法では誤差の偏導関数 必要があります

数年前、ML 担当者はバックプロパゲーションを実装するためのコードを記述する必要がありました。Keras などの最新の ML API では、誤差逆伝播法が実装されています。さて、

詳細については、ML 集中講座のニューラルネットワークをご覧ください。

バギング

#df

アンサンブルをトレーニングするためのメソッドで、構成要素のモデルが、トレーニングのランダムなサブセットでトレーニングされる 置換でサンプリングされた例。たとえば、ランダムフォレストは、バギングでトレーニングされたディシジョンツリー。

バギングという用語は、ブートストラップ アグリゲーションの短縮形です。

ランダムフォレストをご覧ください。デシジョンフォレストコースをご覧ください。

言葉のバッグ

#language

フレーズやパッセージ内の単語の表現。表示されます。たとえば、bag of words という単語は、次の 3 つのフレーズを同じように検索します。

犬がジャンプする
犬に飛びかかる
犬が

各単語はスパースベクトルのインデックスにマッピングされます。ベクトルには語彙内のすべての単語に対するインデックスがある。たとえば、「犬が飛び跳ねる」というフレーズは、単語「犬」、「飛び跳ねる」に対応する 3 つのインデックスでゼロ以外の値を持つ特徴ベクトルにマッピングされます。ゼロ以外の値は次のいずれかになります。

1 の場合は単語の存在を示します。
バッグの中に単語が出現する回数。たとえば、フレーズが「the maroon dog is a dog with maroon fur」の場合、maroon と dog の両方が 2 として表され、他の単語は 1 として表されます。
単語がバッグに出現する回数のログなど、その他の値。

ベースライン

別のモデル（通常はより複雑なモデル）のパフォーマンスを比較するための参照点として使用されるモデル。たとえば、 ロジスティック回帰モデルが ディープモデルのベースラインとして最適です。

ベースラインを使用すると、モデル開発者は特定の問題に対して新しいモデルに対して新しいモデルで達成しなければならない最低限の期待パフォーマンス有用とは言えません

Batch

#fundamentals

1 回のトレーニングの反復で使用されるサンプルのセット。バッチサイズによって、バッチ内のサンプル数が決まります。

バッチとエポックの関連については、エポックをご覧ください。

線形回帰: ハイパーパラメータをご覧ください。

バッチ推論

#TensorFlow

#GoogleCloud

複数の予測結果の予測 ラベルなしのサンプルを小さなサイズに分割使用します。

バッチ推論では、アクセラレータチップの並列化機能を利用できます。つまり、複数のアクセラレータがラベルのないサンプルの異なるバッチで予測を同時に推論できるため、1 秒あたりの推論数が大幅に増加します。

本番環境 ML システム: 静的と動的推論をご覧ください。

バッチ正規化

隠れ層の活性化関数の入力または出力の正規化。バッチ正規化では、次のような利点があります

保護することでニューラルネットワークの安定性を高めます。 外れ値の重みに対してトレーニングされます。
学習率を高くすると、トレーニングを高速化できます。
過学習を低減します。

バッチサイズ

#fundamentals

バッチ内のサンプルの数。たとえば、バッチサイズが 100 の場合、モデルは イテレーションあたり 100 の例。

一般的なバッチサイズ戦略は次のとおりです。

確率的勾配降下法（SGD）: バッチサイズが 1 です。
フルバッチ。バッチサイズは、全体のサンプル数です。 トレーニングセット。たとえば、トレーニングセットが 100 万個の例が含まれる場合、バッチサイズは 100 万個になります。説明します。通常、フルバッチは非効率的な戦略です。
ミニバッチ。バッチサイズは通常 10 と 1,000 です。通常、ミニバッチが最も効率的な戦略です。

詳しくは以下をご覧ください。

本番環境の ML システム: 静的推論と動的推論（ML クラッシュコース）。
ディープラーニングのチューニングハンドブックをご覧ください。

ベイズニューラルネットワーク

重みと出力の不確実性を考慮した確率的ニューラルネットワーク。標準的なニューラルネットワークは、回帰モデルは通常、スカラー値を予測します。たとえば、標準モデルは住宅の価格を予測し、 853,000 人です。一方、ベイジアンニューラルネットワークは値の分布を予測します。たとえば、ベイジアンモデルは、標準偏差 67,200 の住宅価格 853,000 を予測します。

ベイズニューラルネットワークは <ph type="x-smartling-placeholder"></ph> ベイズTheorem 重みと予測の不確実性を計算できますベイズニューラル不確実性を定量化することが重要な場合に役立ちます。分析することにしましたベイズニューラルネットワークも 過学習を防ぐ。

ベイズ最適化

計算コストの高い目的関数を最適化する確率回帰モデル手法。ベイズ学習手法を使用して不確実性を定量化するサロゲートを最適化します。以降ベイズ最適化自体にもコストがかかり、通常は最適化に使用される評価にコストがかかるタスクで、パラメータの数が少なく、 ハイパーパラメータを選択する。

ベルマン方程式

#rl

強化学習では、最適解で次のアイデンティティが Q 関数:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

強化学習アルゴリズムは、次の更新ルールで Q-learning を作成します。

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

ベルマン方程式は強化学習以外にも応用できる動的プログラミングです。詳しくは、 <ph type="x-smartling-placeholder"></ph> ベルマン方程式に関する Wikipedia のエントリ。

BERT（双方向エンコーダ） Transformers による表現）

#language

テキスト表現のモデルアーキテクチャ。トレーニング済みの BERT モデルは、テキスト分類用の大規模なモデルの一部として機能できます。学習します

BERT には次の特徴があります。

Transformer アーキテクチャを使用しているため、 セルフアテンションを重視します。
Transformer の encoder 部分を使用します。エンコーダのジョブ特定のタスクを実行するのではなく、学習します。
双方向である。
マスキングを使用: 教師なしトレーニング。

BERT のバリエーションには次のようなものがあります。

ALBERT これは A L BERT の頭字語です。
LaBSE。

BERT の概要については、オープンソース化された BERT: 自然言語処理の最先端の事前トレーニングをご覧ください。

バイアス（倫理 / 公平性）

#fairness

#fundamentals

1. 固定観念、偏見やえこひいき表示することもできます。これらのバイアスは、データ収集やデータの解釈、システムの設計、ユーザーとの考えることができますこのタイプのバイアスには次のものがあります。

自動化バイアス
確証バイアス
実験者のバイアス
グループ帰属バイアス
暗黙のバイアス
所属グループのバイアス
群外の均一性バイアス

2. サンプリングまたは報告手順によって生じる体系的なエラー。この種のバイアスには、次のようなものがあります。

カバレッジバイアス
回答率バイアス
参加バイアス
報告バイアス
サンプリングバイアス
選択バイアス

ML モデルのバイアス項と混同しないでください。または予測バイアス。

公平性: バイアス ML 集中講座をご覧ください。

バイアス（数学）またはバイアス項

#fundamentals

起点からの切片またはオフセット。バイアスはモデルです。このアイコンは、名前が次のとおりです。

b
w₀

たとえば、バイアスは次の式の b です。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

単純な 2 次元の線の場合、バイアスは「y 切片」を意味します。たとえば、次の図の線のバイアスは 2 です。

傾き 0.5、バイアス（y 切片）2 の線のグラフ。

バイアスが存在するのは、すべてのモデルが原点（0,0）から始まるわけではありません。たとえば遊園地への入場料は 2 ユーロで、お客様の滞在 1 時間あたり 0.5 ユーロ。したがって、合計費用をマッピングするモデルには 2 ユーロの最小費用があるため、バイアスが 2 になります。

バイアスは、倫理と公平性に関するバイアスや予測バイアスと混同しないでください。

線形回帰をご覧ください。をご覧ください。

双方向

#language

ターゲットテキストの区間の前と後の両方のテキストを評価するシステムを説明する用語。一方、単方向システムは、ターゲットセクションのテキストの前にあるテキストのみを評価します。

たとえば、次の質問で下線付きの単語の確率を決定する必要があるマスクされた言語モデルについて考えてみましょう。

お客様の _____ は

一方通行の言語モデルでは、「What」、「is」、「the」という単語から得られるコンテキストのみに基づいて確率を算出する必要があります。一方、双方向言語モデルは「with」と「you」からコンテキストを取得できるため、モデルがより正確な予測を生成できる可能性があります。

双方向言語モデル

#language

言語モデルは、特定の単語が出現する確率を基づくテキストの抜粋で、特定のトークンが前と後のテキスト。

ビグラム

#seq

#language

N=2 である N グラム。

バイナリ分類

#fundamentals

相互に排他的な 2 つのクラスのうちの 1 つを予測する分類タスクの一種。

陽性クラス
陰性クラス

たとえば、次の 2 つの ML モデルは、それぞれがバイナリ分類:

メールメッセージが「迷惑メール」（肯定的なクラス）または「迷惑メール以外」（除外クラス）です。
医学的症状を評価し、患者が特定の疾患（陽性クラス）を持っているか、ないあります。

マルチクラス分類とは対照的です。

ロジスティック回帰と分類しきい値もご覧ください。

分類をご覧ください。をご覧ください。

バイナリ条件

#df

ディシジョンツリーの条件通常ははいといいえの 2 つしか結果がありませんたとえば、バイナリ条件は次のとおりです。

temperature >= 100

「ノンバイナリー条件」は、

詳細については、決定木コースの条件の種類をご覧ください。

ビニング

バケット化と同義。

BLEU（Bilingual Evaluation Understudy）

#language

翻訳の品質を示す 0.0 ～ 1.0 のスコア（英語とロシア語など）。BLEU スコア 1.0 は完全な翻訳を示します。BLEU スコアが 0.0 の場合はひどい訳です。

ブースト

モデルが現在誤って分類しているサンプルを重み付けして、シンプルで精度が低い一連の分類子（「弱い」分類子）を反復的に組み合わせて、精度の高い分類子（「強い」分類子）にする機械学習手法。

勾配ブースト決定木？デシジョンフォレストコースをご覧ください。

境界ボックス

#image

画像内の領域を中心とする長方形の (x, y) 座標は、下の画像の犬のように入力します。

ソファに座っている犬の写真。左上の座標が（275, 1271）、右下の座標が（2954, 2761）の緑色の境界ボックスが犬の体を囲んでいる

ブロードキャスト

行列数学演算のオペランドの形状を拡張して、そのオペレーションと互換性のあるディメンション。たとえば線形代数では、行列の加算演算で 2 つのオペランドが同じ次元にする必要があります。したがって、形状が（m、n）のマトリックスを長さが n のベクトルに追加することはできません。ブロードキャストでは、各列に同じ値を複製することで、長さ n のベクトルを形状 (m, n) のマトリックスに仮想的に拡張し、このオペレーションを可能にします。

たとえば、次のような定義の場合、線形代数では A と B は次元が異なるためです。

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

一方、ブロードキャストでは、B を次のように仮想的に拡張することで、A+B のオペレーションが可能になります。

 [[2, 2, 2],
  [2, 2, 2]]

したがって、A+B は有効なオペレーションとなります。

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

詳細については、NumPy でのブロードキャストの説明をご覧ください。

バケット化、

#fundamentals

1 つの特徴を複数のバイナリ特徴に変換する「バケット」と呼び、通常は値の範囲に基づきます。切り取られた対象物は通常、 継続的な機能。

たとえば、温度を 1 つの単語として表すのではなく、連続浮動小数点特徴を使用して、特定の温度範囲を次のような個別のバケットに分割できます。

摂氏 10 度以下は「コールド」バケットになります。
11～24 度が「温暖」バケットになります。
25 度以上は「暖かい」バケットになります。

モデルは、同じバケット内のすべての値を同じ方法で処理します。たとえば、値 13 と 22 はどちらも温帯バケットに含まれているため、モデルは 2 つの値を同じ方法で処理します。

アイコンをクリックすると、追加のメモが表示されます。

温度を連続特徴量で表現すると、モデルは温度を 1 つの特徴として扱います。温度を表す場合 3 つのバケットに分類すると、モデルは各バケットを個別の特徴として扱います。つまり、モデルは、各バケットとラベルとの関係を個別に ラベル。たとえば、 線形回帰モデルは、バケットごとに個別の重み。

バケット数を増やすと、モデルが学習する関係の数が増えるため、モデルの複雑さが増します。たとえば、コールド、温室、暖かいバケットは基本的に、モデルに 3 つの個別の特徴を提供します「新規顧客の獲得」目標をさらに 2 つのバケット（フリーズとホットなど）を 5 つの個別の特徴量でトレーニングする必要があります。

作成するバケットの数や、各バケットの範囲をどのように把握すればよいですか？通常、回答を得るにはかなりのテストが必要です。

数値データ: ビニングをご覧ください。

C

調整レイヤ

予測後の調整。通常は予測バイアスを考慮して行います。調整された予測と観測されたラベルセットの分布と一致している必要があります。

候補生成

#recsystems

おすすめシステムによって選択された最初の一連の最適化案。たとえば、10 万タイトルを提供する書店について考えてみましょう。候補生成フェーズでは、特定のユーザーに適した書籍のリストが、500 冊程度に絞られます。しかし、500 冊でもユーザーにおすすめするには多すぎます。その後はより高価ですがレコメンデーションシステムの各フェーズ（スコアリング、 再ランキングなど）です。役立つことがあります。

詳細については、候補の生成概要をご覧ください。

候補サンプリング

すべての確率分布の確率を計算するトレーニング時間の最適化正のラベル。たとえば、 ソフトマックス。ただし、ランダムなネガティブラベルのサンプルです。たとえば、beagle と dog というラベルが付いた例が与えられた場合、候補サンプリングでは、次に示すものの予測確率と対応する損失項が計算されます。

beagle
dog
残りの陰性クラス（cat、「ロリポップ」、「フェンス」など）。

負のクラスは、正のクラスが常に適切な正の強化を得ている限り、負の強化を頻繁に受けなくても学習できるという考え方です。これは実際に実証されています。

候補のサンプリングはトレーニングアルゴリズムよりも計算効率が高いすべての陰性クラスの予測を計算する、陰性クラスの数が非常に多くなっています。

カテゴリデータ

#fundamentals

可能な値の特定のセットを持つ特徴量。たとえば、traffic-light-state という名前のカテゴリ特徴について考えてみましょう。この特徴には、次の 3 つの値のいずれかしか設定できません。

red
yellow
green

traffic-light-state をカテゴリ特徴量として表現することで、モデルは red、green、yellow が運転行動に与える影響の違いを学習できます。

カテゴリ特徴は、離散特徴とも呼ばれます。

数値データとは対照的です。

カテゴリデータをご覧ください。

因果言語モデル

#language

単方向言語モデルと同義。

双方向言語モデルを参照して、言語モデリングにおけるさまざまな方向性のアプローチを対比します。

centroid

#clustering

k 平均法またはk 中央値アルゴリズムによって決定されたクラスタの中心。たとえば、k が 3 の場合、K 平均法または K 中央値アルゴリズムは 3 つのセントロイドを見つけます。

クラスタリングアルゴリズムをご覧ください。をご覧ください。

セントロイドベースのクラスタリング

#clustering

データを整理するクラスタリング アルゴリズムのカテゴリ非階層クラスタに分割できます。K 平均法が最も広く、セントロイドベースのクラスタリングアルゴリズムを使用します。

対比する階層型クラスタリング学習します。

詳細については、クラスタリングコースのクラスタ化アルゴリズムをご覧ください。

Chain-of-Thought プロンプト

#language

#generativeAI

大規模言語モデル（LLM）が推論を段階的に説明するように促すプロンプトエンジニアリング手法。たとえば、次のプロンプトについて考えてみましょう。特に 2 番目の文に注目してください。

0 から 60 までの自動車では、ドライバーが経験する重力勢はいくつになるでしょう。マイル/h 7 秒？関連するすべての計算を解答に表示します。

LLM のレスポンスは次のようになります。

0、60、7 の値を代入して、一連の物理公式を表示する適切な場所に配置する必要があります。
これらの数式が選択された理由と、さまざまな変数の意味を説明します。

思考プロセスプロンプトを使用すると、LLM はすべての計算を実行するため、より正確な回答が得られる可能性があります。さらに、思考の流れプロンプトを使用すると、ユーザーは LLM のステップを調べて、回答が妥当かどうかを判断できます。

チャット

#language

#generativeAI

ML システムとやり取りされる内容。通常は、 大規模言語モデル。チャットの以前のやり取り（入力した内容と大規模言語モデルがどのように応答したか）が、コンテキストに基づいて説明します。

chatbot は大規模言語モデルのアプリケーションです。

チェックポイント

モデルのパラメータの状態をキャプチャするデータ。次のいずれかです。トレーニング中または完了後に行われます。たとえばトレーニング中に次のことが可能です。

トレーニングを意図的に停止する、またはトレーニングを停止した結果として、表示されます。
チェックポイントをキャプチャします。
後で、別のハードウェアでチェックポイントを再読み込みします。
トレーニングを再開します。

クラス

#fundamentals

ラベルが属することができるカテゴリ。例:

バイナリ分類モデルで、「Spam」の 2 つのクラスを「Spam」と「Not Spam」にできます。
マルチクラス分類モデルの場合犬種を識別する場合、クラスは Poodle、beagle、Pug、といった具合です

分類モデルはクラスを予測します。これに対して、回帰モデルはです。

分類をご覧ください。をご覧ください。

分類モデル

#fundamentals

予測がクラスであるモデル。たとえば、次のすべてが分類モデルです。

入力文の言語を予測するモデル（フランス語、スペイン語？イタリア語）
樹木の種類（Maple、オーク？バオバブ？）。
特定の医学的状態の陽性または陰性のクラスを予測するモデル。

一方、回帰モデルはクラスではなく数値を予測します。

一般的な分類モデルには次の 2 種類があります。

バイナリ分類
マルチクラス分類

分類しきい値

#fundamentals

バイナリ分類では、元の数値を変換する 0 ～ 1 の数値で ロジスティック回帰モデル 陽性のクラスの予測に変換するまたはネガティブクラス。分類しきい値は、モデルトレーニングによって選択される値ではなく、人間が選択する値です。

ロジスティック回帰モデルは、0～1 の元の値を出力します。以下の手順を行います。

この元の値が分類しきい値より大きい場合、正クラスが予測されます。
この未加工の値が分類しきい値より小さい場合、予測されます。

たとえば、分類しきい値が 0.8 であるとします。生の値がが 0.9 の場合、モデルは陽性のクラスと予測します。未加工の値が 0.7 の場合、モデルは陰性のクラスを予測します。

分類しきい値の選択は、分類しきい値の数に 偽陽性と 偽陰性。

アイコンをクリックすると、追加のメモが表示されます。

モデルやデータセットが進化するにつれ、エンジニアはトレーニングされます。分類しきい値が変更されると、正のクラスの予測が突然負のクラスになることがあります。その逆も同様です。

たとえば、バイナリ分類疾患予測モデルについて考えてみましょう。初年度にシステムが稼働した場合、次のようになります。

特定の患者に対する生の値は 0.95 です。
分類しきい値は 0.94 です。

したがって、システムは陽性のクラスを診断します。（患者は息を呑み、「気分が悪い」）

1 年後、値は次のようになります。

同じ患者の元の値は 0.95 のままです。
分類しきい値が 0.97 に変更されます。

したがって、システムはその患者を陰性クラスとして再分類します。（「今日も一日おめでとう！病気ではありません」）同じ患者。別の診断。

しきい値と混同マトリックスをご覧ください。

クラスの不均衡なデータセット

#fundamentals

分類問題のデータセットで、単語の総数は各クラスのラベルの数が大きく異なる。たとえば、2 つのラベルが次のように分割されているバイナリ分類データセットについて考えてみましょう。

1,000,000 個の否定ラベル
10 個の陽性ラベル

ネガティブラベルとポジティブラベルの比率は 100,000:1 であるため、これはクラスのバランスが取れていないデータセットです。

一方、次のデータセットはクラス不均衡ではありません。理由は次のとおりです。正のラベルに対する負のラベルの比率は比較的 1 に近い:

517 件の否定ラベル
483 個の正のラベル

マルチクラスデータセットはクラス不均衡になることもあります。たとえば、次のマルチクラス分類データセットも、1 つのラベルの例が他の 2 つよりもはるかに多いため、クラスの不均衡があります。

クラスが「green」の 1,000,000 個のラベル
クラスが「purple」の 200 個のラベル
クラス「orange」の 350 個のラベル

エントロピー、マジョリティクラス、および少数派クラス。

クリッピング

#fundamentals

次のいずれか、または両方を行うことで外れ値を処理する手法。

最大値を超える特徴値を削減する最小しきい値まで下がります
最小しきい値を下回る特徴値の増加選択します。

たとえば、特定の特徴の値の 0.5% 未満が 40～60 の範囲外にあるとします。この場合は、以下のことができます。

60（最大しきい値）を超えるすべての値をクリップして、ちょうど 60 にします。
40（最小しきい値）未満のすべての値をクリップして、ちょうど 40 にします。

外れ値はモデルに損傷を与え、トレーニング中に重みのオーバーフローを引き起こすことがあります。また、異常値によって、 accuracy などの指標。クリッピングは、損傷を制限する一般的な手法です。

勾配クリッピングは、トレーニング中に勾配値を指定された範囲内に強制します。

数値データ: 正規化をご覧ください。

Cloud TPU

#TensorFlow

#GoogleCloud

マシンの高速化を目的として設計された専用のハードウェアアクセラレータ学びます。

クラスタリング

#clustering

関連する例のグループ化（特に 教師なし学習。すべてのサンプルをグループ化すると、人間が必要に応じて各クラスタに意味を供給できます。

数多くのクラスタリングアルゴリズムが存在します。たとえば、K 平均法アルゴリズムは、次の図のように、重心への近さに基づいてサンプルをクラスタ化します。

X 軸に「木の幅」、Y 軸に「木の高さ」とラベルが付けられた 2 次元グラフ。グラフには 2 つあります
数十個のデータポイントがありますデータポイントは、
その近接性に基づいて分類されますつまり、一方のセントロイドに最も近いデータポイントはクラスタ 1 に分類され、もう一方のセントロイドに最も近いデータポイントはクラスタ 2 に分類されます。

人間の研究者がクラスタをレビューして、たとえばクラスタ 1 に「準木」というラベルを付けるクラスタ 2 は「フルサイズのツリー」です。

もう 1 つの例として、画像データに基づくクラスタリングアルゴリズムを中心点からの距離の例を以下に示します。

多数のデータポイントが同心円状に並んでおり、
穴のようなものです一番内側のリング
データポイントのうち、クラスタ 1、中央のリング
クラスタ 2 に分類されます。最も外側のリングは
クラスタ 3.

クラスタリングに関するコースをご覧ください。をご覧ください。

共同適応

ニューロンが、ネットワーク全体の動作ではなく、特定の他のニューロンの出力にほぼ完全に依存してトレーニングデータ内のパターンを予測する場合。共同適応を引き起こすパターンが検証データに存在しない場合、協調適応は過学習の原因となります。 ドロップアウト正規化は、ドロップアウトによりニューロンが特定の他のニューロンにのみ依存できないため、協調適応を減らします。

協調フィルタリング

#recsystems

1 人のユーザーの興味 / 関心に関する予測を行う自動的に最適化されます。コラボレーションフィルタリング レコメンデーションシステムでよく使用されます。

詳細については、レコメンデーションシステムコースの協調フィルタリングをご覧ください。

コンセプトドリフト

特徴とラベルの間の関係の変化。時間の経過とともに、コンセプトドリフトによってモデルの品質が低下します。

トレーニング中に、モデルは特徴量とラベルの関係をトレーニングセットでそのラベルが付けられます。トレーニングセットのラベルが現実世界を適切に表している場合、モデルは現実世界で適切な予測を行う必要があります。しかし、コンセプトドリフトにより、モデルの時間の経過とともに低下する傾向があります

たとえば、特定の自動車モデルが「燃費が良い」かどうかを予測するバイナリ分類モデルについて考えてみましょう。つまり、特徴は次のようなものになります。

車重量
エンジン圧縮
感染タイプ

ラベルは次のいずれかになります。

燃費効率
燃料効率が悪い

しかし、「燃費の良い車」のコンセプトは常に変化しています。1994 年に「燃費効率が高い」とラベル付けされた自動車モデルは、2024 年にはほぼ確実に「燃費効率が低い」とラベル付けされます。コンセプトドリフトが発生しているモデルは、時間の経過とともに有用な予測が得られにくくなります。

非定常性と比較対照してください。

アイコンをクリックすると、追加のメモが表示されます。

コンセプトドリフトを補正するには、次の割合よりも速くモデルを再トレーニングします。説明しますたとえば、コンセプトドリフトによってモデルの精度が有意なマージンを 2 か月ごとに取得して、モデルをより頻繁に再トレーニングする 2 か月に 1 回です。

商品の状態（condition）

#df

ディシジョンツリーでは、式を評価するノード。たとえば、インフラストラクチャのディシジョンツリーには次の 2 つの条件があります。

（x > 0）と（y > 0）の 2 つの条件で構成されるディシジョンツリー。

条件は、分割またはテストとも呼ばれます。

葉とのコントラスト条件。

打ち合わせ

#language

幻覚と同義。

技術的には、「幻覚」よりも「混同」のほうが正確な用語でしょう。しかし、ハルシネーションが最初に普及しました。

構成

モデルのトレーニングに使用される初期プロパティ値を割り当てるプロセス。次のものがあります。

モデルの構成レイヤ
データの場所
次のようなハイパーパラメータ

ML プロジェクトでは、特別な API を使用して構成を行うことができます。次のような構成ライブラリを使用します。

確証バイアス

#fairness

既存の信念や仮説を裏付けるような方法で情報の検索、解釈、優先、回想を行う傾向。ML デベロッパーが誤って収集またはラベル付けする可能性があるデータから導き出したデータと考えています確証バイアスは暗黙的バイアスの一種です。

テスト担当者のバイアスは、既存の仮説が確認されるまでテスト担当者がモデルのトレーニングを継続する、確証バイアスの一種です。

混同行列

#fundamentals

分類モデルが行った正しい予測と誤った予測の数をまとめた NxN 表。たとえば、二値分類モデルの次の混同行列について考えてみましょう。

	腫瘍（予測）	腫瘍以外（予測）
がん（グラウンドトゥルース）	18（TP）	1（FN）
がん以外（グラウンドトゥルース）	6（FP）	452（TN）

上記の混同行列は、次のことを示しています。

正解ラベルが「腫瘍」の 19 件の予測のうち、モデルは 18 件を正しく分類し、1 件を誤って分類しました。
グラウンドトゥルースが非腫瘍であった 458 件の予測のうち、モデルは正しく分類されたのは 452 で、誤って 6 に分類されました。

マルチクラス分類の問題の混同行列は、間違いのパターンを特定するのに役立ちます。たとえば、3 種類のアヤメ（Virginica、Versicolor、Setosa）を分類する 3 クラスのマルチクラス分類モデルの混同行列について考えてみましょう。グラウンドトゥルースがバージニア州だったとき、混同行列により、モデルが誤認する可能性が非常に高いことがセトサより Versicolor を予測する:

	セトサ（予測）	バーシカラー（予測）	ヴァージニア（予測）
Setosa（グラウンドトゥルース）	88	12	0
Versicolor（グラウンドトゥルース）	6	141	7
バージニア（グラウンドトゥルース）	2	27	109

さらに別の例として、混同行列を見ると、モデルのトレーニングに認識しようとすると、誤って 4 ではなく 9 と予測されがちです。誤って 7 ではなく 1 と予測してしまったりします。

混同行列は、 適合率を含む、さまざまなパフォーマンス指標 再現率。

選挙区の解析

#language

文を小さな文法構造（「構成要素」）に分割する。 ML システムの後方の部分（API など）は、 自然言語理解モデルは元の文よりも構成要素を簡単に解析できます。たとえば、次の文について考えてみましょう。

友だちが 2 匹の猫を育てました。

選挙区パーサーは、この文を次のように分割できます。 2 つの構成要素があります。

My Friend は名詞句です。
adopted Two cats は動詞句です。

これらの構成要素は、さらに小さな構成要素に細分化できます。たとえば、動詞句

2 匹の猫を飼い始めた

はさらに次の 2 つに分類できます。

adopted は動詞です。
2 匹の猫も名詞句です。

コンテキスト化された言語のエンベディング

#language

#generativeAI

ネイティブの人間の話者のように単語やフレーズを「理解」することに近いエンベディング。コンテキスト化された言語エンベディングでは、複雑な構文、セマンティクス、コンテキストを理解できます。

たとえば、英語の単語「cow」のエンベディングについて考えてみましょう。古いエンベディングたとえば word2vec は英語を表す エンベディング空間内の距離がから雄牛までの距離は、ewe（メスの羊）から（オスの羊）またはメスからオスに。コンテキスト化された言語エンベディングでは、英語を話すユーザーがいることを認識することで、「牛」または「雄牛」を意味する「cow」はカジュアルな意味で使います。

コンテキストウィンドウ

#language

#generativeAI

特定の期間内にモデルが処理できるトークンの数 prompt。コンテキストウィンドウが大きいほど、モデルはより多くの情報を使用できるため、プロンプトに一貫性のある回答を提供できます。

連続的な特徴

#fundamentals

温度や重量など、無限の値の範囲を持つ浮動小数点特徴量。

離散特徴とは対照的です。

便宜的サンプリング

迅速に実行するために科学的に収集されていないデータセットを使用する学びました。後で、科学的に収集されたデータセットに切り替えることが重要です。

収束

#fundamentals

損失値の変化がほとんどないか、またはほとんど変化していないときに到達する状態 イテレーションごとにはまったくありません。たとえば、次のようになります。 損失曲線は、約 700 回の反復で収束することを示唆しています。

デカルトグラフ。X 軸は損失です。Y 軸はトレーニングイテレーションの数です。最初の数回の反復では損失が非常に高くなりますが、急激に低下します。約 100 回のイテレーション後、損失は引き続き減少していますが、はるかに緩やかになっています。約 700 回のイテレーション後、損失は横ばいになります。

追加のトレーニングでモデルが改善されなくなると、モデルは収束します。

ディープラーニングでは、損失値が多くの反復処理で一定またはほぼ一定のままになり、最終的に減少することがあります。損失値が長期間一定の場合、一時的に収束したように見えることがあります。

早期停止もご覧ください。

詳細については、ML 集中講座のモデルの収束と損失曲線をご覧ください。

凸関数

関数のグラフの上にある領域が凸集合である関数。プロトタイプの凸関数は、文字 U のような形にします。たとえば、次の関数はすべて凸関数です。

それぞれ最小点が 1 つある U 字型曲線。

一方、次の関数は凸ではありません。また、グラフの上の領域は凸集合ではありません。

2 つの異なる局所最小点を持つ W 字型の曲線。

厳密な凸関数には局所的な最小値が 1 つあり、グローバルな最小値でもあります。古典的な U 字型関数は厳密凸関数です。ただし、一部の凸関数は（直線など）は U 字型ではありません。

アイコンをクリックすると、計算の詳細を確認できます。

次のような、一般的な損失関数の次は、凸関数です。

L₂ 損失
ログ損失
L₁ 正規化
L₂ 正規化

勾配降下法の多くのバリエーションでは、厳密凸関数の最小値に近い点が確実に見つかります。同様に多くのバリエーションが 確率的勾配降下法では、確率分布が（ただし、保証ではありません）必要があります。

2 つの凸関数の合計（たとえば、 L₂ 損失 + L₁ 正則化）は凸関数です。

ディープモデルは決して凸関数ではありません。驚くべきことに、組織のために設計された 凸最適化では、いずれにしてもディープネットワークではグローバルな最小値であるとは限りません。

詳細については、ML 集中講座の収束と凸関数をご覧ください。

凸最適化

次のような数学的手法を使用するプロセス 勾配降下法を使って 凸関数の最小値。機械学習の多くの研究は、さまざまな問題を凸最適化問題として定式化し、それらの問題をより効率的に解決することに焦点を当てています。

詳細については、 Convex 最適化。

凸集合

ユークリッド空間のサブセットで、サブセット内の任意の 2 点間を結ぶ線がサブセット内に完全に収まる。たとえば、次の 2 つの形状は凸集合です。

長方形のイラスト。楕円形の別のイラスト。

一方、次の 2 つの図形は凸集合ではありません。

スライスが欠落している円グラフのイラスト。
極めて不規則な多角形の別の例。

畳み込み

#image

数学では、さりげなく言うと 2 つの関数が混ざり合っています。ML では、畳み込みによって畳み込みフィルタと入力行列が混合され、重みがトレーニングされます。

機械学習における「畳み込み」という用語は、多くの場合、畳み込み演算または畳み込みレイヤの省略形として使用されます。

畳み込み演算がなければ、ML アルゴリズムは大規模なテンソル内の各セルに対して、個別の重みを設定します。たとえば、2K x 2K の画像で機械学習アルゴリズムをトレーニングする場合、400 万個の個別の重みを検出する必要があります。畳み込み演算のおかげですべてのセルの重みを見つけるだけで済むので、 畳み込みフィルタは、トレーニングに必要なメモリの量です畳み込みフィルタがセル間で複製され、各セルが乗算されてフィルタで絞り込みます。

詳細については、画像分類コースの畳み込みニューラルネットワークの概要をご覧ください。

畳み込みフィルタ

#image

畳み込み演算の 2 つのアクターの 1 つ。（もう一方のアクターは入力行列のスライスです）。畳み込みフィルタは、入力マトリックスと同じランクを持ち、サイズが小さいマトリックスです。たとえば、28x28 の入力行列が与えられた場合、フィルタは 28x28 より小さい任意の 2D 行列にすることができます。

写真操作では、畳み込みフィルタのすべてのセルが通常は 1 と 0 の定数パターンに設定されますML では通常、畳み込みフィルタには乱数がシード化され、ネットワークが理想的な値をトレーニングします。

畳み込みをご覧ください。画像分類コースをご覧ください

畳み込みレイヤ

#image

ディープニューラルネットワークのレイヤ。畳み込みフィルタが入力行列に渡されます。たとえば、次の 3x3 のケースについて考えてみましょう。 畳み込みフィルタ:

次の値を持つ 3x3 行列: [[0,1,0], [1,0,1], [0,1,0]]

次のアニメーションは、5x5 入力行列を含む 9 つの畳み込み演算で構成される畳み込みレイヤを示しています。各畳み込み演算は、入力行列の別の 3x3 スライスで機能します。結果の 3x3 行列（右側）は、9 つの畳み込み演算の結果で構成されています。

2 つの行列を示すアニメーション。最初の行列は 5x5 行列です。[[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]2 つ目の行列は 3x3 行列です。
[[181,303,618], [115,338,605], [169,351,560]].
2 つ目の行列は、畳み込み関数と
全フィルタ [[0, 1, 0], [1, 0, 1], [0, 1, 0]] を
5x5 行列の異なる 3x3 サブセットを
生成します

詳細については、画像分類コースの全結合層をご覧ください。

畳み込みニューラルネットワーク

#image

少なくとも 1 つのレイヤが畳み込みレイヤであるニューラルネットワーク。一般的な畳み込みニューラルネットワークは、次のレイヤの組み合わせで構成されます。

畳み込みレイヤ
プーリングレイヤ
密なレイヤ

畳み込みニューラルネットワークはある種で大きな成功を収めているさまざまな問題を取り上げます。

畳み込み演算

#image

次の 2 段階の算術演算:

畳み込みフィルタと入力行列のスライスの要素ごとの乗算。（入力マトリックスのスライスのランクとサイズは、畳み込みフィルタと同じです）。
結果の積行列内のすべての値の合計。

たとえば、次の 5x5 入力行列について考えてみましょう。

5x5 行列: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182]、[33,28,92,195,179]、[31,40,100,192,177]] です。

次のような 2x2 の畳み込みフィルタを考えてみます。

2 x 2 マトリックス: [[1, 0], [0, 1]]

各畳み込み演算には、配列の 2x2 スライスが 1 つ含まれます。表します。たとえば、入力行列の左上にある 2x2 スライスを使用するとします。したがって、この後の畳み込み演算はこのスライスは次のようになります。

入力行列の左上の 2x2 セクション（[[128,97], [35,22]]）に畳み込みフィルタ [[1, 0], [0, 1]] を適用します。畳み込みフィルタは 128 と 22 をそのまま残しますが、97 と 35 はゼロにします。その結果、畳み込み演算の結果、
値 150 (128+22) となります。

畳み込みレイヤは、一連の畳み込み演算で構成され、それぞれが入力行列の異なるスライスに作用します。

費用

損失と同義。

共同トレーニング

半教師あり学習のアプローチ以下のすべての条件に該当する場合に特に便利です。

データセット内のラベルなしのサンプルとラベル付きのサンプルの比率が高い。
これは分類問題（バイナリまたは マルチクラス）。
データセットには、互いに独立し、補完的な 2 つの異なる予測特徴セットが含まれています。

コトレーニングは、基本的に独立したシグナルを増幅してより強力なシグナルにします。たとえば、個々の中古車を「良好」または「不良」に分類する分類モデルについて考えてみましょう。1 組年、月、年、年などの集計特性に焦点を当てる車のメーカー、モデル別の予測機能は前所有者の運転記録と車のメンテナンス履歴。

共同トレーニングに関する重要な論文は、「ラベル付きデータとラベルなしデータの組み合わせ共同トレーニング Blum と Mitchell。

反事実的公平性

#fairness

公平性指標: 分類器がある個人に対して、別の個人に対して同じ結果が得られる 1 つ目と同一であることがわかります。ただし、1 つ以上の 機密属性。反事実的公平性について分類システムを評価することは、モデルでバイアスが生じる可能性のある原因を特定する 1 つの方法です。

詳細については、次のいずれかをご覧ください。

対象範囲のバイアス

#fairness

選択バイアスをご覧ください。

クラッシュブラッサム

#language

意味が曖昧な文やフレーズ。クラッシュブロッサムは、自然言語理解において重大な問題となります。たとえば、ヘッドライン「Red Tape Holds Up Skyscraper」は、NLU モデルがヘッドラインを文字通りまたは比喩的に解釈する可能性があるため、クラッシュブロッサムです。

アイコンをクリックすると、追加のメモが表示されます。

よくわからない見出しを確認してみましょう。 <ph type="x-smartling-placeholder">

煩雑な手続きは、次のいずれかを指す場合があります。
- 接着剤
- 過度な官僚主義
「保留」は、次のいずれかを指します。
- 構造サポート
- 処理の遅れ

批評家

#rl

Deep Q-Network と同義。

交差エントロピー

対数損失をマルチクラス分類問題に一般化したものです。交差エントロピー 2 つの確率分布の差を定量化します。関連項目 パープレキシティ:

交差検証

モデルがどの程度適切に一般化するかを重複しない 1 つ以上のデータサブセットに対してモデルをテストし、新しいデータを作成 トレーニングセットから除外されます。

累積分布関数（CDF）

ターゲット値以下のサンプルの頻度を定義する関数。たとえば、連続値の正規分布について考えてみましょう。CDF では、サンプルの約 50% がサンプルの約 84% がサンプルの約 84% を平均を上回る標準偏差を 1 つにします

D

データ分析

サンプル、測定、可視化を考慮してデータを理解する。データ分析は、次のような場合に特に有用です。データセットが最初に受信され、その後で最初のモデルが作成されます。また、Terraform でのテストを理解し、問題をデバッグするためにも、制御します。

データの拡張

#image

範囲と数を人為的に増やす トレーニングの例既存のインフラストラクチャを examples: 追加の例を作成します。たとえば画像キャプションモデルが特徴はあるものの、データセットに有用な関連付けを学習するために十分な数の画像サンプルが含まれていること。モデルを適切にトレーニングできるように、データセットに十分なラベル付き画像を追加することをおすすめします。それが不可能な場合は、データ拡張を使用して各画像を回転、伸ばし、反射させ、元の画像のバリエーションを多数生成できます。これにより、優れたトレーニングを可能にする十分なラベル付きデータが得られる可能性があります。

DataFrame

#fundamentals

モデルを表す一般的な pandas データ型。メモリ内のデータセット。

DataFrame は、テーブルやスプレッドシートに似ています。DataFrame の各列には名前（ヘッダー）があり、各行は一意の数値で識別されます。

DataFrame の各列は 2 次元配列のように構造化されていますが、各列に独自のデータ型を割り当てることができます。

公式ガイド pandas.DataFrame リファレンスのページをご覧ください。

データ並列処理

トレーニングまたは推論をスケーリングする方法。モデル全体を複数のデバイスに複製し、入力データのサブセットを各デバイスに渡します。データ並列処理では、非常に大きなバッチサイズでのトレーニングと推論が可能になります。ただし、データ並列処理では、モデルがすべてのデバイスに収まるほど小さくする必要があります。

通常、データ並列処理によりトレーニングと推論の速度が向上します。

モデル並列処理もご覧ください。

データセットまたはデータセット

#fundamentals

元データのコレクション。通常は（必ずしもそうであるとは限りません）次のいずれかの形式で編成されます。

スプレッドシート
CSV（カンマ区切り値）形式のファイル

Dataset API（tf.data）

#TensorFlow

データの読み取りと読み取りのための高レベルの TensorFlow API ML アルゴリズムが必要とする形に変換します tf.data.Dataset オブジェクトは要素のシーケンスを表します。各要素には 1 つ以上の テンソルが含まれています。tf.data.Iterator オブジェクトは、Dataset の要素へのアクセスを提供します。

決定境界

バイナリクラスまたはマルチクラス分類問題でモデルによって学習されたクラス間の区切り文字。たとえばバイナリ分類問題を表す次の画像では、決定境界はオレンジ色のクラスと blue クラスを使用します。

クラス間の明確な境界。

デシジョンフォレスト

#df

複数のディシジョンツリーから作成されたモデル。デシジョンフォレストは、さまざまな予測を集約して決定します一般的なタイプのデシジョンフォレストには、 ランダムフォレストと勾配ブースティングツリー。

詳細については、決定木コースの決定木のセクションをご覧ください。

決定しきい値

分類しきい値と同義。

ディシジョンツリー

#df

一連の条件と階層的に編成されたリーフで構成される教師あり学習モデル。たとえば、次の図はディシジョンツリーです。

4 つの条件からなるディシジョンツリーが階層的に配置され、5 つのリーフにつながっています。

デコーダ

#language

一般に、処理済み、高密度、高密度モデルからデータを変換するより未加工、スパース、または外部表現に内部表現を変換できます。

デコーダは多くの場合、より大きなモデルのコンポーネントであり、エンコーダとペアになっています。

シーケンスツーシーケンスタスクでは、デコーダはエンコーダによって生成された内部状態から開始して、次のシーケンスを予測します。

デコーダの定義については、Transformer を参照してください。 Transformer アーキテクチャの概要を説明しています。

大規模言語モデルをご覧ください。をご覧ください。

ディープモデル

#fundamentals

複数を含むニューラルネットワーク 隠れ層。

ディープモデルは、ディープニューラルネットワークとも呼ばれます。

ワイドモデルとは対照的です。

ネットワークでよく

ディープモデルと同義。

Deep Q-Network（DQN）

#rl

Q ラーニング: ディープ ニューラルネットワーク Q 関数を予測する。

Critic は Deep Q-Network の類義語です。

人口学的等価性

#fairness

次の場合に満たされる公平性指標 モデルの分類結果は、モデルの指定された機密属性。

たとえば、Lilliputians と Brobdingnagians の両方がグラブダブドリブ大学では、回答者の割合が 50% を超えると、入学が許可されたリリプット人の割合は、ブロブディンナギア人の割合と同じ平均して 1 つのグループの方が有望度が高いかどうかに関係なく、表します。

対比する「均等オッズ」は、 機会の平等は、機密性の高い属性に依存するように集約された分類の結果です。ただし、指定された特定の機密性の高い属性に依存する正解のラベル。詳しくは、「よりスマートな ML による識別」をユーザー層の同等性を重視した最適化を行う際は、トレードオフを考慮する必要があります。

公平性: ユーザー属性をご覧ください。同等をご覧ください。

ノイズ除去

#language

自己教師あり学習への一般的なアプローチ各要素の意味は次のとおりです。

ノイズは人為的にデータセットに追加されます。
モデルはノイズを除去しようとします。

ノイズを除去することで、ラベルなしのサンプルからの学習が可能になります。元のdatasetがターゲットまたは ラベルとノイズの多いデータを入力として受け取ります。

一部のマスクされた言語モデルは、次のようにノイズ除去を使用します。

ラベルのない文には、ノイズが人為的に追加されます。作成されます。
モデルは元のトークンを予測しようとします。

密な特徴

#fundamentals

ほとんどまたはすべての値がゼロ以外の特徴量。通常は浮動小数点値のTensor。たとえば、次の 10 要素のテンソルは、9 つの値がゼロ以外であるため、密です。

スパースな特徴とは対照的です。

高密度レイヤ

全結合層と同義。

深さ

#fundamentals

ニューラルネットワークにおける次の合計:

隠れ層の数
出力層の数（通常は 1）
エンベディングレイヤの数

たとえば、隠れ層が 5 つ、出力層が 1 つのニューラルネットワークの深さは 6 です。

なお、入力レイヤは影響の深さです

深さ方向の分離可能な畳み込みニューラルネットワーク（sepCNN）

#image

畳み込みニューラルネットワーク アーキテクチャをベースとし Inception、 Inception モジュールを depthwise separable 畳み込み関数です別名「Xception」。

深さ方向の分離可能な畳み込み（分離可能な畳み込み）標準的な 3D 畳み込みを 2 つの個別の畳み込み演算に因数分解する計算効率が上がります。1 つ目は、深度畳み込みです。深さ 1（n × n × 1）で、次にポイントワイズ畳み込みです。長さと幅が 1（1 × 1 × n）の 2 種類があります。

詳細については、Xception: Depthwise Separable を使用したディープラーニングをご覧ください。畳み込み。

派生ラベル

プロキシラベルと同義。

デバイス

#TensorFlow

#GoogleCloud

次の 2 つの定義が可能なオーバーロードされた用語。

TensorFlow セッションを実行できるハードウェアのカテゴリ。以下が含まれます。 CPU、GPU、TPU。
アクセラレータチップで ML モデルをトレーニングする場合（GPU または TPU）。実際に操作するシステム部分 テンソルとエンベディング。デバイスはアクセラレータチップを搭載しています。一方、ホストは通常 CPU で実行されます。

差分プライバシー

ML では、モデルのトレーニングセットに含まれる機密データ（個人情報など）が漏洩しないようにする匿名化アプローチです。このアプローチにより、モデルは特定の個人についてあまり学習または記憶しません。これは、サンプリングとモデル作成時のノイズの追加によって行われます。トレーニングによって個々のデータポイントを曖昧にし、機密性の高いトレーニングデータです。

差分プライバシーは ML 以外でも使用されています。たとえば、データサイエンティストは、さまざまなユーザー属性のプロダクト使用状況統計情報を計算する際に、差分プライバシーを使用して個人のプライバシーを保護することがあります。

次元削減

特徴ベクトルで特定の特徴を表すために使用される次元数を減らす（通常はエンベディングベクトルに変換する）。

ディメンション

次のいずれかの定義を持つ過負荷の用語:

Tensorの座標レベルの数。次に例を示します。
- スカラーの次元は 0 です。例: ["Hello"]
- ベクトルは 1 次元です。例: [3, 5, 7, 11]
- マトリックスには 2 つのディメンションがあります（例: [[2, 4, 18], [5, 7, 14]]）。1 次元ベクトル内の特定のセルは 1 つの座標で指定できますが、2 次元行列内の特定のセルを指定するには 2 つの座標が必要です。
特徴ベクトル内のエントリ数。
エンベディングレイヤ内の要素の数。

直接プロンプト

#language

#generativeAI

ゼロショットプロンプトと同義。

離散特徴

#fundamentals

有効な値が有限の特徴。たとえば値が animal、vegetable、mineral のいずれかの値を持つ特徴は、離散（またはカテゴリ）特徴量です。

「継続的な機能」も参照してください。

識別モデル

1 つ以上のラベルのセットからラベルを予測するモデル その他の機能。より正式には、識別モデルでは、出力に対する条件付き確率が与えられると、 weights;つまり:

p(output | features, weights)

たとえば、特徴量からメールが迷惑メールであるかどうかを予測するモデルは、重みは識別モデルです。

分類モデルや回帰モデルなど、教師あり学習モデルのほとんどは識別モデルです。

生成モデルとは対照的です。

識別子

例が本物か偽物かを判断するシステム。

または、生成敵対的グループ内の ネットワークによって、ネットワークが ジェネレータが作成するサンプルは、本物か架空のものです。

詳細については、GAN コースの識別子をご覧ください。

不均衡な影響

#fairness

さまざまな集団に影響を与える人々について意思決定を行うサブグループの割合が高くなりますこれは通常アルゴリズムによる意思決定プロセスが害や利益をもたらす場合評価する傾向があります

たとえば、リルプットアンの確率を判定するアルゴリズムをミニチュア住宅ローンの対象顧客は「対象外」として分類します郵送先住所に特定の住所が含まれている場合郵便番号。もしビッグエンディアンのリリプット語が送付先住所をこの郵便番号のものにしてくださいこのアルゴリズムはばらばらな影響を与える可能性があります。

差別的取扱いとは対照的に、サブグループの特性をアルゴリズムによる意思決定プロセスに明示的に入力した場合に生じる差異に焦点を当てています。

さまざまな扱い

#fairness

被写体の因数分解'機密属性 アルゴリズムによる意思決定プロセスに変換し、扱い方が異なる人の割合

たとえば、リリパット人がローン申請で提供したデータに基づいて、リリパット人が小型住宅ローンの利用資格があるかどうかを判断するアルゴリズムについて考えてみましょう。アルゴリズムが、Lilliputian の Big-Endian または Little-Endian の関連性を入力として使用している場合、そのディメンションに基づいて差別的な扱いが行われています。

対照的に、異なる効果はサブグループに対するアルゴリズムによる決定の社会的影響の格差そのサブグループがモデルへの入力であるかどうかにかかわらず、

での精製

#generativeAI

1 つのモデル（教師モデル）のサイズを、元のモデルの予測を可能な限り忠実にエミュレートする小規模なモデル（生徒モデル）に縮小するプロセス。精製が便利です。なぜなら、小規模モデルには大規模モデルよりモデル（教師）:

推論時間の短縮
メモリとエネルギーの使用量の削減

ただし、通常、生徒の予測は教師の予測ほど正確ではありません。

精製によって生徒モデルがトレーニングされ、出力値の差に基づく損失関数 実装します。

蒸留と次の用語を比較対照します。

ファインチューニング
プロンプトベースの学習

LLM: ファインチューニング、抽出、プロンプトエンジニアリングをご覧ください。

配信

特定の特徴量またはラベルのさまざまな値の頻度と範囲。分布は、特定の値がどの程度あり得るかを捉えます。

次の図は、2 つの異なる分布のヒストグラムを示しています。

左側は、富のパワーロー分布と、その富を所有する人数を示しています。
右側は、身長の正規分布とその身長の人数を示しています。

2 つのヒストグラム。一方のヒストグラムはべき乗法の分布を示しており
X 軸にその富、その資産を持つ人の数が
Y 軸です。ほとんどの人は富をほとんど持っていませんが、一部の人々は非常に多くの富を持っています。もう一方のヒストグラムは、身長を X 軸に、その身長の人数を Y 軸に表示した正規分布を示しています。ほとんどの人は平均値の近くに集まっています。

各特徴とラベルの分布を理解すると、値を正規化する方法と外れ値を検出する方法を決定できます。

「分布外」というフレーズは、データセットにない値や非常にまれな値を指します。たとえば、土星の画像は、猫の画像で構成されるデータセットで、分布外と見なされます。

除分割クラスタリング

#clustering

階層型クラスタリングをご覧ください。

ダウンサンプリング

#image

次のいずれかを意味するオーバーロードされた用語。

モデルのトレーニングをより効率的に行うために、特徴量の情報量を削減します。たとえば、画像認識モデルをトレーニングする前に、高解像度の画像を低解像度の形式にダウンサンプリングします。
過剰に代表されているクラスのサンプルの割合を不均衡に低くして、過小代表クラスのモデルトレーニングを改善する。たとえば、クラス不均衡な状態では、新しいデータセットを参照すれば、モデルはその特徴について 過半数のクラスであり、 少数派の階級。ダウンサンプリングはトレーニングの量を多数派と少数派のクラスでバランスが取れるようにします。

詳細については、機械学習集中講座のデータセット: 不均衡なデータセットをご覧ください。

DQN

#rl

Deep Q-Network の略称。

ドロップアウト正則化

トレーニングで役立つ正則化の一種 ニューラルネットワーク。ドロップアウト正則化ネットワーク内の一定数のユニットをランダムに選択して削除する単一のグラデーションステップに使用できます脱落したユニットが多いほど、行われます。これは、小規模なネットワークの指数関数的に大きなアンサンブルをエミュレートするようにネットワークをトレーニングするのと同様です。詳細については、Dropout: A Simple Way to Prevent Neural Networks from Overfitting をご覧ください。

動的

#fundamentals

頻繁または継続的に行う作業。機械学習では、動的とオンラインという用語は同義です。マシンでの動的とオンラインの一般的な用途は次のとおりです。学習:

動的モデル（またはオンラインモデル）は、頻繁または継続的に再トレーニングされるモデルです。
動的トレーニング（またはオンライントレーニング）は、頻繁または継続的にトレーニングを行うプロセスです。
動的推論（またはオンライン推論）は、オンデマンドで予測を生成する場合などです。

動的モデル

#fundamentals

頻繁に（または継続的に）使用されるモデル 再トレーニングします。動的モデルは、変化するデータに常に適応する「生涯学習者」です。動的モデルは、オンラインモデルとも呼ばれます。

「静的モデル」も参照してください。

E

積極的実行

#TensorFlow

演算を行う TensorFlow プログラミング環境。すぐに実行されます。一方、グラフ実行で呼び出されたオペレーションは、明示的に評価されるまで実行されません。早期実行は、ほとんどのプログラミング言語のコードと同様に、命令型インターフェースです。一般に、積極的実行プログラムはグラフ実行プログラムよりもはるかに簡単にデバッグできます。

早期停止

#fundamentals

トレーニング損失の減少が完了する前にトレーニングを終了する正規化の方法。早期停止では、モデルのトレーニングを意図的に停止します。 検証データセットの損失が始まった時点 increase;つまり 一般化のパフォーマンスは悪化します。

アイコンをクリックすると、追加のメモが表示されます。

早期停止は直感に反するかもしれません。結局のところ、損失がまだ減少しているときにトレーニングを停止するようモデルに指示することは、デザートが完全に焼き上がっていないうちに調理を停止するようシェフに指示するようなものです。ただし、モデルのトレーニングを長時間行うと、過学習につながる可能性があります。つまりモデルのトレーニングが長すぎると、モデルがトレーニングデータに適合し、新しいサンプルに対する予測がうまくいかないからです。

地球移動距離（EMD）

2 つの分布の相対的な類似性を測定する指標。地球移動距離が小さいほど、分布は類似しています。

距離を編集

#language

2 つの文字列が互いにどの程度類似しているかを示す測定値。機械学習では、編集距離は計算が簡単で、類似しているとわかっている 2 つの文字列を比較したり、特定の文字列に類似する文字列を見つけたりするのに効果的な方法であるため、有用です。

編集距離にはいくつかの定義があり、それぞれが異なる文字列演算を使用します。たとえば、 <ph type="x-smartling-placeholder"></ph> レーブンシュタイン距離削除、挿入、置換オペレーションが最小限に抑えられます。

例: 「ハート」という単語間のレーベンシュタイン距離「ダーツ」 3 です。これは、次の 3 つの編集で 1 語になるために必要な変更が少ないためです。次のように変換します。

heart → deart（「h」を「d」に置き換える）
deart → dart（「e」を削除）
dart → darts（「s」を挿入）

Einsum 表記

2 つのテンソルがどのようになるかを説明する効率的な表記組み合わせたものですテンソルは、一方のテンソルの要素に他方のテンソルの要素を乗算し、その積を合計することで結合されます。Einsum 表記では記号を使って各テンソルの軸を識別し、同じ記号が再配置され、生成される新しいテンソルの形状が指定されます。

NumPy は、一般的な Einsum 実装を提供します。

エンベディングレイヤ

#language

#fundamentals

高次元のカテゴリ特徴でトレーニングし、低次元のエンベディングベクトルを徐々に学習する特別な隠れ層。エンベディング層を使用すると、高次元のカテゴリ特徴のみをトレーニングする場合よりも、ニューラルネットワークをはるかに効率的にトレーニングできます。

たとえば、地球は現在約 73,000 種の樹木をサポートしています。仮説樹木の種類はモデルの特徴量であるため、モデルの ワンホットベクトルを含む 73,000 指定することもできます。たとえば、baobab は次のように表されます。

73,000 個の要素からなる配列。最初の 6,232 要素は値 0 を保持します。次の要素には値 1 が格納されます。残りの 66,767 個の要素は
表示されます。

73,000 要素からなる配列は非常に長いです。エンベディングレイヤを追加しない場合モデルのトレーニングには非常に時間がかかります 72,999 個のゼロを乗算しますエンベディングレイヤを 1 つのレイヤに 12 次元です。その結果、エンベディングレイヤは徐々に学習し、新しいエンベディングベクトルを作成します。

特定の状況では、エンベディングレイヤの代わりにハッシュ化が適切な場合があります。

エンベディングをご覧ください。をご覧ください。

エンベディング空間

#language

高次元の特徴を持つ d 次元ベクトル空間は、ベクトル空間にマッピングされます。エンべディング空間には、入力シーケンスが意味のある数学的結果が得られる構造たとえば理想的なエンベディング空間でのエンベディングの加算と減算文章にたとえて単語を解き放つことができます。

2 つのエンベディングのドット積は、それらの類似度を測定したものです。

エンベディングベクトル

#language

広義には、その隠れ層への入力を表す隠れ層から取得された浮動小数点数の配列です。多くの場合、エンベディングベクトルは Google Cloud でトレーニングされた浮動小数点数の配列エンベディングレイヤです。たとえば、エンベディングレイヤが新しいパターンを学習し、エンべディングベクトルを作成します。おそらく、次の配列は、バオバブの木のエンベディングベクトルです。

浮動小数点数を保持する 12 個の要素の配列
0.0 ～ 1.0 の範囲で設定できます

エンベディングベクトルはランダムな数値の集まりではありません。エンベディングレイヤトレーニングによってこれらの値を決定します。これは、トレーニング中に他の重みも学習します。各要素の配列は、樹木種の特性に沿った評価です。どの要素がどの樹種の特徴を表していますか。それはすごく難しい判断できます

エンべディングベクトルの数学的に注目すべき点は、エンべディングベクトルがアイテムには同様の浮動小数点数のセットがあります。たとえば、浮動小数点数のセットは、樹木の種類のほうが異なる種類の樹木のことです。セコイアとセコイアは関連する樹種です。浮動小数点数と浮動小数点数のセットがセコイアやヤシの木などで育ちますエンベディングベクトルの数値は、同じ入力でモデルを再トレーニングしても、モデルを再トレーニングするたびに変化します。

経験累積分布関数（eCDF または EDF）

実際のデータセットからの経験的測定値に基づく累積分布関数。Pod の x 軸上の任意の点における観測値の割合、データセットを検索します。

経験的リスク最小化（ERM）

トレーニングセットの損失を最小化する関数を選択します。コントラスト 構造リスクの最小化です。

エンコーダ

#language

一般に、未加工、スパース、または外部表現から、より処理された、より密度の高い、またはより内部的な表現に変換する ML システム。

エンコーダは多くの場合、より大きなモデルのコンポーネントであり、デコーダとペアで使用されます。一部の Transformer はエンコーダとデコーダをペアで使用しますが、他の Transformer はエンコーダまたはデコーダのみを使用します。

一部のシステムでは、エンコーダの出力を分類システムへの入力として使用し、ネットワークです

シーケンスからシーケンスへのタスクでは、エンコーダは入力シーケンスを受け取り、内部状態（ベクトル）を返します。次に、デコーダがその内部状態を使用して次のシーケンスを予測します。

Transformer アーキテクチャでのエンコーダの定義については、Transformer をご覧ください。

LLM: 大規模言語とはモデルをご覧ください。

アンサンブル

予測を持つ独立したトレーニング対象のモデルのコレクション平均化または集計されます多くの場合、アンサンブルを使用すると、単一モデルよりも高い精度ですたとえば、 ランダムフォレストは、複数のソースから構築された複数の ディシジョンツリー。ただし、 ディシジョンフォレストはアンサンブルです。

詳細については、機械学習集中講座のランダムフォレストをご覧ください。

エントロピー

#df

イン <ph type="x-smartling-placeholder"></ph> 情報理論ある確率がどれだけ予測不能か、説明しますまた、エントロピーは、生成する AI が各例に含まれる情報。分布には、確率変数のすべての値が可能性があります。

2 つの可能な値「0」と「1」を持つセット（バイナリ分類問題のラベルなど）のエントロピーは、次の式で表されます。

<ph type="x-smartling-placeholder"></ph> H = -p log p - q log q = -p log p - (1-p) * log (1-p)

ここで

H はエントロピーです。
p は「1」の分数説明します。
q は「0」の分数説明します。q = (1 - p) です。
log は通常 log₂ です。この場合エントロピーは単位です。

たとえば、次のように仮定します。

100 個の例に値「1」が含まれます
300 件のサンプルに値「0」が含まれている

したがって、エントロピー値は次のようになります。

p = 0.25
q = 0.75
H =（-0.25）log₂（0.25）-（0.75）log₂（0.75）= 0.81 ビット / サンプル

完全にバランスの取れた集合（例: 「0」が 200 個と「1」が 200 個）エントロピーは 1 例あたり 1.0 ビットですセットのアンバランスが増加すると、エントロピーは 0.0 に近づきます。

分類ツリーでは、エントロピーは情報量の増加を定式化して、分類分類ツリーの成長中に分割ツールが条件を選択するのに役立ちます。

エントロピーを次と比較:

ギニ不純物
交差エントロピー損失関数

エントロピーは、シャノンのエントロピーとも呼ばれます。

詳細については、意思決定木コースの数値特徴量を使用した二値分類の Exact スプリッタをご覧ください。

環境

#rl

強化学習では、エージェントが含まれ、エージェントがその世界の状態を観察できる世界。たとえば、表現された世界は、チェスのようなゲームや迷路のような物理的な世界にすることができます。エージェントが環境にアクションを適用すると、環境は状態間を遷移します。

エピソード

#rl

強化学習では、エージェントが環境を学習するために繰り返す試行のことです。

エポック

#fundamentals

トレーニングセット全体にわたるフルトレーニングパス各 example が 1 回処理されるようにします。

エポックは、N / バッチサイズ のトレーニング イテレーションを表します。ここで、N はサンプルの合計数です。

たとえば、次のように仮定します。

このデータセットは 1,000 件のサンプルで構成されています。
バッチサイズは 50 サンプルです。

したがって、1 つのエポックには 20 回の反復処理が必要です。

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

詳細については、機械学習集中講座の線形回帰: ハイパーパラメータをご覧ください。

イプシロン欲張りポリシー

#rl

強化学習では、ポリシーはイプシロン確率または特定の値を持つランダムポリシー そうでない場合は欲張りなポリシー。たとえば、イプシロンが 0.9 の場合、ポリシーは 90% の確率でランダムなポリシーに従っていますが、ポリシーが適用されます

連続するエピソードを通じて、アルゴリズムはランダムポリシーの実行から貪欲なポリシーの実行に移行するために、ε の値を減らします。方法ポリシーを変更する場合、エージェントはまず環境をランダムに調査し、無作為に抽出された結果を利用しようとします。

機会の平等

#fairness

モデルが順調かどうかを評価するための公平性指標 望ましい結果を同等に予測する 機密属性。つまり、モデルに望ましい結果が陽性クラス、目標は、真陽性率をすべてのグループで共通です。

機会の平等はオッズの均等に関連しています。これには真陽性率と真陽性率の両方が 偽陽性率は、すべてのグループで同じです。

グルブドゥブドリブ大学がリルプート派とブロブディングナギー派の両方を認めると仮定する難易度の高い数学プログラムまでを学習させましたリリプティアン中等教育機関はカリキュラムが充実しており、大多数の生徒が数学の授業に取得しているとしますブロブディングナギアンスの中学校では数学の授業をまったく行っていないため、有望です希望するラベル「「承諾済み」国籍（リリプート派またはブロブディンナージー派）有資格の学生であれば、次の 2 点に関係なく、リルプート派かブロブディンナーギア派です。

たとえば、100 人のリリパット人と 100 人のブロブディンガニア人が Glubbdubdrib 大学に申し込み、入学審査の結果が次のように出たとします。

表 1. リリパット申請者（90% が資格要件を満たしている）

	リードの精査が完了	見込みなし
許可	45	3
不承認	45	7
合計	90	10
入学が認められた資格要件を満たす生徒の割合: 45/90 = 50% 資格要件を満たさない不合格となった生徒の割合: 7/10 = 70% 入学が認められたリリプト人の生徒の合計割合: (45+3)/100 = 48%

表 2. Brobdingnagian の応募者（10% が適格）:

	リードの精査が完了	見込みなし
許可	5	9
不承認	5	81
合計	10	90
入学が認められた資格要件を満たしている学生の割合: 5/10 = 50% 資格要件を満たしていない不合格となった学生の割合: 81/90 = 90% 入学が認められた Brobdingnagian の学生の合計割合: (5+9)/100 = 14%

上記の例は、受け入れる機会の平等を満たしています。 Lilliputians と Brobdingnagians のどちらも認定されたため、 50% の確率で承認されます

機会均等は満たされていますが、次の 2 つの公平性指標は満たされていません。

人口統計的平等: リリプート派と Brobdingnagians はさまざまな率で大学に入学できる。リリプット語の学生の 48% が入学を許可しているが、入学を許可しているのは 14% のみブロブディングナージ語の学生は入学可能。
均等なオッズ: 資格要件を満たしているリリパット人とブロブディンガ人には、どちらも同じ入学チャンスが与えられますが、資格要件を満たしていないリリパット人とブロブディンガ人には、どちらも同じ不合格のチャンスが与えられるという追加の制約は満たされません。資格のないリリパット人の不承認率は 70% ですが、資格のないブロブディンガニア人の不承認率は 90% です。

公平性: 平等性機会をご覧ください。

均等オッズ

#fairness

モデルが結果を等しく予測しているかどうかを評価するための公平性指標 機密属性のすべての値に適しています。 陽性のクラスと ネガティブクラス - どちらか一方のクラスではないあります。つまり、真陽性率と偽陰性率の両方が、すべてのグループで同じである必要があります。

均等オッズは以下に関連しています 機会の平等は、（正または負）のエラー率に対して課金されます。

たとえば、Glubbdubdrib 大学が厳格な数学プログラムにリリパット人とブロブディンガム人の両方を受け入れているとします。リリプティアンセカンダリ数学クラスの堅牢なカリキュラムを提供しており、の学生が大学プログラムの参加資格を満たしているかを確認する。ブロブディンガニアの中等学校では数学クラスがまったく提供されていないため、資格を取得する生徒は非常に少なくなっています。平等な機会は、申請者がリリパット人かブロブディンガジャン人かにかかわらず、資格要件を満たしていればプログラムへの入学が認められ、資格要件を満たしていない場合は不承認となる確率が同じである場合に満たされます。

100 名のリリプティアンと 100 人のブロブディングナギンがグルブドゥブドリブに申し込んだとします。大学と入学に関する決定は、次のように行われます。

表 3: リリパット申請者（90% が資格要件を満たしている）

	リードの精査が完了	見込みなし
許可	45	2
不承認	45	8
合計	90	10
入学が認められた資格要件を満たす生徒の割合: 45/90 = 50% 資格要件を満たさない不合格となった生徒の割合: 8/10 = 80% 入学が認められたリリプト人の生徒の合計割合: (45+2)/100 = 47%

表 4. Brobdingnagian の応募者（10% が適格）:

	リードの精査が完了	見込みなし
許可	5	18
不承認	5	72
合計	10	90
入学を認められた適格な学生の割合: 5/10 = 50% 不適格な生徒の割合: 72÷90 = 80% ブロブディンナージ語の学生の割合の合計: (5 + 18) ÷ 100 = 23%

資格要件を満たしているリリパット人とブロブディンガジャンの学生はどちらも入学できる確率が 50%、資格要件を満たしていないリリパット人とブロブディンガジャンの学生はどちらも不合格になる確率が 80% であるため、均等な確率が満たされています。

オッズの均等化は、「教師あり学習における機会の平等」で次のように正式に定義されています。「予測子 Ŷ が保護属性 A と結果 Y に関してオッズの均等化を満たす場合、Ŷ と A は Y を条件として独立している。」

Estimator

#TensorFlow

非推奨の TensorFlow API。代わりに tf.keras を使用してください。使用できます。

evals

#language

#generativeAI

主に LLM 評価の略語として使用されます。より広義には、evals は評価。

評価

#language

#generativeAI

モデルの品質を測定したり、異なるモデルを比較したりするプロセス。

教師あり機械学習モデルを評価するには、通常、検証セットとテストセットと比較して判断します。LLM の評価には通常、幅広い品質と安全性の評価が含まれます。

例

#fundamentals

1 行の特徴量の値。場合によっては特徴量 ラベル。例 教師あり学習は 2 種類に分類できます。一般カテゴリ:

ラベル付きサンプルは 1 つ以上の特徴で構成されるです。ラベル付きサンプルはトレーニング中に使用されます。
ラベルなしの例は、1 つ以上の特徴で構成されますが、ラベルはありません。ラベルなしの例は推論時に使用されます。

たとえば、天候が生徒のテスト成績に与える影響を特定するモデルをトレーニングしているとします。ラベル付きの例を 3 つ示します。

機能			ラベル
温度	湿度	気圧	テストの点数
15	47	998	良い
19	34	1020	非常に良い
18	92	1012	悪い

ラベルのない例を 3 つ示します。

温度	湿度	気圧
12	62	1014
21	47	1017
19	41	1021

datasetの行は通常、サンプルの元のソースです。つまり、サンプルは通常、データセット内の列のサブセットで構成されます。さらに、サンプルの特徴には、 合成特徴: 例: 特徴クロス。

詳細については、機械学習の概要コースの教師あり学習をご覧ください。

もう一度体験する

#rl

強化学習では、トレーニングデータの時間的関連性を低減するために DQN 手法が使用されます。エージェントは、状態遷移を再生バッファに保存し、再生バッファから遷移をサンプリングしてトレーニングデータを作成します。

実験者のバイアス

#fairness

確証バイアスをご覧ください。

勾配爆発問題

#seq

ディープニューラルネットワーク（特に再帰ニューラルネットワーク）の勾配が驚くほど急勾配（高）になる傾向。勾配が急な場合、ディープラーニングネットワーク内の各ノードの重みが大幅に更新されることがあります。

勾配爆発の問題が発生しているモデルは、トレーニングが困難または不可能です。勾配クリッピングを使用すると、この問題を軽減できます。

勾配消失問題と比較してください。

F

F₁

「統合」バイナリ分類指標 適合率と再現率の両方に依存します。式は次のとおりです。

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

たとえば、次の場合を考えてみましょう。

適合率 = 0.6
recall = 0.4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

適合率と再現率がかなり似ている場合（上記の例を参照）、 F₁ は平均に近い。適合率と再現率が異なる場合 F₁ が小さい値に近づきます。例:

precision = 0.9
recall = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

公平性の制約

#fairness

アルゴリズムに制約を適用して 1 つ以上の定義を確保する公平性が満たされることになります。公平性制約の例としては、次のようなものがあります。

モデルの出力の後処理。
損失関数を変更してペナルティを組み込む 公平性に関する指標違反。
数学的な制約を最適化問題に直接追加する。

公平性の指標

#fairness

測定可能な「公平性」の数学的定義。よく使用される公平性指標には次のようなものがあります。

オッズが等しい
予測パリティ
対抗事実の公正性
人口学的等価性

多くの公平性指標は相互に排他的です。公平性指標の不整合をご覧ください。

偽陰性（FN）

#fundamentals

モデルが陰性クラスを誤って予測している例。たとえば、モデルの特定のメールメッセージが迷惑メールではないと予測する（否定クラス）であるにもかかわらず、そのメールメッセージは実際には迷惑メールです。

偽陰性率

モデルが陰性のクラスを誤って予測した実際の正例の割合。次の式は、誤判定率を計算します。

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

詳細については、機械学習集中講座のしきい値と混同行列をご覧ください。

偽陽性（FP）

#fundamentals

モデルが陽性のクラスを誤って予測している例。たとえば、このモデルは特定のメールが迷惑メール（ポジティブクラス）であると判断し、メールが実際には迷惑メールでないかどうか

しきい値と混同マトリックスをご覧ください。

偽陽性率（FPR）

#fundamentals

モデルが陽性のクラスを誤って予測した実際の陰性サンプルの割合。次の式は、誤検出率を計算します。

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

偽陽性率は、ROC 曲線の X 軸です。

分類: ROC と AUC をご覧ください。

特徴；特徴表現

#fundamentals

ML モデルへの入力変数。例は 1 つ以上の特徴で構成されますたとえば、トレーニングデータセットで気象条件が生徒のテストスコアに及ぼす影響を判断しました。次の表に、それぞれ 3 つの特徴と 1 つのラベルを含む 3 つの例を示します。

機能			ラベル
温度	湿度	気圧	テストのスコア
15	47	998	92
19	34	1020	84
18	92	1012	87

ラベルと対比してください。

教師あり学習をご覧ください。をご覧ください。

特徴クロス

#fundamentals

「交差」によって形成される合成特徴 カテゴリ特徴またはバケット化された特徴。

たとえば、「ムード予測」機能をトレーニングデータを表す temperature を、次の 4 つのバケットのいずれかに分類します。

freezing
chilly
temperate
warm

風速を次の 3 つのバケットのいずれかで表します。

still
light
windy

特徴クロスを使用しない場合、線形モデルは先行しますモデルのトレーニングにはトレーニングとは無関係に freezing を使用します。たとえば、 windy。

または、温度と風速の特徴クロスを作成することもできます。この合成特徴には、次の 12 個の値が考えられます。

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

特徴クロスにより、モデルは freezing-windy 日と freezing-still 日の気分の違いを学習できます。

それぞれに多くの異なるバケットがある 2 つの特徴量から合成特徴量を作成すると、結果として得られる特徴量クロスには膨大な数の組み合わせが存在します。たとえば、一方の特徴に 1,000 個のバケットがあり、もう一方の特徴に 2,000 個のバケットがある場合、結果として得られる特徴の交差には 2,000,000 個のバケットがあります。

十字形はデカルト積。

特徴クロスは主に線形モデルで使用され、ほとんど使用されない説明します

詳細については、機械学習集中講座のカテゴリデータ: 特徴量の交差をご覧ください。

２つのステップが含まれます

#fundamentals

#TensorFlow

次の手順を含むプロセス:

モデルのトレーニングに役立つ可能性がある特徴を特定する。
データセットの元データを、それらの特徴量の効率的なバージョンに変換します。

たとえば、temperature が便利な機能であると判断できます。次に、バケット化を試して、モデルがさまざまな temperature 範囲から学習できる内容を最適化できます。

特徴量エンジニアリングは 特徴抽出または 特徴量化。

アイコンをクリックすると、TensorFlow に関する追加のメモが表示されます。

TensorFlow では、特徴量エンジニアリングは、未加工のログファイルエントリを tf.Example プロトコルバッファに変換することを意味します。tf.Transform もご覧ください。

数値データ: モデルが特徴量を使用してデータを取り込む方法ベクトルをご覧ください。

特徴抽出

次のいずれかの定義を持つオーバーロードされた用語。

次によって計算された中間特徴表現を取得する 教師なしモデルまたは事前トレーニング済みモデル（たとえば、隠れ層の値、 ニューラルネットワークなど）を使用して、別のモデルで入力として使用します。
特徴量エンジニアリングと同義。

特徴の重要度

#df

変数の重要度と同義。

機能セット

#fundamentals

機械学習モデルがトレーニングする特徴量のグループ。たとえば、郵便番号、物件の広さ、物件の状態は、住宅価格を予測するモデルのシンプルな特徴セットを構成できます。

特徴仕様

#TensorFlow

tf.Example プロトコルバッファから特徴データを抽出するために必要な情報について説明します。これは、 tf.Example プロトコルバッファは単なるデータのコンテナであり、次のとおりです。

抽出するデータ（特徴のキー）
データ型（float や int など）
長さ（固定または可変）

特徴ベクトル

#fundamentals

次の要素を構成する特徴値の配列例。特徴ベクトルは入力シーケンスの トレーニングおよび推論の際に使用します。例: 2 つの個別の特徴を持つモデルの特徴ベクトル例:

[0.92, 0.56]

4 つのレイヤ: 入力レイヤ、2 つの非表示レイヤ、1 つの出力レイヤ。
入力レイヤには 2 つのノードがあり、1 つは値
0.92 と 0.56 を含む 2 つのテーブルが作成されます。

各サンプルは特徴ベクトルに異なる値を指定するため、次のサンプルの特徴ベクトルは次のようになります。

[0.73, 0.49]

特徴量エンジニアリングでは、予測します。たとえば、5 つの可能な値を持つバイナリカテゴリ特徴は、ワンホットエンコーディングで表すことができます。この場合、特徴ベクトルは 4 つのゼロと以下のように、3 番目の位置に 1.0 を 1 つ作成します。

[0.0, 0.0, 1.0, 0.0, 0.0]

別の例として、モデルが次の 3 つの特徴で構成されているとします。

バイナリカテゴリ特徴量で、次のラベルで表される 5 つの可能な値がワンホットエンコーディング例: [0.0, 1.0, 0.0, 0.0, 0.0]
3 つの可能な値が表現されている別のバイナリカテゴリ特徴ワンホットエンコーディングを使用します。例: [0.0, 0.0, 1.0]
浮動小数点特徴（例: 8.3）。

この場合、各サンプルの特徴ベクトルは 9 の値で表します。上記のリストに示されている例の値の場合、特徴ベクトルは次のようになります。

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

数値データ: モデルが特徴量を使用してデータを取り込む方法ベクトルをご覧ください。

特徴量化

入力ソースから特徴を抽出するプロセスそれらの特徴を UDM イベントにマッピングし、 特徴ベクトル。

一部の ML エキスパートは、特徴量化を特徴量化を 特徴量エンジニアリング 特徴抽出。

フェデレーションラーニング

トレーニングを行う分散型 ML アプローチトレーニング済みモデルを使用するモデルにスマートフォンなどのデバイスに存在する例。フェデレーションラーニングでは、一部のデバイスが現在のモデルをダウンロードする中央の調整サーバーからもリクエストできますデバイスは、デバイスに保存されているサンプルを使用してモデルを改善します。デバイスは、モデルの改善点（トレーニング例は除く）を調整サーバー（Coordinator Server）にアップロードします。アップロードされた改善点は、他の更新と集約され、改善されたグローバルモデルが生成されます。集計後、デバイスによって計算されたモデルが更新される不要になった場合は破棄できます。

トレーニング用サンプルはアップロードされないため、フェデレーションラーニングは、データ収集の集中化とデータ最小化のプライバシー原則に準拠しています。

連携学習の詳細については、こちらのチュートリアルをご覧ください。

フィードバックループ

#fundamentals

機械学習では、モデルの予測が同じモデルまたは別のモデルのトレーニングデータに影響を与える状況です。たとえば、映画をおすすめするモデルは、ユーザーが視聴する映画に影響し、その後の映画のレコメンデーションモデルに影響します。

詳細については、ML 集中講座の本番環境の ML システム: 確認すべき質問をご覧ください。

フィードフォワードニューラルネットワーク（FFN）

循環型または再帰型の接続のないニューラルネットワーク。たとえば従来のディープニューラルネットワークは、ニューラルネットワークです。これは、循環型の回帰型ニューラルネットワークとは対照的です。

少数ショット学習

オブジェクト分類によく使用される ML アプローチ。少数のモデルのみから効果的な分類器をトレーニングするためにトレーニング例です

ワンショット学習、 ゼロショット学習。

少数ショットプロンプト

#language

#generativeAI

複数（「少数」の）例を含むプロンプト 大規模言語モデルが応答します。たとえば、次の長いプロンプトには、大規模言語モデルにクエリに回答する方法を示す 2 つの例が含まれています。

1 つのプロンプトを構成する要素	メモ
`指定された国の公式通貨は何ですか？`	LLM に回答を求める質問。
`フランス: EUR`	1 つの例を挙げましょう。
`英国: GBP`	別の例をご紹介します。
`インド:`	実際のクエリ。

一般的に、少数ショットプロンプトを使用すると、ゼロショットプロンプトやワンショットプロンプトよりも望ましい結果が得られます。ただし、少数ショットプロンプトは長いプロンプトが必要です。

少数ショットプロンプトは、プロンプトベースの学習に適用される少数ショット学習の一種です。

プロンプトを参照してください。エンジニアリングをご覧ください。

フィドル

#language

Python ファーストの構成ライブラリで、関数やクラスの価値をモニタリングできます。 Pax や他の ML コードベースの場合、これらの関数とクラスはモデルとトレーニングを表す ハイパーパラメータ。

Fiddle は、機械学習のコードベースが通常次の 3 つに分割されていることを前提としています。

レイヤとオプティマイザを定義するライブラリコード。
ライブラリを呼び出してすべてを接続するデータセットの「グルー」コード。

Fiddle は、評価されていない変更可能な形式でグルーコードの呼び出し構造をキャプチャします。

ファインチューニング

#language

#image

#generativeAI

2 つ目のタスク固有のトレーニングパスは、 事前トレーニング済みモデルを使って、特定のタスクのためにパラメータを判断できますたとえば、一部の大規模言語モデルの完全なトレーニングシーケンスは次のとおりです。

事前トレーニング: すべての英語の Wikipedia ページなど、膨大な一般的なデータセットで大規模言語モデルをトレーニングします。
ファインチューニング: 医療に関するクエリへの回答など、特定のタスクを実行するように事前トレーニング済みモデルをトレーニングします。通常、ファインチューニングでは以下を行います。特定のタスクに焦点を当てた何百、何千ものサンプルが存在します。

別の例として、大規模画像モデルの完全なトレーニングシーケンスは次のようになります。次のようになります。

事前トレーニング: 巨大な一般的な画像で大規模な画像モデルをトレーニングする Wikimedia Commons 内のすべての画像などのデータセットを収集します。
ファインチューニング: オルカの画像の生成など、特定のタスクを実行するように事前トレーニング済みモデルをトレーニングします。

ファインチューニングでは、次の戦略を任意に組み合わせて行うことができます。

事前トレーニング済みモデルのすべての変更 パラメータ。これはフルファインチューニングとも呼ばれます。
事前トレーニング済みモデルの既存のパラメータの一部のみを変更する（通常は出力レイヤに最も近いレイヤ）。他の既存のパラメータ（通常は 入力レイヤに最も近いもの）。パラメータ効率チューニングをご覧ください。
レイヤを追加する（通常は、レイヤに最も近い既存のレイヤの上に）出力レイヤです。

ファインチューニングは転移学習の一種です。そのため、ファインチューニングでは、トレーニング済みモデルのトレーニングに使用したものとは異なる損失関数やモデルタイプを使用する場合があります。たとえば、トレーニング済みの大規模画像モデルをファインチューニングして、入力画像に含まれる鳥の数を返します。

ファインチューニングと次の用語を比較します。

蒸留
プロンプトベースの学習

ファインチューニングをご覧ください。をご覧ください。

Flax

#language

高パフォーマンスのオープンソースライブラリ JAX 上に構築されたディープラーニング。Flax が提供する関数 トレーニング ニューラルネットワーク用パフォーマンスを評価する手段として利用できます

亜麻性

#language

オープンソースの Transformer library 主に自然言語処理用に設計された Flax 上に構築マルチモーダル調査です

ワーキングゲート

#seq

長・短期記憶の一部セル内の情報の流れを規制するセルです。忘れるゲートは、破棄する情報を決定することでコンテキストを維持するセルの状態から変更できます。

完全な Softmax

softmax と同義。

一方、候補サンプリングでは、

詳細については、ML 集中講座のニューラルネットワーク: マルチクラス分類をご覧ください。

全結合層

隠しレイヤ。各ノードには、後続の隠れ層のすべてのノードに接続される

全結合レイヤは、密結合レイヤとも呼ばれます。

関数の変換

関数を入力として受け取り、変換された関数を返す関数渡します。JAX は関数変換を使用します。

G

GAN

生成敵対的の略語提供します。

一般化

#fundamentals

新しいモデルに対して正しい予測を行うモデルの能力未知のデータを取り込むことができます一般化できるモデルは、過学習しているモデルとは対照的です。

アイコンをクリックすると、追加のメモが表示されます。

トレーニングセットのサンプルでモデルをトレーニングします。その結果、モデルはトレーニングセット内のデータの特殊性を学習します。一般化要するにモデルがサンプルに対して適切な予測をトレーニングセットに含まれません。

一般化を促すために 正則化はモデルのトレーニングに役立つトレーニングセットのデータの特性に合わせて調整します。

詳細については、機械学習集中講座の一般化をご覧ください。

Gemini

#language

#image

#generativeAI

Google の最先端の AI で構成されるエコシステム。このエコシステムの要素には次のようなものがあります。

さまざまな Gemini モデル。
Gemini モデルへのインタラクティブな会話インターフェース。ユーザーがプロンプトを入力すると、Gemini がプロンプトに応答します。
各種 Gemini API。
Gemini モデルに基づくさまざまなビジネスプロダクト（Gemini for Google Cloud など）。

Gemini モデル

#language

#image

#generativeAI

Google の最先端の Transformer ベースの マルチモーダルモデル。Gemini モデルは Google Cloud の エージェントと統合するように設計されている。

ユーザーは、インタラクティブなダイアログインターフェースや SDK など、さまざまな方法で Gemini モデルを操作できます。

一般化曲線

#fundamentals

反復処理回数の関数として、トレーニング損失と検証損失の両方をプロットします。

一般化曲線は、過剰適合の可能性を検出するのに役立ちます。たとえば、次の一般化曲線は、最終的に検証損失がトレーニング損失よりも大幅に高くなるため、過剰適合を示唆しています。

Y 軸に損失、x 軸に反復処理のラベルが付いた座標型グラフ。2 つのグラフが表示されます。一方のプロットでは
もう 1 つは検証の損失です
2 つのプロットの初めは似ていますが、トレーニングの損失は最終的に
下がります。

一般化をご覧ください。をご覧ください。

一般化線形モデル

最小二乗回帰の一般化基盤モデルに基づいてガウスノイズ、ノイズのほとんどに基づいてポアソンノイズまたはノイズを除去できます。一般化された線形モデルの例を以下に示します。

ロジスティック回帰
マルチクラス回帰
最小二乗回帰

一般化された線形モデルのパラメータは、 凸最適化。

一般化線形モデルには、次の特性があります。

最適な最小二乗回帰モデルの平均予測は、トレーニングデータのラベルの平均と同じです。
最適なロジスティック回帰モデルによって予測される平均確率は、トレーニングデータの平均ラベルと同じです。

一般化された線形モデルの能力は、その特徴によって制限されます。一般化線形モデルは、ディープモデルとは異なり、「新しい特徴を学習」できません。

敵対的生成ネットワーク（GAN）

ジェネレータが新しいデータを作成するためのシステム。 識別要素が、そのデータが有効または無効です。

敵対的生成ネットワークのコースを確認する。をご覧ください。

生成 AI

#language

#image

#generativeAI

正式な定義のない、新たな革新的分野。ただし、ほとんどの専門家は、生成 AI モデルが次のすべてのコンテンツを作成（「生成」）できると考えています。

複雑
一貫性がある
オリジナル

たとえば、生成 AI モデルは高度なエッセイや画像を作成できます。

LSTMs などの以前のテクノロジー RNN など）を使用して、元の画像とテキスト、明確で一貫性のあるコンテンツです。一部の専門家は、これらの初期のテクノロジーを生成 AI と見なしていますが、真の生成 AI には、それらの初期のテクノロジーが生成できるよりも複雑な出力が必要だと考える専門家もいます。

予測 ML も参照してください。

生成モデル

実用的なモデルは、次のいずれかを行います。

トレーニングデータセットから新しいサンプルを作成（生成）します。たとえば、生成モデルは詩のデータセットでトレーニングした後、詩を作成できます。ジェネレータ部分は、 敵対的生成ネットワーク このカテゴリに分類されます
新しい例がトレーニングセットから取得されたか、トレーニングセットを作成した同じメカニズムから作成されたかの確率を決定します。たとえば、英語の文からなるデータセットでトレーニングした後、生成モデルは新しい入力が有効な英語の文である確率を決定できます。

生成モデルは、理論的にはデータセット内の例や特定の特徴の分布を識別できます。具体的には、次のことが求められます。

p(examples)

教師なし学習モデルは生成モデルです。

識別モデルとは対照的です。

ジェネレータ

生成敵対的内部のサブシステムネットワーク 新しい例を作成します。

識別モデルは、

ジニ不純物

#df

エントロピーに似た指標。分割ツールは、Gini 不純度またはエントロピーから導出された値を使用して、分類決定木の条件を作成します。情報量の増加はエントロピーから導出されます。ジニ不純物から導出された指標に、広く認められた同等の用語はありませんが、この名前のない指標は情報量の増加と同じくらい重要です。

ジニ不純度は、ジニ係数または単にジニとも呼ばれます。

アイコンをクリックすると、Gini 不純度の数学的詳細が表示されます。

ジニ不純度は、新しいデータを誤って分類する確率です。同じ分布から取得されます2 つのセットのギニ不純度指定可能な値「0」と「1」（たとえば、ニューラルネットワークのラベルが バイナリ分類の問題）次の式で計算されます。

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

ここで

I はジニ不純物です。
p は「1」の分数説明します。
q は「0」の例の割合です。q = 1-p に注意してください。

たとえば、次のデータセットについて考えてみましょう。

100 個のラベル（データセットの 0.25）に値「1」が含まれている
300 個のラベル（データセットの 0.75）に値「0」が含まれている

したがって、Gini 不純度は次のようになります。

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

したがって、同じデータセットからのランダムなラベルの確率は 37.5% になります。正しく分類される確率は 62.5% です

完全にバランスの取れたラベル（200 個の「0」と 200 個の「1」など）では、Gini 不純度は 0.5 になります。不均衡なラベルでは、Gini 不純物が 0.0 に近くなります。

ゴールドデータセット

正解を取得する、手動でキュレートされた一連のデータ。チームは、1 つ以上のゴールデンデータセットを使用してモデルの品質を評価できます。

一部のゴールデンデータセットは、グラウンドトゥルースの異なるサブドメインをキャプチャします。たとえば画像分類用のゴールデンデータセットが照明条件をキャプチャする場合 3 種類あります

GPT（Generative Pre-trained Transformer）

#language

Transformer ベースのファミリー Google Cloud が開発した大規模言語モデル OpenAI。

GPT のバリエーションは、次のような複数のモダリティに適用できます。

画像生成（ImageGPT など）
テキストから画像の生成（例: DALL-E）。

グラデーション

次に関する部分微分のベクトルすべての独立変数を指定します。ML では、勾配はモデル関数の偏導関数のベクトル。勾配は最も急な上昇方向を向いています。

勾配累積

誤差逆伝播法では、 パラメータは、エポックごとに 1 回ではなく、エポックごとに 1 回のみ使用する必要があります。各ミニバッチを処理した後、勾配は累積勾配は単に勾配の累積合計を更新しますその後、エポックの最後のミニバッチを処理した後、システムはすべての勾配変化の合計に基づいてパラメータを更新します。

勾配の蓄積は、トレーニングで使用可能なメモリの量と比較してバッチサイズが非常に大きい場合に便利です。メモリが問題の場合は、バッチサイズを小さくするのが一般的です。ただし、通常のバックプロパゲーションのバッチサイズを小さくすると、パラメータの更新回数が増加します。勾配累積によってメモリの問題を回避しながらも効率的にトレーニングできます

勾配ブースト（決定）ツリー（GBT）

#df

ディシジョンフォレストの一種で、次のような特徴があります。

トレーニングは 勾配ブースティング。
弱いモデルがディシジョンツリーです。

勾配ブースト決定樹木デシジョンフォレストのコースをご覧ください。

グラデーションブースト

#df

弱いモデルが繰り返しトレーニングされるトレーニングアルゴリズム強力なモデルの品質を改善（損失を低減）します。たとえば線形モデルまたは小さなディシジョンツリーモデルが弱いモデルになります。強モデルは、以前にトレーニングされた弱いモデルをすべて合計した値になります。

最も単純な形の勾配ブーストでは、反復処理のたびに弱いモデルがトレーニングされ、強力なモデルの損失勾配が予測されます。次に、勾配降下法と同様に、予測された勾配を減算して、強力なモデルの出力を更新します。

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

ここで

$F_{0}$ は開始時の強力なモデルです。
$F_{i+1}$ が次に強力なモデルです。
$F_{i}$ は現在の強力なモデルです。
$\xi$ は 0.0～1.0 の値で、縮小と呼ばれます。これは、勾配降下法の学習率に似ています。
$f_{i}$ は、モデルの損失勾配を予測するようにトレーニングされた弱いモデルです。 $F_{i}$。

勾配ブースティングの最新のバリエーションには、二次微分係数も（Hessian）です。

ディシジョンツリーは、勾配ブーストで弱いモデルとしてよく使用されます。詳しくは、 勾配ブースト（決定）ツリー。

グラデーションのクリッピング

#seq

勾配降下を使用してモデルをトレーニングするときに、勾配の最大値を人為的に制限（クリップ）することで、勾配の急増の問題を軽減するためによく使用されるメカニズム。

勾配降下法

#fundamentals

損失を最小限に抑える数学的な手法。勾配降下法は反復的に調整重みとバイアス 損失を最小限に抑えるため、徐々に最適な組み合わせを見つけ出します。

勾配降下法は、機械学習よりもはるかに古い手法です。

詳細については、機械学習集中講座の線形回帰: 勾配降下法をご覧ください。

グラフ

#TensorFlow

TensorFlow では、計算仕様。グラフ内のノードはオペレーションを表します。エッジは有向で、結果を渡すことを表します。演算（Tensor）のオペランドを別の演算に引き出せますTensorBoard を使用してグラフを可視化します。

グラフ実行

#TensorFlow

このプログラムが最初に構成を行う TensorFlow プログラミング環境 グラフを作成し、そのグラフのすべてまたは一部を実行します。グラフ実行は、TensorFlow 1.x のデフォルトの実行モードです。

早期実行とは対照的です。

貪欲なポリシー

#rl

強化学習では、常に特定のリソースを選択するポリシー 期待される収益が最も高いアクション。

グラウンドトゥルース

#fundamentals

現実。

実際に発生した事象。

たとえば、バイナリ分類を考えてみましょう。大学 1 年生の学生が 6 年以内に卒業するでしょうこのモデルのグラウンドトゥルースは、 6 年以内に卒業したとは違います

アイコンをクリックすると、追加のメモが表示されます。

グラウンドトゥルースに照らしてモデルの品質を評価します。正解は必ずしも完全かつ信頼できるわけではありませんたとえば、次の例は、グラウンドトゥルースにある可能性のある不完全性を示しています。

修了試験の例では、修了試験が確実に各生徒の記録は常に正しいか。大学の記録管理は完璧ですか？
ラベルが、計測機器（気圧計など）によって測定された浮動小数点値であるとします。どうすれば各楽器が同じ条件で校正されているか、または各測定値が同じ条件で実施されていることどうすればよいでしょうか。
ラベルが人間の意見に依存するものである場合、各人間のレーティング担当者がイベントを同じ方法で評価していることをどのように確認できるでしょうか。一貫性を高めるために、専門家の人間による評価が必要になることがあるします。

グループ帰属バイアス

#fairness

個人に当てはまることを、そのグループ内の全員に当てはまると仮定する。データ収集に便宜的サンプリングを使用すると、グループアトリビューションのバイアスの影響が悪化する可能性があります。代表性のないサンプルでは、現実を反映していないアトリビューションが作成される可能性があります。

グループ外の均一性バイアスもご覧ください。 グループ内バイアスです。また、公平性: バイアスの種類をご覧ください。

H

ハルシネーション

#language

一見、もっともらしく見えても事実に反する出力を、 生成 AI モデルであり、アサーションが必要です。たとえば、バラクオバマが 1865 年に亡くなったと主張する生成 AI モデルは幻覚を起こしています。

ハッシュ ; ハッシュ化

ML では、バケット化のメカニズムを カテゴリデータです。特に数がカテゴリの数は多いが、実際に表示されるカテゴリの数はデータセット内の比較的小さいサイズです。

たとえば、地球には約 73,000 種類の樹木が生息しています。73,000 種類の樹木を 73,000 個の個別のカテゴリバケットで表すことができます。または、データセットに実際に表示される樹木の種類が 200 種類しかない場合は、ハッシュを使用して樹木の種類を 500 個のバケットに分割できます。

1 つのバケットに複数の種類の樹木を含めることもできます。たとえば、ハッシュ化により、遺伝的に類似していない 2 つの種であるバオバブと赤いカエデが同じバケットに配置される可能性があります。いずれにしても、ハッシュ化は、大規模なカテゴリセットを選択した数のバケットにマッピングする優れた方法です。ハッシュ化は、多数の有効な値を持つカテゴリ特徴量を 1 つのテーブルに値をグループ化して、値を決定論的な方法で取り組みます。

カテゴリデータ: 語彙とワンホットエンコードをご覧ください。

ヒューリスティック

問題に対するシンプルで迅速に実装できるソリューション。たとえば「ヒューリスティックを使用して、86% の精度を達成しました。ディープラーニングネットワークに切り替えると、精度は 98% に向上しました。」

隠れ層

#fundamentals

レイヤ間のニューラルネットワークのレイヤは、 入力レイヤ（特徴量）と、出力レイヤ（予測）。各隠れ層は 1 つ以上のニューロンで構成されています。たとえば、次のニューラルネットワークには、隠れ層が 2 つ含まれています。 1 つ目には 3 つのニューロンがあり、2 つ目には 2 つのニューロンがあります。

4 つのレイヤ。最初のレイヤは 2 つのレイヤを含む入力レイヤで、
説明します。第 2 層は隠れ層で、3 つの
あります。3 つ目のレイヤは、2 つのニューロンを含む隠れ層です。4 つ目の層は出力層です。各特徴
3 つのエッジがあり、それぞれが異なるニューロンを指している
レイヤに配置されます。2 番目のレイヤの各ニューロンには 2 つのエッジがあり、それぞれが 3 番目のレイヤの異なるニューロンを参照しています。第 3 階層の各ニューロンには、
1 つのエッジが出力レイヤを指しています。

ディープニューラルネットワークは複数の隠されています。たとえば、上の図は、モデルに 2 つの隠しレイヤが含まれているため、ディープニューラルネットワークです。

詳細については、ML 集中講座のニューラルネットワーク: ノードと隠れ層をご覧ください。

階層型クラスタリング

#clustering

クラスタのツリーを作成するクラスタリングアルゴリズムのカテゴリ。階層型クラスタリングは階層データに適しています。さまざまなパターンを学習します。階層型には 2 つの種類があります。クラスタリングアルゴリズム:

集約型クラスタリングでは、まずすべてのサンプルを独自のクラスタに割り当てます。最も近いクラスタを繰り返し統合して、階層 1 と 2 の表示されます。
分割クラスタリングでは、まずすべてのサンプルを 1 つのクラスタにグループ化し、次にクラスタを反復的に階層ツリーに分割します。

重心ベースのクラスタリングとは対照的です。

詳細については、クラスタリングコースのクラスタリングアルゴリズムをご覧ください。

ヒンジの紛失

各トレーニングサンプルから可能な限り離れた分類境界を見つけ、サンプルと境界間のマージンを最大化するように設計された分類用の損失関数のファミリー。KSVM: ヒンジの損失（またはヒンジ損失の 2 乗など）。バイナリ分類の場合、ヒンジ損失関数は次のように定義されます。

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

ここで、y は真のラベル（-1 または +1）、y' は未加工の出力分類器モデルの予測を行います。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

したがって、ヒンジ損失と（y * y'）のプロットは次のようになります。

結合された 2 つの線分で構成されるデカルトプロット。最初の
線分は (-3, 4) で始まり (1, 0) で終わります。2 行目
セグメントは (1, 0) から始まり、傾きをもって無期限に続く
0 です。

過去のバイアス

#fairness

世界にすでに存在し、データセットに組み込まれているバイアスの一種。こうしたバイアスは、既存の文化的固定観念、人口統計的な不平等、特定の社会的グループに対する偏見を反映する傾向があります。

たとえば、分類モデルについて考えてみましょう。ローン申請者がローンを債務不履行するかどうかを予測します。 2 つの地域で地方銀行の 1980 年代のローン債務不履行履歴データに基づいてトレーニングできます。コミュニティ A の過去の申請者が、コミュニティ B の申請者よりもローンのデフォルト率が 6 倍高い場合、モデルは過去の偏見を学習し、そのコミュニティのデフォルト率が高くなった過去の状況が現在は関連性がなくなっていても、コミュニティ A のローンを承認する可能性が低くなる可能性があります。

詳細については、ML 集中講座の公平性: バイアスの種類をご覧ください。

ホールドアウトデータ

トレーニング中に意図的に使用されない（「ホールドアウト」）サンプル。検証データセットと テストデータセットは、ホールドアウトデータの例です。ホールドアウトデータは、トレーニングに使用したデータ以外のデータに一般化するモデルの能力を評価するのに役立ちます。ホールドアウトセットの損失により、未知のデータセットでの損失の推定値とトレーニングセットを使用します

ホスト

#TensorFlow

#GoogleCloud

アクセラレータチップで ML モデルをトレーニングする場合（GPU または TPU）: システムの一部次の両方を制御します。

コードの全体的なフロー。
入力パイプラインの抽出と変換。

ホストは通常、アクセラレータチップではなく CPU で実行されます。デバイスは、アクセラレータチップでテンソルを操作します。

ハイパーパラメータ

#fundamentals

ハイパーパラメータ調整サービスによって実行される変数は、モデルを継続的に調整する必要がありますたとえば、学習率はハイパーパラメータです。方法トレーニングセッションの前に学習率を 0.01 に設定する。もし 0.01 が高すぎると判断した場合は、トレーニングセッションでは 0.003 に設定します。

一方、パラメータは、トレーニング中にモデルが学習するさまざまな重みとバイアスです。

線形回帰: ハイパーパラメータをご覧ください。

超平面

空間を 2 つのサブスペースに分割する境界。たとえば、直線は平面は 2 次元の超平面であり、平面は 3 次元の超平面です。機械学習では、ハイパープレーンは高次元空間を分離する境界です。カーネルサポートベクターマシン 正のクラスと負のクラスを分離する超平面。高次元空間です。

I

i.i.d.

独立および同分布の略語。

画像認識

#image

画像内のオブジェクト、パターン、コンセプトを分類するプロセス。画像認識は、画像分類とも呼ばれます。

詳細については、次をご覧ください: ML Practicum: Image Classification。

ML の実践: 画像分類の実践演習コースをご覧ください。

不均衡なデータセット

クラス不均衡データセットと同義。

暗黙のバイアス

#fairness

自分の心に基づいて自動的に関連付けや仮定を立てる生成 AI です。無意識の偏見は、次のようなことに影響する可能性があります。

データの収集方法と分類方法。
機械学習システムの設計と開発方法。

たとえば、結婚式の写真を識別する分類子を構築する場合、エンジニアは写真に白いドレスが写っているかどうかを特徴として使用できます。しかし、白いドレスが慣例となっていたのは特定の時代に限定され、地域によっても異なります。

確証バイアスもご覧ください。

補完

値の補完の短縮形。

公平性に関する指標の非互換性

#fairness

公平性の概念の中には相互に相反するものがあり、同時に満たすことはできませんそのため、すべての ML 問題に適用できる公平性を定量化する単一の普遍的な指標はありません。

これは好ましくないと思うかもしれませんが、公平性に関する指標に互換性がないのは公平性の取り組みが実を結んでいないことを意味するわけではありません。代わりに、ユースケースに固有の害を防ぐことを目標に、特定の ML 問題のコンテキストに沿って公平性を定義する必要があることを示唆しています。

このトピックの詳細については、「公平性の（不）可能性について」をご覧ください。

コンテキスト内学習

#language

#generativeAI

少数ショットプロンプトと同義。

独立同分布（i.i.d）

#fundamentals

変化しない分布から取得されたデータと、各値が描画されるものは、以前に描画された値に依存しません。i.i.d. は機械学習の理想気体です。これは有用な数学的な構成ですが、現実世界ではほとんど正確に見つかりません。たとえば、ウェブページへの訪問者の分布は、短い期間では独立分散である可能性があります。つまり、その短い期間では分布は変化せず、1 人の訪問は通常別の人の訪問とは独立しています。ただし、期間を広げると、ウェブページの訪問者数に季節的な違いが現れる可能性があります。

非定常性もご覧ください。

個人の公平性

#fairness

類似の個人が類似して分類されるかどうかを確認する公平性指標。たとえば、Brobdingnagian アカデミーは、同じ成績と標準化テストのスコアを持つ 2 人の生徒が、入学する可能性を同等に確保することで、個人の公平性を満たしたいと考えています。

個人の公正性は、「類似性」（この場合は成績とテストのスコア）の定義に完全に依存します。類似性指標で重要な情報（生徒のカリキュラムの厳しさなど）が欠落していると、新しい公正性の問題が発生するリスクがあります。

個々の公平性について詳しくは、「認識による公平性」をご覧ください。

推論

#fundamentals

機械学習では、トレーニング済みモデルをラベルなしの例に適用して予測を行うプロセス。

推論は、統計では若干異なる意味があります。詳細については、統計的推論に関する Wikipedia の記事をご覧ください。

教師あり学習をご覧ください。で、教師あり学習における推論の役割を学習します。

推論パス

#df

ディシジョンツリーで推論を行う際、特定の例が root を他の条件に追加し、 リーフ。たとえば、次のディシジョンツリーでは、太い矢印は、次のサンプルの推論パスを示しています。特徴値:

x = 7
y = 12
z = -3

次の図の推論パスは、リーフ（Zeta）に到達する前に 3 つの条件を通過します。

4 つの条件と 5 つのリーフで構成されるディシジョンツリー。
ルート条件は (x > 0) です。答えはイエスなので、
推論パスは、ルートから次の条件（y > 0）まで進みます。
答えが「はい」であるため、推論パスは次の条件（z > 0）に移動します。答えがノーであるため、推論パスは
その終端ノード、つまりリーフ（ゼータ）にたどり着きます。

3 つの太い矢印は推論パスを示しています。

詳細については、ディシジョンフォレストコースのディシジョンツリーをご覧ください。

情報利得

#df

ディシジョンフォレストでは、ノードのエントロピーと、その子ノードのエントロピーの重み付け（例数による）の合計の差です。ノードのエントロピーとは、ノードの表示されます。

たとえば、次のエントロピー値について考えてみましょう。

親ノードのエントロピー = 0.6
関連する 16 個のサンプルを持つ 1 つの子ノードのエントロピー = 0.2
関連する 24 個のサンプルを持つ別の子ノードのエントロピー = 0.1

つまり、例の 40% が 1 つの子ノードに、60% がもう 1 つの子ノードに分類されます。そのため、次のようになります。

子ノードの加重エントロピー合計 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

したがって、情報取得は次のようになります。

情報利得 = 親ノードのエントロピー - 子ノードの重み付けエントロピーの合計
情報利得 = 0.6 - 0.14 = 0.46

ほとんどの分割ツールは、情報量を最大化する条件を作成しようとします。

所属グループのバイアス

#fairness

自分のグループや自分の特性に偏見を示す。テスターまたは評価者が ML デベロッパーの友人、家族、同僚である場合、グループ内バイアスによりプロダクトテストまたはデータセットが無効になる可能性があります。

所属グループのバイアスとは、グループ帰属バイアスの一種です。グループ外の均一性バイアスもご覧ください。

公平性: バイアス ML 集中講座をご覧ください。

入力ジェネレータ

Google Cloud Storage にデータを読み込むメカニズム ニューラルネットワーク。

入力ジェネレータは、入力ジェネレータの処理を担うコンポーネントと元データをテンソルに変換し、それを反復してバッチを生成トレーニング、評価、推論です

入力層

#fundamentals

特徴ベクトルを保持するニューラルネットワークのレイヤ。つまり、入力レイヤが トレーニングの例を提供します。推論。たとえば、次の入力レイヤでは、ニューラルネットワークは、

4 つのレイヤ（入力レイヤ、2 つの隠れ層、出力レイヤ）

セット内の条件

#df

ディシジョンツリーの条件一連のアイテム内に 1 つのアイテムが存在するかどうかをテストします。たとえば、インセット条件は次のとおりです。

  house-style in [tudor, colonial, cape]

推論中に、家スタイルの特徴の値が tudor、colonial、cape のいずれかである場合、この条件は Yes と評価されます。住宅スタイルの特徴の値が他の場合（ranch など）は、この条件は「いいえ」と評価されます。

通常、セット内条件は、ワンホットエンコードされた特徴をテストする条件よりも効率的なディシジョンツリーにつながります。

インスタンス

example と同義。

指示チューニング

#generativeAI

生成 AI モデルが指示に従う能力を向上させるファインチューニングの一種。指示チューニングには、一連のデータでモデルをトレーニング指示プロンプトが多数用意されており、通常はさまざまな多岐にわたります。その結果、指示用にチューニングされたモデルは、 ゼロショットプロンプトに対する有用なレスポンスを生成する学習しました。

比較対照:

パラメータ効率チューニング
プロンプトのチューニング

解釈可能性

#fundamentals

ML モデルの推論を人間が理解できる用語で表現します。

たとえば、ほとんどの線形回帰モデルは、作成します。（各トレーニング済み重みを参照するだけで済みます。 feature.)デシジョンフォレストは解釈性も高く、ただし、一部のモデルでは、解釈可能にするために高度な可視化が必要になります。

Learning Interpretability Tool（LIT）を使用して ML モデルを解釈できます。

評価者間合意

タスクを実施するときに人間の評価者が同意する頻度の測定値。評価者が一致しない場合は、タスクの手順を改善する必要があります。アノテーション作成者間の一致や評価者間の信頼性とも呼ばれます。最も一般的な判定者間の合意測定の 1 つである Cohen のカッパもご覧ください。

カテゴリデータ: 共通問題をご覧ください。

Intersection over Union（IoU）

#image

2 つの集合の共通部分をその和で割った値。ML 画像検出タスクでは、IoU を使用してモデルの境界に関して予測される境界ボックス グラウンドトゥルースの境界ボックス。この場合、2 つのボックスの IoU は重複領域と合計領域の比率であり、値は 0（予測境界ボックスとグラウンドトゥルースの境界ボックスが重複しない）から 1（予測境界ボックスとグラウンドトゥルースの境界ボックスの座標が完全に一致）です。

たとえば、次の画像では、

予測された境界ボックス（モデルが絵画のナイトテーブルが配置されていると予測する場所を区切る座標）は紫色の枠線で囲まれています。
グラウンドトゥルースの境界ボックス（夜間、が緑色の枠線で囲まれています。

ゴッホの絵画「アルルの寝室」で、ベッドの横のナイトテーブルの周囲に 2 つの異なる境界ボックスが設定されています。正解の境界ボックス（緑色）は、ナイトテーブルを完全に囲んでいます。「
予測境界ボックス（紫色）が右下隅の 50% オフセット
グラウンドトゥルースの境界ボックスの右下 4 分の 1 を囲む
残りのテーブルは見逃します

ここで、予測境界ボックスと正解境界ボックスの交差（左下）は 1、予測境界ボックスと正解境界ボックスの和（右下）は 7 であるため、IoU は $\frac{1}{7}$です。

上記と同じ画像ですが、各境界ボックスが 4 つの象限に分割されています。全部で 7 つの象限があります
グラウンドトゥルースの境界ボックスと左上の象限
予測された境界ボックスの象限が互いに重なっている。この重複する部分（緑色でハイライト表示）は交差を表し、面積は 1 です。

上記と同じ画像ですが、各境界ボックスが 4 つの象限に分割されています。全部で 7 つの象限があります
グラウンドトゥルースの境界ボックスと左上の象限
予測された境界ボックスの象限が互いに重なっている。
両方の境界ボックスで囲まれた内部全体
（緑色でハイライト表示）はユニオンを表し、
面積は 7 です

IoU

Intersection over Union の略。

アイテムマトリックス

#recsystems

レコメンデーションシステムでは、アイテムに関する潜在シグナルを保持する行列分解によって生成されたエンベディングベクトルの行列。アイテムマトリックスの各行には、すべてのアイテムの単一の潜在特徴の値が格納されます。たとえば、映画のレコメンデーションシステムについて考えてみましょう。アイテムマトリックスの各列は 1 つの映画を表します。潜在シグナルは、ジャンルを表す場合もあれば、ジャンル、スター、映画の公開年などの要素間の複雑な相互作用を含む、解釈が難しいシグナルである場合もあります。

アイテムマトリックスの列数は、分解されるターゲットマトリックスの列数と同じです。たとえば、ある映画が 10,000 本の映画タイトルを評価するレコメンデーションシステム、アイテムマトリックスは 10,000 列になります。

アイテム

#recsystems

レコメンデーションシステムでは、表示されます。たとえば、動画はビデオストアがおすすめするアイテムであり、書籍は書店がおすすめするアイテムです。

繰り返し

#fundamentals

モデルのパラメータ（モデルのパラメータ）を 1 回更新すると、重みとバイアス - トレーニングをご覧ください。バッチサイズは、モデルが 1 回の反復で処理するサンプルの数を決定します。たとえば、バッチサイズが 20 の場合、モデルは 20 個のサンプルを処理してからパラメータを調整します。

ニューラルネットワークをトレーニングする場合、1 回の反復処理は次の 2 つのパスがあります。

1 つのバッチで損失を評価する順伝播。
バックプロパゲーションを調整するためのバックワードパス（モデルのパラメータを調整する必要があります。

J

JAX

アレイコンピューティングライブラリは、 XLA（Accelerated Linear Algebra）と自動微分高パフォーマンスの数値計算に最適ですJAX はシンプルかつ高性能なコンポーズ可能な変換により、高速化された数値コードを記述するための API。 JAX には次のような機能があります。

grad（自動微分）
jit（ジャストインタイムコンパイル）
vmap（自動ベクトル化またはバッチ処理）
pmap（並列化）

JAX は、数値コードの変換を表現してコンポーズするための言語です。Python の NumPy ライブラリに似ていますが、その範囲ははるかに広いです。（実際、JAX の .numpy ライブラリは、機能的には同等ですが、Python NumPy ライブラリの完全に書き換えられたバージョンです）。

JAX は、モデルとデータを GPU と TPU アクセラレータチップ間の並列処理に適した形式に変換することで、多くの ML タスクを高速化するために特に適しています。

Flax、Optax、Pax など、多くのライブラリが JAX インフラストラクチャ上に構築されています。

K

Keras

よく利用されている Python の ML API。 Keras 実行日ディープラーニングフレームワークがいくつか用意されています。TensorFlow では、利用可能 tf.keras を使用します。

カーネルサポートベクターマシン（KSVM）

入力データベクトルを高次元空間にマッピングすることで、正クラスと負クラスの間のマージンを最大化しようとする分類アルゴリズム。たとえば、入力データセットに 100 個の特徴がある分類問題について考えてみましょう。正クラスと負クラス間のマージンを最大化するために、KSVM は内部でこれらの特徴を 100 万次元の空間にマッピングできます。KSVM は、ヒンジ損失と呼ばれる損失関数を使用します。

keypoints

#image

画像内の特定の特徴の座標。たとえば、花の種類を区別する画像認識モデルの場合、キーポイントは各花びらの中心、茎、雄しべなどです。

k フォールド交差検証

モデルの性能を予測するためのアルゴリズムは、新しいデータに一般化する。k 分割の k は、データセットのサンプルを分割する等しいグループの数を指します。つまり、モデルを k 回トレーニングしてテストします。トレーニングとテストの各ラウンドでは、異なるグループがテストセットになり、残りのすべてのグループがトレーニングセットになります。k ラウンドのトレーニングとテストの後、平均と選択したテスト指標の標準偏差。

たとえば、データセットが 120 個のサンプルで構成されているとします。さらに仮に k を 4 に設定することにしました。したがって、サンプルをシャッフルした後、データセットを 30 個のサンプルの 4 つの均等なグループに分割し、4 回のトレーニングとテストを実施します。

サンプルの 4 つの等しいグループに分割されたデータセット。第 1 ラウンドでは
最初の 3 つのグループがトレーニングに使用され、最後のグループが
テストに使用されます。第 2 ラウンドでは、最初の 2 つのグループが、
グループはトレーニングに使用され、3 つ目のグループは
説明します。ラウンド 3 では、最初のグループと最後の 2 つのグループがトレーニングに使用され、2 番目のグループがテストに使用されます。ラウンド 4 では、最初のグループはテストに使用され、最後の 3 つのグループはトレーニングに使用されます。

たとえば、線形回帰モデルでは平均二乗誤差（MSE）が最も有意な指標になる可能性があります。したがって、4 つのラウンド全体の MSE の平均と標準偏差を確認します。

K 平均法

#clustering

教師なし学習で例をグループ化する一般的なクラスタリング アルゴリズム。k 平均法アルゴリズムは基本的に次のことを行います。

最適な k 個の中心点（セントロイド）を反復的に決定します。
各サンプルを最も近いセントロイドに割り当てます。最も近くにあるサンプルは同じセントロイドが同じグループに属する場合です。

k 平均法アルゴリズムは、各サンプルから最も近いセントロイドまでの距離の累積2 乗を最小化するようにセントロイドの位置を選択します。

たとえば、犬の高さと犬の幅の次のプロットについて考えてみましょう。

数十個のデータポイントがあるデカルトグラフ。

k=3 の場合、K 平均法アルゴリズムによって 3 つの重心が決定されます。各サンプルは、最も近い重心に割り当てられ、3 つのグループが生成されます。

3 つの重心が追加されていることを除き、前の図と同じカーテシアンプロットです。前のデータポイントは 3 つの異なるグループにクラスタ化されています。
各グループは特定のデータポイントに最も近い
できます。

たとえばあるメーカーが、小型サイズも豊富です3 つのセントロイドは、そのクラスタ内の各犬の平均高さと平均幅を示します。したがって、メーカーは、これらの 3 つの重心に基づいてセーターサイズを決定する必要があります。通常、クラスタの重心はクラスタ内の例ではありません。

上の図は、2 つの特徴量（高さと幅）のみを含む例の K 平均法を示しています。k 平均法では、多くの特徴にわたってサンプルをグループ化できます。

k 中央値

#clustering

k 平均法に密接に関連するクラスタリングアルゴリズム。2 つの実質的な違いは次のとおりです。

K 平均法では、セントロイドが 2 乗: セントロイド候補と各説明します。
k-median では、セントロイド候補と各例の間の距離の合計を最小化することでセントロイドが決定されます。

距離の定義も異なることに注意してください。

K 平均法は、セントロイドからサンプルまでのユークリッド距離に依存します。（2 つの次元では、距離はピタゴラスの定理を使って斜辺）です。たとえば、（2,2）と（5,-2）の間の K 平均法距離は次のようになります。

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k 中央値はマンハッタン距離に依存例に挙げられますこの距離は、トレーニングデータの差分を表示できます。たとえば、（2,2）と（5,-2）の間の k-median 距離は次のようになります。

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L₀ 正則化

#fundamentals

正則化の一種で、ゼロ以外の重みの合計数にペナルティをかけるです。たとえば、11 個のゼロ以外の重みを持つモデルは、10 個のゼロ以外の重みを持つ同様のモデルよりも大きなペナルティが適用されます。

L₀ 正則化は、L0 ノルム正則化とも呼ばれます。

アイコンをクリックすると、追加のメモが表示されます。

一般に、大規模モデルでは L₀ 正則化は実用的ではありません。 L₀ 正則化は、トレーニングを凸面最適化の問題です。

L₁ 損失

#fundamentals

実際のラベル値とモデルが予測する値の差の絶対値を計算する損失関数。たとえば、5 つのサンプルのバッチに対する L₁ 損失の計算は次のとおりです。

例の実際の値	モデルの予測値	デルタの絶対値
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ 損失

L₁ 損失は外れ値の影響を受けにくい L₂ 損失よりも高くなります。

平均絶対誤差は、サンプルあたりの平均 L₁ 損失です。

アイコンをクリックすると、正式な数式が表示されます。

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

ここで

$n$ はサンプル数です。
$y$ はラベルの実際の値です。
$\hat{y}$ は、モデルが $y$ に対して予測する値です。

L₁ 正則化

#fundamentals

ペナルティを課す正則化の一種絶対値の合計に比例する重みあります。L₁ 正則化は、無関係またはほとんど関連性のない特徴量の重みを正確に 0 に近づけるのに役立ちます。重みが 0 の特徴量は、モデルから実質的に削除されます。

L₂ 正則化とは対照的です。

L₂ 損失

#fundamentals

二乗を計算する損失関数 実際のラベル値と モデルが予測する値。たとえば、ここでは バッチが 5 の場合の L₂ 損失の計算例:

例の実際の値	モデルの予測値	三角形
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ 損失

二乗によって、L₂ の損失が 外れ値。つまり、L₂ の損失は、悪い予測に対してよりも強い反応を示す L₁ 損失。たとえば、前のバッチの L₁ 損失は 16 ではなく 8 になります。1 つの Pod が外れ値は 16 個のうち 9 個を占めます。

回帰モデルでは通常、損失関数として L₂ 損失を使用します。

平均二乗誤差は、例あたり L₂ 損失。二乗損失は、L₂ 損失の別名です。

アイコンをクリックすると、正式な計算が表示されます。

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

ここで

$n$ はサンプル数です。
$y$ はラベルの実際の値です。
$\hat{y}$ は、モデルが $y$ について予測した値です。

L₂ 正則化

#fundamentals

正則化の一種で、重みの平方の合計に比例して重みにペナルティーを科します。L₂ 正則化は、外れ値の重み（ 0 に近いものの、0 に近い値を指定します。値が 0 に非常に近い特徴はモデルに残りますが、モデルの予測にはあまり影響しません。

L₂ 正則化は、線形モデルの一般化を常に改善します。

対照的に、L₁ 正則化です。

ラベル

#fundamentals

教師あり機械学習では、例の「回答」または「結果」の部分。

各ラベル付きサンプルは、1 つ以上の特徴量とラベルで構成されます。たとえば、スパム検出データセットでは、ラベルは「スパム」または「スパムではない」のいずれかになります。降雨データセットでは、ラベルは特定の期間に降った雨の量です。

ラベル付きサンプル

#fundamentals

1 つ以上の特徴とラベルを含む例。たとえば、次の表は、住宅査定モデルの 3 つのラベル付きサンプルを示しています。それぞれに 3 つの特徴と 1 つのラベルがあります。

寝室の数	浴室数	家の築年数	住宅価格（ラベル）
3	2	15	34 万 5,000 ドル
2	1	72	$179,000
4	2	34	$392,000

教師あり ML では、ラベル付きサンプルでトレーニングされ、 ラベルなしのサンプル。

ラベル付きサンプルとラベルなしサンプルを比較します。

ラベル漏洩

モデル設計上の欠陥で、特徴が label。たとえば、 バイナリ分類モデル見込み顧客が特定の商品を購入するかどうかモデルの特徴の 1 つが SpokeToCustomerAgent という名前のブール値であるとします。さらにカスタマーエージェントは見込み顧客が実際に購入した後に割り当てられる説明します。トレーニング中に、モデルはこの関連性を SpokeToCustomerAgent とラベルの間の値。

lambda

#fundamentals

正則化率と同義。

ラムダはオーバーロードされた用語です。ここでは、正則化におけるこの用語の定義について説明します。

LaMDA（対話アプリケーション用言語モデル）

#language

Google が開発した Transformer ベースの大規模言語モデル。大規模な会話データセットでトレーニングされており、リアルな会話レスポンスを生成できます。

LaMDA: Google の画期的な会話テクノロジーで概要を確認できます。

landmarks

#image

キーポイントと同義。

言語モデル

#language

トークンの確率を推定するモデル トークン、つまり、より長いシーケンスのトークンで生成されるシーケンスです。

アイコンをクリックすると、追加のメモが表示されます。

直感に反するかもしれませんが、テキストを評価する多くのモデルは 言語モデル。たとえば、テキスト分類モデルと感情分析モデルは言語モデルではありません。

大規模言語モデル

#language

少なくとも、パラメータが非常に多い言語モデルが必要です。よりカジュアルな言い方をすれば、Transformer ベースの言語モデル（Gemini や GPT など）。

潜在空間

#language

エンベディング空間と同義。

レイヤ

#fundamentals

一連のニューロンが ニューラルネットワーク。一般的な 3 種類のレイヤ次のとおりです。

入力レイヤ。すべての特徴の値を提供します。
1 つ以上の隠れ層。特徴とラベル間の非線形関係を検出します。
出力レイヤ。予測を提供します。

たとえば、次の図は、1 つの入力レイヤ、2 つの隠れ層、1 つの出力レイヤを持つニューラルネットワークを示しています。

1 つの入力層、2 つの隠れ層、1 つの隠れ層を持つニューラルネットワーク
出力レイヤです。入力レイヤは 2 つの特徴で構成されています。最初の隠れ層は 3 つのニューロンで構成され、2 番目の隠れ層は 2 つのニューロンで構成されています。出力レイヤは単一のノードで構成されます。

TensorFlow では、レイヤも Python 関数であり、 テンソルと構成オプションを入力および他のテンソルを出力として生成します。

Layers API（tf.layers）

#TensorFlow

レイヤの合成としてディープニューラルネットワークを構築するための TensorFlow API。Layers API を使用すると、次のようなさまざまなタイプのレイヤを作成できます。

tf.layers.Dense: 全結合レイヤ。
tf.layers.Conv2D: 畳み込みレイヤ。

Layers API は、Keras レイヤ API の規則に準拠しています。つまり、別の接頭辞を除き、Layers API 内のすべての関数は、名前と署名が、Keras アプリケーションのものとレイヤ API です。

葉

#df

ディシジョンツリー内の任意のエンドポイント。リーフは、条件とは異なり、テストを実行しません。リーフは、可能な予測です。リーフは、推論パスの終端ノードでもあります。

たとえば、次のディシジョンツリーには 3 つのリーフが含まれています。

3 つのリーフにつながる 2 つの条件を含むディシジョンツリー。

Learning Interpretability Tool（LIT）

モデルの理解とデータ可視化のためのビジュアルでインタラクティブなツール。

オープンソースの LIT を使用して、モデルを解釈したり、テキスト、画像、表します。

学習率

#fundamentals

勾配降下法を示す浮動小数点数重みとバイアスをどれだけ強く調整するかを iteration。たとえば、学習率が 0.3 の場合、重みとバイアスの調整は学習率が 0.1 の場合の 3 倍強くなります。

学習率は重要なハイパーパラメータです。学習率を低く設定しすぎると、トレーニングに時間がかかりすぎます。条件学習率の設定が高すぎると、勾配降下法で問題が発生することが収束に到達する。

アイコンをクリックすると、より数学的な説明が表示されます。

反復処理のたびに、勾配降下法アルゴリズムは、勾配によって学習します結果として得られる積は、 勾配ステップ。

最小二乗回帰

線形回帰モデルは、トレーニングデータの L₂ 損失。

リニア

#fundamentals

単独で表現できる 2 つ以上の変数間の関係加算と乗算で計算されます

直線関係のプロットは線になります。

非線形とは対照的です。

線形モデル

#fundamentals

特徴ごとに 1 つの重みを割り当てて予測を行うモデル。（線形モデルにはバイアスも組み込まれています）。一方 ディープモデルでの予測と特徴量の関係通常はnonlinearです。

通常、線形モデルはディープモデルよりもトレーニングが容易で、解釈可能です。ただし、ディープモデルは特徴間の複雑な関係を学習できます。

線形回帰と ロジスティック回帰は、2 種類の線形モデルです。

アイコンをクリックすると、計算結果が表示されます。

線形モデルは次の式に従います。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

各要素の意味は次のとおりです。

生の予測です。（特定の種類の線形モデルでは、この元の予測がさらに変更されます。たとえば、ロジスティック回帰をご覧ください）。
b はバイアスです。
w は重みです。w₁ は最初の特徴の重み、w₂ は 2 番目の特徴の重み、というようにします。
x は特徴量であるため、x₁ は最初の特徴量の値、x₂ は 2 番目の特徴量の値になります。

たとえば、3 つの特徴量の線形モデルがバイアスと重み: <ph type="x-smartling-placeholder">

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

したがって、3 つの特徴（x₁、x₂、 x₃）に対して、線形モデルでは次の式が使用されます。各予測を生成します。

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

特定の例に次の値が含まれているとします。

x₁ = 4
x₂ = -10
x₃ = 5

これらの値を数式に組み込むと、この例の予測が生成されます。

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

線形モデルには、一次方程式のみを使用するモデルだけでなく、予測を行うだけでなく、一次方程式を使用する幅広いモデルも予測を行う式の 1 つの要素にすぎませんたとえばロジスティック回帰では 0 ～ 1 の間の最終的な予測値を生成します。あります。

線形回帰

#fundamentals

次の両方が当てはまる ML モデルのタイプ。

このモデルは線形モデルです。
予測は浮動小数点値です。（これは線形回帰の回帰部分です）。

線形回帰とロジスティック回帰を比較します。また、回帰と分類を対比します。

LIT

の略語 Learning Interpretability Tool（LIT） これは以前、言語解釈可能性ツールと呼ばれていました。

LLM

#language

#generativeAI

大規模言語モデルの略語。

LLM 評価（評価）

#language

#generativeAI

大規模言語モデル（LLM）のパフォーマンスを評価するための一連の指標とベンチマーク。大まかに言うと LLM の評価:

研究者が LLM の改善が必要な領域を特定できるようにします。
さまざまな LLM を比較し、特定のタスクに最適な LLM を特定する場合に役立ちます。
LLM が安全で倫理的に使用できることを保証します。

ロジスティック回帰

#fundamentals

確率を予測する回帰モデルの一種。ロジスティック回帰モデルには次の特徴があります。

ラベルはカテゴリです。ロジスティックという用語回帰は通常、二項ロジスティック回帰、つまり 2 つの有効な値を持つラベルの確率を計算するモデルに与えられます。あまり一般的ではないバリエーションである多項式ロジスティック回帰は、2 つ以上の候補値を持つラベルの確率を計算します。
トレーニング中の損失関数は ログ損失です。（2 つを超える値が可能なラベルの場合は、複数のログロスユニットを並列に配置できます）。
このモデルは、ディープニューラルネットワークではなく、線形アーキテクチャです。ただし、この定義の残りの部分は、カテゴリラベルの確率を予測するディープラーニングモデルにも適用されます。

たとえば、入力メールがスパムであるかそうでないかの確率を計算するロジスティック回帰モデルについて考えてみましょう。推論の際に、モデルが 0.72 と予測したとします。したがって、次を予測:

メールが迷惑メールである確率は 72% です。
メールが迷惑メールではない確率は 28%。

ロジスティック回帰モデルは、次の 2 段階のアーキテクチャを使用します。

モデルは、一次関数を適用して未加工の予測（y'）を生成する学習します。
モデルはその生の予測を入力として シグモイド関数は元のデータを範囲（0 と 1 は含まない）で表現されます。

他の回帰モデルと同様に、ロジスティック回帰モデルは数値を予測します。ただし、通常、この数値は次のようにバイナリ分類モデルの一部になります。

予測された数値が実際の数値よりも大きい場合、 分類しきい値、バイナリ分類モデルが陽性のクラスを予測します。
予測された数が分類しきい値より小さい場合、バイナリ分類モデルは負のクラスを予測します。

ロジット

分類によって生成される未加工の（正規化されていない）予測のベクトル生成され、通常は正規化関数に渡されます。モデルがマルチクラス分類を解決する場合ロジットは通常、モデルに与える softmax 関数。次に、softmax 関数は、考えられるクラスごとに 1 つの値を持つ（正規化された）確率ベクトルを生成します。

ログ損失

#fundamentals

バイナリロジスティック回帰で使用される損失関数。

アイコンをクリックすると、計算結果が表示されます。

ログ損失は、次の式で計算されます。

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

ここで

$(x,y)\in D$ は、ラベル付きの多くの例（ $(x,y)$ ペア）を含むデータセットです。
$y$ は、ラベル付きサンプルのラベルです。これはロジスティック回帰であるため、 $y$ のすべての値は 0 または 1 にする必要があります。
$y'$ は、 $x$の特徴セットに基づく予測値（0～1 の範囲）です。

ログオッズ

#fundamentals

あるイベントのオッズの対数。

アイコンをクリックすると、計算式が表示されます。

事象が 2 項確率の場合、オッズは成功の確率（p）と失敗します（1-p）。たとえば、特定のイベントの成功確率が 90%、失敗確率が 10% であるとします。この場合、オッズは次のように計算されます。

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

対数オッズは、オッズの単なる対数です。通常、 "対数"意味自然対数対数は実際には、1 より大きい任意の底にすることができます。慣例により、この例の対数オッズは次のようになります。

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

対数オッズ関数は、 シグモイド関数。

Long Short-Term Memory（LSTM）

#seq

手書き認識、機械翻訳、画像キャプションなどのアプリケーションでデータシーケンスを処理するために使用される、再帰型ニューラルネットワークの一種のセル。LSTM は、長いデータシーケンスが原因で RNN をトレーニングするときに発生する勾配消失の問題に対処します。これは、RNN 内の前のセルからの新しい入力とコンテキストに基づいて、内部メモリ状態の履歴を維持することで実現されます。

LoRA

#language

#generativeAI

Low-Rank Adaptability の略語。

損失

#fundamentals

トレーニングの 教師ありモデル: モデルの予測はラベルから取得されます。

損失関数は損失を計算します。

損失アグリゲータ

機械学習アルゴリズムの一種で、 モデルのパフォーマンスを向上させる複数のモデルの予測を組み合わせて、単一の予測を行います。その結果損失アグリゲータを使用すると、予測の分散を予測の精度を向上させる。

損失曲線

#fundamentals

トレーニング数の関数としての損失のプロット iterations。次のグラフは、一般的な損失曲線を示しています。

損失とトレーニングの反復処理のデカルトグラフ。
初期のイテレーションで損失が急激に減少し、その後徐々に
傾きは緩やかで、最後のイテレーションで傾きは緩やかです。

損失曲線は、モデルがトレーニング中に収束または過学習。

損失曲線には、次のタイプの損失をすべてプロットできます。

トレーニング損失
検証損失
テスト損失

一般化曲線もご覧ください。

損失関数

#fundamentals

トレーニングまたはテスト中、次の数値を計算する数学関数では、例のバッチに対する損失です。損失関数は、1 対 1 の会話から予測を行うモデルよりも、精度の高い検出できます。

通常、トレーニングの目標は、損失関数が返す損失を最小限に抑えることです。

損失関数にはさまざまな種類があります。構築するモデルの種類に適した損失関数を選択します。例:

L₂ 損失（または平均二乗誤差）は、線形回帰の損失関数です。
対数損失は、ロジスティック回帰の損失関数です。

損失表面

体重と体脂肪率のグラフ。勾配降下は、損失曲面が局所最小値となる重みを見つけることを目的としています。

低ランクの適応性（LoRA）

#language

#generativeAI

パラメータ効率なファインチューニング手法。モデルの事前トレーニング済み重みを「凍結」（変更できなくする）し、トレーニング可能な重みの小さなセットをモデルに挿入します。このトレーニング可能な重みのセット（「更新行列」）はベースモデルよりもかなり小さく、トレーニングにかかる時間が大幅に短縮されます。

LoRA には次のような利点があります。

細かな粒度が不明な領域におけるモデルの予測品質を適用されます。
モデルのすべてのファインチューニングが必要な手法よりも高速にファインチューニングあります。
以下を有効にすることで、推論の計算コストを削減同じベースを共有する複数の専用モデルの同時サービングモデルです。

アイコンをクリックすると、LoRA の更新マトリックスの詳細を確認できます。

LoRA で使用される更新行列は、ランク分解行列で構成されています。これは、ノイズを除去し、モデルの最も重要な特徴にトレーニングを集中させるためにベースモデルから派生したものです。

LSTM

#seq

長・短期記憶の略称。

M

機械学習

#fundamentals

トレーニングするプログラムまたはシステム入力データからモデルを取得する。トレーニングされたモデルは、モデルのトレーニングに使用したものと同じ分布から抽出された新しい（これまでにない）データから有用な予測を行うことができます。

機械学習は、これらのプログラムやシステムに関連する研究分野も指します。

多数クラス

#fundamentals

より一般的なラベルは、 クラス不均衡なデータセット。たとえば、99% が負のラベルで 1% が正のラベルを含むデータセットの場合、負のラベルが多数クラスになります。

少数クラスとは対照的です。

マルコフ決定プロセス（MDP）

#rl

意思決定モデルを表すグラフは、（またはアクション）状態が維持されることを前提としています。 マルコフの性質。イン 強化学習という、数値の報酬を返します。

マルコフの性質

#rl

特定の環境のプロパティで、その環境の状態は、は、完全に定義された情報によって現在の状態とエージェントのアクション。

マスク言語モデル

#language

シーケンス内の空白を埋める候補トークンの確率を予測する言語モデル。たとえば、マスクされた言語モデルで候補単語の確率を計算できるを使用して、次の文の下線を置き換えます。

帽子の ____ が戻ってきた。

通常、文献では下線ではなく文字列「MASK」が使用されます。例:

帽子の「MASK」が復元されました。

最新のマスク付き言語モデルのほとんどは双方向です。

matplotlib

オープンソースの Python 2D プロットライブラリ。 matplotlib を使用すると、さまざまな側面から説明します

行列分解

#recsystems

数学では、ドット積がターゲットマトリックスに近似するマトリックスを見つけるメカニズム。

レコメンデーションシステムにおけるターゲットマトリックスしばしばユーザーのitems に対する評価。たとえば、映画のレコメンデーションシステムのターゲットマトリックスは次のようになります。正の整数はユーザー評価で、0 はユーザーが映画を評価していないことを意味します。

	カサブランカ	フィラデルフィア物語	Black Panther（「ブラックパンサー」）	ワンダーウーマン	パルプ・フィクション
ユーザー 1	5.0	3.0	0.0	2.0	0.0
ユーザー 2	4.0	0.0	0.0	1.0	5.0
ユーザー 3	3.0	1.0	4.0	5.0	0.0

映画のレコメンデーションシステムは、評価されていない映画のユーザー評価を予測することを目的としています。たとえば、ユーザー 1 は Black Panther を気に入るでしょうか？

レコメンデーションシステムの手法の一つとして、マトリックスを次の 2 つの行列を生成します。

ユーザー数 × エンベディングディメンション数で構成されるユーザーマトリックス。
アイテムマトリックス。エンベディングの数として形成されます。寸法 × 項目数です。

たとえば、3 人のユーザーと 5 つのアイテムに対して行列分解を使用すると、この場合、次のようなユーザーマトリックスとアイテムマトリックスが生成されます。

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

ユーザー行列とアイテム行列の点積は、元のユーザー評価だけでなく、各ユーザーが視聴していない映画の予測も含むおすすめ情報行列を生成します。たとえば、ユーザー 1 のカサブランカの評価は 5.0 でした。推奨事項マトリックスのそのセルに対応するドット積は 5.0 程度になるはずです。実際には次のようになります。

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

さらに重要なのは、ユーザー 1 は Black Panther を気に入るかどうかです。1 行目と 3 列目に相当する内積を取ると、予測評価 4.3 が得られます。

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

行列分解で生成されるユーザーマトリックスとアイテムマトリックスは通常、ターゲットマトリックスよりも大幅にコンパクトになります。

平均絶対誤差（MAE）

L₁ 損失を使用する場合のサンプルあたりの平均損失。平均絶対誤差は次のように計算します。

バッチの L₁ 損失を計算します。
L₁ 損失をバッチ内の例数で除算します。

アイコンをクリックすると、正式な数式が表示されます。

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

ここで

$n$ はサンプル数です。
$y$ はラベルの実際の値です。
$\hat{y}$ は、モデルが $y$ について予測した値です。

たとえば、入力シーケンスの L₁ 損失の計算を 5 つの例のバッチに続きます。

例の実際の値	モデルの予測値	損失（実際と予測の差）
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ の損失

したがって、L₁ の損失は 8、例の数は 5 です。したがって、平均絶対誤差は次のようになります。

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

平均絶対誤差を平均二乗誤差で対比する。 二乗平均平方根誤差。

平均二乗誤差（MSE）

L₂ 損失を使用する場合の例あたりの平均損失。平均二乗誤差は次のように計算します。

バッチの L₂ 損失を計算します。
L₂ 損失をバッチ内の例数で除算します。

アイコンをクリックすると、正式な数式が表示されます。

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ ここで:

$n$ は、例の数です。
$y$ はラベルの実際の値です。
$\hat{y}$ は、$y$ に対するモデルの予測です。

たとえば、次の 5 つのサンプルのバッチの損失について考えてみましょう。

実際の値	モデルの予測	損失	二乗損失
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = L₂ 損失

したがって、平均二乗誤差は次のようになります。

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

平均二乗誤差は一般的なトレーニング オプティマイザーです。特に線形回帰で使用します。

平均二乗誤差を平均絶対誤差や二乗平均平方根誤差と比較します。

TensorFlow Playground: 平均二乗誤差を使用損失値を計算します。

アイコンをクリックすると、外れ値の詳細が表示されます。

外れ値は平均二乗誤差に大きく影響します。たとえば、損失 1 は損失 1 の 2 乗ですが、損失 3 は損失です。損失の 2 乗損失になります上の表では、損失が 3 の例が平均二乗誤差の約 56% を占めていますが、損失が 1 の例はそれぞれ平均二乗誤差の 6% しか占めていません。

外れ値は平均絶対誤差にそれほど強く影響しない平均二乗誤差。たとえば、3 件のアカウントの損失は、平均絶対誤差の約 38% にすぎません。

極端な外れ値がモデルの予測能力に悪影響を及ぼすのを防ぐ方法の一つがクリッピングです。

メッシュ

#TensorFlow

#GoogleCloud

ML 並列プログラミングでは、データとモデルを TPU チップに割り当て、これらの値のシャーディングまたは複製方法を定義する用語。

メッシュは、次のいずれかを意味するオーバーロードされた用語です。

TPU チップの物理レイアウト。
データとモデルを TPU チップにマッピングするための抽象的な論理構造。

どちらの場合も、メッシュはシェイプとして指定されます。

メタ学習

#language

学習アルゴリズムを検出または改善する ML のサブセット。メタラーニングシステムでは、新しい情報をすばやく学習するようにモデルをトレーニングすることも少量のデータやこれまでのタスクで得た経験からトレーニングすることもできます通常、メタ学習アルゴリズムは次の目標を達成しようとします。

手動で作成された特徴（初期化子やオプティマイザーなど）を改善または学習する。
データ効率とコンピューティング効率を高める。
一般化を改善する。

メタ学習は少数ショット学習に関連しています。

指標

#TensorFlow

重視する統計情報。

目標とは、機械学習システムが最適化しようとする指標です。

Metrics API（tf.metrics）

モデルを評価するための TensorFlow API。たとえば、tf.metrics.accuracy は、モデルの予測がラベルと一致する頻度を決定します。

ミニバッチ

#fundamentals

1 回の反復処理で処理されるバッチの小さなランダムサブセット。ミニバッチのバッチサイズは通常、 10 ～ 1,000 サンプル。

たとえば、トレーニングセット全体（完全なバッチ）が 1,000 個のサンプルで構成されているとします。さらに、各ミニバッチのバッチサイズを 20 に設定したとします。したがって、各反復処理で 1,000 個のサンプルからランダムに 20 個のサンプルを選択し、その損失を決定してから、それに応じて重みとバイアスを調整します。

ミニバッチでの損失を計算する方が、サンプル全体の損失がわかります

ミニバッチ確率的勾配降下法

ミニバッチを使用する勾配降下法アルゴリズム。つまり、ミニバッチ確率的勾配降下法は、トレーニングデータの小さなサブセットに基づいて勾配を推定します。通常の確率的勾配降下法では、サイズ 1 のミニバッチを使用します。

ミニマックス損失

生成されたデータと実際のデータの分布間のクロスエントロピーに基づく、生成敵対ネットワークの損失関数。

最小損失損失が最初の論文で生成敵対的ネットワークです。

少数派クラス

#fundamentals

カテゴリではあまり一般的でないラベルが クラス不均衡なデータセット。たとえば 99% の負のラベルと 1% の正のラベルを含むデータセットの場合、正のラベルは少数派のクラスです

多数クラスとは対照的です。

アイコンをクリックすると、追加のメモが表示されます。

100 万個のサンプルを含むトレーニングセットは、非常に印象的です。ただし、少数派のクラスが適切に表現されていない場合、非常に大きなトレーニングセットでも不十分な場合があります。データセットのサンプルの合計数よりも、少数派クラスのサンプル数に重点を置きます。

データセットに少数派クラスのサンプルが十分に含まれていない場合は、ダウンサンプリング（2 つ目の箇条書きの定義）を使用して少数派クラスを補完することを検討してください。

専門家の組み合わせ

#language

#generativeAI

パラメータのサブセット（エキスパート）のみを使用して特定の入力トークンまたは例を処理することで、ニューラルネットワークの効率を高めるスキーム。ゲーティングネットワークは、各入力トークンまたは例を適切なエキスパートに転送します。

詳細については、次のいずれかのホワイトペーパーをご覧ください。

ML

機械学習の略語。

MMIT

#language

#image

#generativeAI

略語: マルチモーダル指示用調整済み。

MNIST

#image

LeCun、Cortes、Burges がコンパイルした、 60,000 点の画像で、それぞれが人間がどのようにして特定の言葉を手作業で書いたか 0 ～ 9 の数字。各画像は 28 x 28 の整数の配列として保存されます。各整数は 0～255 のグレースケール値です。

MNIST は機械学習のカノニカルデータセットであり、新しい機械学習アプローチのテストによく使用されます。詳しくは、 <ph type="x-smartling-placeholder"></ph> The MNIST Database of HandWriting Digits（手書き数字の MNIST データベース）。

モダリティ

#language

上位のデータカテゴリ。たとえば、数値、テキスト、画像、動画、音声は 5 つの異なるモダリティです。

モデル

#fundamentals

一般に、入力データを処理して結果を返す数学的構造は出力です。別の言い方をすると、モデルとは、システムが予測を行うために必要なパラメータと構造のセットです。教師あり機械学習では、モデルは例を入力として受け取り、予測を出力として推論します。教師あり ML では、若干異なります。例:

線形回帰モデルは一連の重み バイアス。
ニューラルネットワーク モデルは、次の要素で構成されます。
- 一連の非表示レイヤ。各レイヤには 1 つまたは複数のレイヤが含まれます。より多くのニューロン。
- 各ニューロンに関連付けられた重みとバイアス。
ディシジョンツリーモデルは次の要素で構成されます。
- 木の形状。つまり、条件とリーフが接続されるパターン。
- 条件と出発。

モデルの保存、復元、コピーを行うことができます。

教師なし ML にもモデルを生成します。通常は、入力サンプルをモデルに最適なクラスタを選択する。

アイコンをクリックして、代数関数とプログラミング関数を ML モデルと比較します。

次のような代数関数はモデルです。

  f(x, y) = 3x -5xy + y² + 17

上記の関数は、入力値（x と y）を出力にマッピングします。

同様に、次のようなプログラミング関数もモデルです。

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

呼び出し元は、先行する Python 関数に引数を渡し、 Python 関数は出力を生成します（return ステートメントを使用）。

ディープニューラルネットワークは、代数関数やプログラミング関数とは数学的な構造が大きく異なりますが、入力（例）を受け取り、出力（予測）を返します。

人間のプログラマーがプログラミング関数を手動でコーディングします。一方、機械学習モデルは、自動トレーニング中に最適なパラメータを徐々に学習します。

モデルの容量

モデルが学習できる問題の複雑さ。データが複雑になるほど学習できる問題が多いほど、モデルのキャパシティは高くなります。通常、モデルの容量はモデルパラメータの数に比例して増加します。1 つの分類器の容量の正式な定義については、以下をご覧ください。 VC ディメンション。

モデルのカスケード

#generativeAI

特定の推論クエリに最適なモデルを選択するシステム。

非常に大規模なものから多数の（多数の）モデルまで、 パラメータ）をはるかに小さくします（パラメータの数を大幅に減らします）。非常に大規模なモデルでは、多くのコンピューティングリソースを推論時間を短縮できます。ただし、非常に大きなモデルは、通常、小規模なモデルよりも複雑なリクエストを推測できます。モデルのカスケードにより推論クエリの複雑さが決定され、推論を実行する適切なモデルを選択します。モデルカスケードの主な目的は、通常は小規模なモデルを選択し、複雑なクエリに対してのみ大規模なモデルを選択することで、推論コストを削減することです。

小さなモデルがスマートフォンで動作し、そのモデルの大きなバージョンがスマートフォンで実行されているとします。リモートサーバーで実行されます。適切なモデルカスケードを使用すると、小さいモデルで単純なリクエストを処理し、複雑なリクエストを処理するためにリモートモデルを呼び出すだけで、費用とレイテンシを削減できます。

モデルルーターもご覧ください。

モデルの並列処理

#language

トレーニングまたは推論をスケーリングする方法 model をさまざまなデバイスにモデル化。モデル並列処理を使用すると、1 つのデバイスに収まらない大きすぎるモデルを使用できます。

モデル並列処理を実装するために、システムは通常、次のことを行います。

モデルを小さな部分にシャーディング（分割）します。
これらの小さな部分のトレーニングを複数のプロセッサに分散します。各プロセッサは、モデルの独自の部分をトレーニングします。
結果を結合して単一のモデルを作成します。

モデルの並列処理はトレーニングを遅らせます。

データ並列処理もご覧ください。

モデルルーター

#generativeAI

理想的なモデルを決定するアルゴリズム モデルのカスケードにおける推論。モデルルーター自体が、通常はそのルーター自体が与えられた入力に対して最適なモデルを選択する方法を徐々に学習します。ただし、モデルルーターのほうが、アルゴリズムです。

モデルのトレーニング

最適なモデルを決定するプロセス。

モメンタム

学習ステップが現在のステップの微分だけでなく、直前のステップの微分にも依存する高度な勾配降下アルゴリズム。Momentum には、経時的な勾配の指数加重移動平均、類似物理学の運動量に応用できますモメンタムによって学習が妨げられることがある局所的な最小値に行き詰まることがあります。

MOE

#language

#image

#generativeAI

専門家の組み合わせの略語。

マルチクラス分類

#fundamentals

教師あり学習における分類問題。データセットに2 つを超えるクラスのラベルが含まれています。たとえば、Iris データセットのラベルは次のいずれかである必要があります。 3 つのクラスがあります。

アヤメ属セトサ
アイリスバージニカ
アイリスベルシカラー

多クラスロジスティック回帰の同義語。

マルチタスク

機械学習の手法では、単一のモデルを複数のタスクを実行するようにトレーニングされています。

マルチタスクモデルは、さまざまなタスクごとに適切なデータでトレーニングすることで作成されます。これにより、モデルはタスク間で情報を共有することを学習し、モデルの学習をより効果的に行うことができます。

複数のタスク用にトレーニングされたモデルは、一般化能力が向上し、さまざまな種類のデータをより堅牢に処理できます。

N

NaN トラップ

モデル内の 1 つの数値が NaN になる場合モデル内の他の多くの数値またはすべての数値が NaN になります。

NaN は、Not a Number の略です。

自然言語理解

#language

ユーザーの入力内容や発言に基づいてユーザーの意図を判断します。たとえば、検索エンジンは自然言語理解を使用してユーザーの入力内容や発言内容から、ユーザーが検索している内容を判別する。

陰性クラス

#fundamentals

バイナリ分類では、一方のクラスは「陽性」と呼ばれ、もう一方のクラスは「陰性」と呼ばれます。陽性のクラスは、モデルがテスト対象とする物体またはイベントであり、陰性のクラスは他の可能性です。例:

医療検査の負のクラスは「腫瘍ではない」などです。
メール分類システムの負クラスは「スパムではない」かもしれません。

一方、ポジティブクラスは、

ネガティブサンプリング

候補サンプリングと同義。

ニューラルアーキテクチャ検索（NAS）

ニューラルネットワークのアーキテクチャを自動的に設計する手法。NAS アルゴリズムを使用すると、ニューラルネットワークのトレーニングに必要な時間とリソースを削減できます。

NAS では通常、以下のものが使用されます。

検索スペース（可能なアーキテクチャのセット）。
適合性関数。特定のアーキテクチャが特定のタスクでどの程度適切に動作するかを測定するものです。

NAS アルゴリズムは、通常、可能なアーキテクチャの小さなセットから開始し、アルゴリズムが効果的なアーキテクチャについて学習するにつれて、検索スペースを徐々に拡大します。適合性関数は通常、トレーニングセットでのアーキテクチャのパフォーマンスに基づいています。アルゴリズムは通常、強化学習手法を使用してトレーニングされます。

NAS のアルゴリズムは、パフォーマンスの高いアーキテクチャをさまざまなタスク向けに構築しました。分類、テキスト分類、多岐にわたります。

ニューラルネットワークの

#fundamentals

隠れ層を 1 つ以上含むモデル。ディープニューラルネットワークは、ニューラルネットワークの一種である隠れ層を含んでいます。たとえば、次の図は、2 つの隠れ層を含むディープニューラルネットワークを示しています。

入力層、2 つの隠れ層、出力層を持つニューラルネットワーク。

ニューラルネットワーク内の各ニューロンは、次のレイヤ内のすべてのノードに接続します。たとえば、上の図では、3 つのニューロンのそれぞれが最初の隠れ層にある 2 つのニューロンに個別に接続し、レイヤに分割されます。

コンピュータに実装されたニューラルネットワークは、 人工ニューラルネットワークによって、脳や他の神経系で見られるニューラルネットワークです。

一部のニューラルネットワークは、さまざまな特徴とラベル間の非常に複雑な非線形関係を模倣できます。

畳み込みニューラルネットワークもご覧ください。 回帰型ニューラルネットワーク。

ニューロン

#fundamentals

ML における隠れ層内の個別の単位 ニューラルネットワークのものです。各ニューロンは次の処理を実行する 2 段階の対策:

入力値に対応する重みを乗じた重み付き合計を計算します。
加重合計を活性化関数に入力として渡します。

最初の隠れ層のニューロンは特徴値からの入力を受け入れる 入力レイヤ:最初の隠れ層以外の隠れ層のニューロンは、前の隠れ層のニューロンからの入力を受け入れます。たとえば、2 番目の隠れ層のニューロンは、1 番目の隠れ層のニューロンからの入力を受け入れます。

次の図は、2 つのニューロンとその入力を示しています。

入力層、2 つの隠れ層、1 つの隠れ層を持つニューラルネットワーク
出力レイヤです。2 つのニューロンがハイライト表示されています。1 つは最初の隠れ層にあり、もう 1 つは 2 番目の隠れ層にあります。ハイライト表示された
最初の隠れ層のニューロンは両方の特徴からの入力を受け取る
渡されます。2 番目の隠れ層でハイライト表示されたニューロン
最初の隠れ層で 3 つのニューロンのそれぞれから入力を受け取り、
レイヤです。

ニューラルネットワークのニューロンは、脳の中のニューロンの挙動を模倣しています。神経系のその他の部分にも影響します。

N グラム

#seq

#language

N 単語の順序付きシーケンス。たとえば、truly madly は 2 グラムです。順序が重要であるため、madly truly は truly madly とは異なる 2 グラムです。

N	この種の N グラムの名前	例
2	バイグラムまたは 2 グラム	行く、行く、ランチを食べる、ディナーを食べる
3	トリグラムまたは 3 グラム	ate too much, three blind mice, the bell tolls
4	4 グラム	walk in the park, dust in the wind, the boy ate lentils

多くの自然言語理解モデルは、N グラムを使用して、ユーザーが入力または発音する次の単語を予測します。たとえば、ユーザーが「three blind」と入力したとします。3 文字語に基づく NLU モデルは、ユーザーが次に「mice」と入力することを予測する可能性があります。

N グラムは、単語の順序付けされていないセットであるバッグオブワードとは対照的です。

NLU

#language

自然言語理解の略。

ノード（ディシジョンツリー）

#df

ディシジョンツリー内の条件またはリーフ。

2 つの条件と 3 つのリーフを持つディシジョンツリー。

ノード（ニューラルネットワーク）

#fundamentals

隠れ層のニューロン。

ノード（TensorFlow グラフ）

#TensorFlow

TensorFlow グラフ内の演算。

ノイズ

大まかに言うと、データセット内のシグナルを不明瞭にするもの。ノイズさまざまな方法でデータに導入できます例:

人間のレーティング担当者がラベル付けでミスを犯す。
人間と計器が特徴値の記録を誤る、または省略している。

ノンバイナリー状態

#df

2 つ以上の結果が想定される条件。たとえば、次の非バイナリ条件には、次の 3 つの結果が考えられます。

条件（number_of_legs = ?）は、次の 3 つの可能性を
向上します1 つの結果（number_of_legs = 8）がリーフにつながる
表示されます。2 番目の結果（number_of_legs = 4）は、dog という名前のリーフにつながります。3 つ目の結果（number_of_legs = 2）は、penguin という名前のリーフにつながります。

nonlinear

#fundamentals

単独では表現できない 2 つ以上の変数間の関係加算と乗算で計算されます線形の関係は線で表すことができますが、非線形の関係は線で表すことはできません。たとえば、2 つのモデルはそれぞれ 1 つのラベルにマッピングできます左側のモデルは線形で、右側のモデルは非線形です。

2 つのプロット。1 つのプロットは線であるため、これは線形関係です。
もう 1 つのプロットは曲線なので、これは非線形の関係です。

無回答のバイアス

#fairness

選択バイアスをご覧ください。

非定常性

#fundamentals

1 つ以上のディメンション（通常は時間）で値が変化する特徴。たとえば、次のような非定常性について考えてみましょう。

特定の店舗で販売される水着の数は季節によって異なります。
特定の地域での特定の果物の収穫量ほとんどの期間はゼロですが、短期間では大きな値になります。
気候変動により、年間平均気温は変化しています。

一方、定常性とは対照的です。

正規化

#fundamentals

大まかに言うと、変数の実際の範囲を変換するプロセスが値を標準の値範囲に変換できます。

-1～+1
0 to 1
Z スコア（おおよそ -3 ～+3）

たとえば、特定の特徴の実際の値の範囲が 800～2,400 であるとします。特徴量エンジニアリングの一環として、実際の値を標準範囲（-1～+1 など）に正規化できます。

正規化は、特徴量エンジニアリングの一般的なタスクです。通常、特徴ベクトル内のすべての数値特徴の範囲がほぼ同じ場合、モデルのトレーニングはより速く（より正確な予測が生成されます）。

詳細については、ML 集中講座の数値データの操作モジュールをご覧ください。Z スコアの正規化もご覧ください。

特異点検知

新しい（斬新な）事例が同じものから得られたものかどうかを判断するプロセストレーニングセットとして指定します。つまり、特異点検出は、トレーニングセットで新しい サンプル（推論または追加トレーニング）は、 外れ値。

「外れ値検出」も参照してください。

数値データ

#fundamentals

整数または実数として表される特徴。たとえば住宅の評価モデルでは、数値データとして表されます。表現数値データは特徴値の値が変化したときにラベルとの数学的関係。つまり、家の面積は家の価値と数学的な関係があると考えられます。

すべての整数データを数値データとして表す必要はありません。たとえば、一部の国では郵便番号が整数ですが、整数の郵便番号をモデルで数値データとして表す必要はありません。これは、郵便番号 20000 が郵便番号 10000 の 2 倍（または半分）の有効性を持つわけではないためです。さらに、郵便番号が異なると不動産価格も異なるものの、郵便番号 20000 の不動産価格が郵便番号 10000 の不動産価格の 2 倍であるとは限りません。郵便番号は、代わりにカテゴリデータとして表す必要があります。

数値特徴は、連続特徴とも呼ばれます。

NumPy

Python で効率的な配列演算を提供するオープンソースの数学ライブラリ。pandas は NumPy 上に構築されています。

O

目標

アルゴリズムが最適化しようとしている指標。

目的関数

モデルの最適化対象とする数式または指標。たとえば、線形回帰の目的関数は通常、平均二乗損失です。したがって、線形回帰モデルをトレーニングするときは、平均二乗損失を最小限に抑えることを目的とします。

目的関数を最大化することが目標である場合もあります。たとえば、目的関数が精度の場合、目標は精度を最大化することです。

損失もご覧ください。

斜め状態

#df

ディシジョンツリーでは、複数の特徴が関係する条件。たとえば、高さと幅が両方とも特徴量である場合、次の条件は斜め条件です。

  height > width

軸方向の条件とは対照的です。

オフライン

#fundamentals

static と同義。

オフライン推論

#fundamentals

モデルが予測のバッチを生成し、それらの予測をキャッシュに保存するプロセス。アプリは、モデルを再実行するのではなく、キャッシュから推論された予測にアクセスできます。

たとえば、地域の天気予報を生成するモデルについて考えてみましょう。（予測）を 4 時間に 1 回実行します。モデルの実行ごとに、システムはすべてのローカルの天気予報をキャッシュに保存します。天気アプリが天気予報を取得するキャッシュから取り出します。

オフライン推論は静的推論とも呼ばれます。

オンライン推論とは対照的です。

ワンホットエンコード

#fundamentals

カテゴリデータをベクトルとして表現します。

1 つの要素は 1 に設定されます。
その他の要素はすべて 0 に設定されます。

ワンホットエンコーディングは、文字列や識別子を表すために取り得る値の集合が限られています。たとえば、Scandinavia という特定のカテゴリ特徴に 5 つの値があるとします。

「デンマーク」
"スウェーデン"
「Norway」
「フィンランド」
「アイスランド」

ワンホットエンコーディングでは、5 つの値をそれぞれ次のように表すことができます。

country	ベクトル
「デンマーク」	1	0	0	0	0
「Sweden」	0	1	0	0	0
「ノルウェー」	0	0	1	0	0
「フィンランド」	0	0	0	1	0
「アイスランド」	0	0	0	0	1

ワンホットエンコーディングにより、モデルはさまざまなつながりを 5 か国それぞれについて予測しています

特徴を数値データとして表現することは、ワンホットエンコーディングの代替手段です。残念ながら、北欧諸国を数値で表すことは適切ではありません。たとえば、次の数値表現について考えてみましょう。

「デンマーク」は 0
「スウェーデン」は 1
「ノルウェー」は 2
「フィンランド」は 3
「アイスランド」4

数値エンコーディングでは、モデルは元の数値を数学的に解釈し、それらの数値でトレーニングを試みます。しかし、アイスランドの人口の 2 倍（または半分）はありません。そのため、モデルは奇妙な結論を導き出します。

ワンショット学習

オブジェクト分類によく使用される機械学習アプローチ。単一のトレーニング例から効果的な分類器を学習するように設計されています。

少数ショット学習、 ゼロショット学習。

ワンショットプロンプト

#language

#generativeAI

プロンプト - 1 つの例を含む 大規模言語モデルで応答する必要があります。たとえば、次のプロンプトには、クエリにどのように回答するかを大規模言語モデルに示す例が 1 つ含まれています。

1 つのプロンプトの各部分	メモ
`指定された国の公式通貨は何ですか？`	LLM に回答を求める質問。
`フランス: EUR`	1 つの例を挙げましょう。
`インド:`	実際のクエリ。

ワンショットプロンプトと次の用語を比較します。

ゼロショットプロンプト
少数ショットプロンプト

1 対すべて

#fundamentals

N クラスの分類問題の場合、N 個の個別のバイナリ分類器（考えられる結果ごとに 1 つのバイナリ分類器）で構成されるソリューション。たとえば、サンプルを分類するモデルがあるとします。 1 対 1 のソリューションで次の 3 つの独立したバイナリ分類器です。

動物と動物以外
野菜と野菜以外の区別
鉱物と非鉱物

online

#fundamentals

動的と同義。

オンライン推論

#fundamentals

予測をオンデマンドで生成する。たとえばアプリが入力をモデルに渡して、できます。オンライン推論を使用するシステムは、モデルを実行して（予測をアプリに返して）リクエストに応答します。

オフライン推論とは対照的です。

オペレーション（op）

#TensorFlow

TensorFlow では、パイプラインを Tensor を操作、破棄します。対象行列乗算は 2 つのテンソルを 1 つのテンソルを出力として生成します。

Optax

JAX 用の勾配処理と最適化のライブラリ。Optax は、カスタム方法で再結合してディープニューラルネットワークなどのパラメータモデルを最適化できる構成要素を提供することで、研究を容易にします。その他の目標:

読みやすく、十分にテストされた、効率的な実装を実現するには説明します。
低含有成分の組み合わせを可能にすることで生産性を向上カスタムオプティマイザー（またはその他の勾配処理コンポーネント）に読み込みます。
誰でも簡単に貢献できるようにすることで、新しいアイデアの採用を加速します。

オプティマイザー

勾配降下法の具体的な実装アルゴリズムです。一般的な最適化ツールには次のようなものがあります。

AdaGrad: ADAptive GRADient descent の略。
Adam は「ADAptive with Momentum」の略です。

自分が属していないグループに対する均一性のバイアス

#fairness

グループ内のメンバーよりもグループ外のメンバーを似ているとみなす傾向態度、価値観、個性、特性などについて説明します。イングループとは、日常的に交流する相手を指し、アウトグループとは、日常的に交流しない相手を指します。アウトグループに関する属性をユーザーに提供してもらってデータセットを作成する場合は、参加者がイングループのユーザーについて挙げる属性よりも、ニュアンスが乏しく、固定観念に偏った属性になる可能性があります。

たとえば、リリプート派の人は他のリリプート人の家について記述できます。建築様式、窓、設計の微妙な違いについてドア、サイズ。しかし、同じリリプティアンは単純に、ブロブディングナギャンはみんな同じ家に住んでいる。

自分が属していないグループに対する均一性のバイアスは、グループ属性バイアスの一種です。

所属グループのバイアスもご覧ください。

外れ値検出

パフォーマンス指標の外れ値を特定するプロセスは トレーニングセット。

一方、特異点検知は重要です。

考慮する

他のほとんどの値から離れている値。ML では、次のいずれも外れ値です。

値が約 3 標準偏差を超える入力データ平均値を計算します。
絶対値の大きい重み。
予測値が実際の値から比較的離れている。

たとえば、widget-price が特定のモデルの特徴であるとします。平均 widget-price が標準偏差で 7 ユーロであると仮定します 1 ユーロです。12 ユーロまたは 2 ユーロの widget-price を含む例外れ値とみなされます。これは、それぞれの価格が平均から 5 標準偏差を測定します。

外れ値の多くは入力ミスやその他の入力ミスが原因です。一方、外れ値が誤りである場合もあります。平均から 5 標準偏差離れた値はまれですが、不可能ではありません。

多くの場合、外れ値はモデルトレーニングで問題を引き起こします。外れ値を管理する方法の 1 つがクリッピングです。

out-of-bag 評価（OOB 評価）

#df

サービスの品質を評価するメカニズムは、 ディシジョンフォレスト ディシジョンツリー 使用されない例そのディシジョンツリーのトレーニングを行います。たとえば、次の図では、システムが各ディシジョンツリーをサンプルの約 3 分の 2 をモデルに 3 分の 1 で済みます。

3 つのディシジョンツリーで構成されるデシジョンフォレスト。
1 つのディシジョンツリーはサンプルの 3 分の 2 でトレーニングし、残りの 3 分の 1 を OOB 評価に使用します。2 つ目の決定木は、前の決定木とは異なる 3 分の 2 の例でトレーニングし、前の決定木とは異なる 3 分の 1 を OOB 評価に使用します。

袋外評価は計算効率が高く、保守的 交差検証メカニズムの近似値。クロスバリデーションで、クロスバリデーションラウンドごとに 1 つのモデルがトレーニングされます（10 分割クロスバリデーションで 10 個のモデルがトレーニングされます）。OOB 評価では、単一のモデルがトレーニングされます。バギングではトレーニング中に各ツリーから一部のデータが保持されるため、OOB 評価ではそのデータを使用してクロスバリデーションを近似できます。

出力層

#fundamentals

ニューラルネットワークの「最終」レイヤ。出力層には予測が含まれます。

次の図は、入力レイヤ、2 つの隠れ層、出力レイヤを持つ小さなディープラーニングネットワークを示しています。

1 つの入力層、2 つの隠れ層、1 つの隠れ層を持つニューラルネットワーク
出力レイヤです。入力レイヤは 2 つの特徴で構成されています。最初の
隠れ層は 3 つのニューロンと 2 つ目の隠れ層で構成されている
2 つのニューロンで構成されています出力レイヤは単一のノードで構成されます。

過学習

#fundamentals

トレーニングデータと非常によく一致するモデルを作成すると、モデルが新しいデータに対して正しい予測を行えなくなります。

正則化により、過剰適合を軽減できます。大規模で多様なトレーニングセットでトレーニングを行うと、過学習を軽減することもできます。

アイコンをクリックすると、追加のメモが表示されます。

過学習とは、お気に入りの人からのアドバイスに厳密に従うことに似ています。あります。その教師のクラスでは成功する可能性はありますが、その教師のアイデアに「過剰適合」し、他のクラスでは成功しない可能性があります。さまざまな教師からのアドバイスに従うことで、新しい状況に適応しやすくなります。

オーバーサンプリング

少数派のクラスの例を再利用する クラス不均衡なデータセットに置いて、よりバランスの取れたトレーニングセットを作成する。

たとえば、バイナリ分類を考えてみましょう。母集団に対する過半数のクラスと 5,000:1 です。データセットに 100 万個のサンプルが含まれている場合、少数派クラスのサンプルは約 200 個しか含まれません。これは、効果的なトレーニングを行うにはサンプル数が少ない可能性があります。この不備を克服するために 200 のサンプルが複数回オーバーサンプリング（再利用）され、その結果、十分な例が必要です。

次の場合に過学習に注意する必要があります。オーバーサンプリングします

一方、アンダーサンプリングは有効です。

P

パックされたデータ

データをより効率的に保存するためのアプローチ。

パッケージ化されたデータは、圧縮形式かより効率的にアクセスできるようにします。パックされたデータは、データにアクセスするために必要なメモリ量と計算量を最小限に抑え、トレーニングの高速化とモデル推論の効率化につながります。

パックデータは、次のような他の手法でよく使用されます。 データの拡張と 正則化し、モデルの性能を モデル。

pandas

#fundamentals

numpy 上に構築された列指向のデータ分析 API。多くの ML フレームワーク Pandas データ構造を入力としてサポートします。詳しくは、 pandas のドキュメントをご覧ください。

パラメータ

#fundamentals

モデルがトレーニング中に学習する重みとバイアス。たとえば、線形回帰モデルでは、パラメータはバイアス（b）とすべての重み（w₁、w₂ など）で構成されます。式は次のとおりです。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

一方、ハイパーパラメータは、ユーザー（またはハイパーパラメータチューニングサービス）がモデルに提供する値です。たとえば、学習率はハイパーパラメータです。

パラメータ効率チューニング

#language

#generativeAI

大規模な事前トレーニング済み言語モデル（PLM）を完全なファインチューニングよりも効率的にファインチューニングするための一連の手法。パラメータ効率チューニングでは、通常、完全なファインチューニングよりもはるかに少ないパラメータをファインチューニングしますが、通常、完全なファインチューニングから構築された大規模言語モデルと同等（またはほぼ同等）のパフォーマンスを示す大規模言語モデルが生成されます。

パラメータ効率チューニングと以下を比較対照します。

指示チューニング
プロンプト調整

パラメータ効率チューニングは、パラメータエフィシエントファインチューニングとも呼ばれます。

パラメータサーバー（PS）

#TensorFlow

分散環境でモデルのパラメータを追跡するジョブ。

パラメータの更新

トレーニング中にモデルのパラメータを調整するオペレーション。通常は、勾配降下の 1 回の反復処理内で行われます。

偏微分係数

変数の 1 つを除くすべての変数が定数と見なされる微分。たとえば、x に関する f(x, y) の偏微分係数は、 f の導関数を x のみの関数と見なす（つまり、y 定数）。x に関する f の偏微分係数では、次のみに焦点が当てられます。 x がどのように変化するかを調べ、方程式内の他の変数はすべて無視します。

参加バイアス

#fairness

無回答のバイアスと同義。選択バイアスをご覧ください。

パーティショニング戦略

変数を分割するアルゴリズム パラメータサーバー。

Pax

大規模なトレーニングのために設計されたプログラミングフレームワーク非常に大規模なニューラルネットワーク モデル 複数の TPU にまたがっていることを アクセラレータチップ スライス Pod を使用します。

Pax は Flax 上に構築されており、これは JAX 上に構築されています。

ソフトウェアスタックにおける Pax の位置を示す図。Pax は JAX 上に構築されています。Pax 自体は 3 つのレイヤで構成されています。一番下のレイヤには TensorStore と Flax が含まれます。
中間レイヤには Optax と Flaxformer が含まれています。トップ
Praxis Modeling Library を含むFiddle は
導入しました

パーセプトロン

1 つ以上の入力値を受け取り、入力の重み付き合計に対して関数を実行し、単一の出力値を計算するシステム（ハードウェアまたはソフトウェア）。機械学習では、通常、関数は非線形です（ReLU、sigmoid、tanh など）。たとえば、次のパーセプトロンは、シグモイド関数を使用して 3 つの入力値があります。

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

次の図は、ペルセプトロンが 3 つの入力を受け取り、それぞれがペルセプトロンに入力される前に重みによって変更される様子を示しています。

3 つの入力を受け取り、それぞれに個別の重みを掛けるパーセプトロン。Perceptron は単一の値を出力します。

ペルセプトロンは、ニューラルネットワークのニューロンです。

パフォーマンス

次の意味を持つオーバーロードされた用語。

ソフトウェアエンジニアリングにおける標準の意味。つまり、このソフトウェアはどれくらい速く（または効率的に）実行されるかということです。
機械学習における意味。ここで、パフォーマンスは次の質問に答えます。このモデルはどの程度正しいですか？つまりモデルの予測の質はどうでしょうか

並べ替え変数の重要度

#df

特徴量の値を並べ替えた後のモデルの予測誤差の増加を評価する変数重要度の一種。並べ替え変数の重要度は、モデルに依存しない表示されます。

パープレキシティ

モデルがタスクをどの程度適切に遂行しているかを示す尺度です。たとえば、ユーザーがスマートフォンのキーボードで入力している単語の最初の数文字を読み取り、候補となる単語のリストを表示するタスクがあるとします。このタスクのパープレキシティ、P は、必要な推測をリストにまとめます。表示されます。

混乱度は、次のように交差エントロピーに関連しています。

$$P= 2^{-\text{cross entropy}}$$

pipeline

ML アルゴリズムを取り巻くインフラストラクチャ。パイプラインこれには、データの収集、トレーニングデータファイルへの入力、 1 つ以上のモデルのトレーニング、本番環境へのモデルのエクスポートです。

パイプライン化

#language

モデルの処理が連続するステージに分割され、各ステージが異なるデバイスで実行されるモデル並列処理の一種。1 つのステージが 1 つのバッチを処理している間、前のステージは次のバッチで処理できます。

段階的なトレーニングもご覧ください。

pjit

コードを分割して複数のアクセラレータチップで実行する JAX 関数。ユーザーが関数を pjit に渡すと、同等のセマンティクスを持つ関数が返されます。この関数は、複数のデバイス（GPU や TPU コアなど）で実行される XLA コンピューティングにコンパイルされます。

pjit を使用すると、 SPMD パーティション分割ツール。

2023 年 3 月に pjit は jit と統合されました。詳しくは、分散配列と自動並列化をご覧ください。

PLM

#language

#generativeAI

事前トレーニング済み言語モデルの略称。

Pmap

基盤となる複数のハードウェアデバイス（CPU、GPU、TPU）で、異なる入力値を使用して入力関数のコピーを実行する JAX 関数。pmap は SPMD に依存しています。

ポリシー

#rl

強化学習では、エージェントの確率的マッピングが状態からアクションに変換できます。

プーリング

#image

以前に生成された行列を削減する 畳み込み層を小さな行列に変換する。プーリングでは通常、最大値または平均値を取る移動できますたとえば、次の 3x3 行列があるとします。

3 行 3 行列 [[5,3,1], [8,2,5], [9,4,3]]。

プーリング演算は、畳み込み演算と同様に、スライスに変換してから畳み込み演算を ストライド。たとえば、2 つの Cloud Storage バケットを畳み込み行列を 1x1 ストライドの 2x2 スライスに分割します。次の図に示すように、4 つのプーリングオペレーションが行われます。各プーリングオペレーションが、そのスライス内の 4 つの値の最大値を選択するとします。

入力行列は [[5,3,1], [8,2,5], [9,4,3]] の値を持つ 3x3 です。
入力行列の左上の 2x2 サブマトリックスは [[5,3], [8,2]] であるため、左上のプーリングオペレーションでは値 8（5、3、8、2 の最大値）が生成されます。入力の右上の 2x2 サブマトリックス
行列は [[3,1], [2,5]] なので、右上のプーリング演算は
値 5入力行列の左下にある 2x2 サブ行列は、
[[8,2], [9,4]] なので、左下のプーリング演算によって、
9.入力行列の右下の 2x2 サブ行列は、
[[2,5], [4,3]] なので、右下のプーリング演算では、
5.まとめると、プーリング演算により 2x2 の行列が生成されます。
[[8,5], [9,5]]。

プーリングは入力行列の翻訳不変性。

ビジョンアプリケーションのプーリングは、正式には空間プーリングと呼ばれています。時系列アプリケーションでは、通常、プールを時間的プールと呼びます。それほど形式的ではありませんが、プーリングはサブサンプリングまたはダウンサンプリングと呼ばれることがよくあります。

位置エンコード

#language

シーケンス内のトークンの位置に関する情報をトークンのエンベディング。Transformer モデルは、位置エンコードを使用して、シーケンスのさまざまな部分間の関連性をより深く理解します。

位置エンコードの一般的な実装では、正弦関数を使用します。（具体的には、正弦関数の周波数と振幅は、シーケンス内のトークンの位置によって決まります）。この手法は、これにより、Transformer モデルはモデルのさまざまな部分に注意をシーケンスを表現します。

陽性クラス

#fundamentals

テスト対象のクラス。

たとえば、がんモデルにおける陽性のクラスは「tumor」となります。メール分類器における陽性のクラスは「迷惑メール」である可能性があります。

負のクラスとは対照的です。

アイコンをクリックすると、追加のメモが表示されます。

陽性のクラスという用語は混同されがちです。なぜなら、「陽性」は成果望ましくない結果になることがよくあります。たとえば、多くの医療検査における陽性クラスは、腫瘍や疾患に対応しています。通常は「おめでとうございます！テスト結果は陰性でした。」いずれにせよ、陽性のクラスは、テストが見つけようとしているイベントです。

確かに陽性と陰性の両方について同時にテストしていますクラスです。

後処理

#fairness

#fundamentals

モデルの実行後にモデルの出力を調整する。後処理を使用すると、モデル自体を変更せずに公平性制約を適用できます。

たとえば、バイナリ分類子にポスト処理を適用するには、分類しきい値を設定して、一部の属性について機会の平等を維持します。これは、その属性のすべての値で真陽性率が同じであることを確認することで行います。

PR AUC（PR 曲線の下の面積）

適合率 / 再現率曲線の補間下の面積。分類しきい値のさまざまな値の（再現率、適合率）ポイントをプロットすることで得られます。どのように PR AUC はモデルの平均適合率。

Praxis

Pax のコアとなる高性能 ML ライブラリ。プラクシスはしばしばレイヤライブラリと呼ばれます

Praxis には、Layer クラスの定義だけでなく、次のようなサポートコンポーネントのほとんども含まれています。

データ入力
設定ライブラリ（HParam と Fiddle）
オプティマイザー

Praxis は Model クラスの定義を提供しています。

precision

回答となる分類モデルの指標質問です。

モデルが陽性のクラスを予測したとき、予測の何パーセントが正しかったでしょうか

式は次のとおりです。

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

ここで

真陽性とは、モデルが陽性のクラスを正しく予測したことを意味します。
偽陽性とは、モデルが陽性クラスを誤って予測したことを意味します。

たとえば、モデルが 200 件の陽性予測を行ったとします。これら 200 個の陽性予測のうち:

150 件が真陽性でした。
50 は偽陽性でした。

次のような場合があります。

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

精度と再現率とは対照的です。

詳細については、分類: 精度、再現率、適合率、関連指標をご覧ください。

適合率と再現率の曲線

さまざまな分類しきい値で、適合率と再現率の曲線。

予測

#fundamentals

モデルの出力。例:

バイナリ分類モデルの予測は、陽性または除外します。
マルチクラス分類モデルの予測は 1 つのクラスです。
線形回帰モデルの予測は数値です。

#generativeAI

大規模なデータセットでのモデルの初期トレーニング。一部の事前トレーニング済みモデルは不器用な巨人で、通常は追加のトレーニングで洗練させなければなりません。たとえば、ML の専門家は、Wikipedia のすべての英語ページなど、膨大なテキストデータセットで大規模言語モデルを事前トレーニングする場合があります。事前トレーニングの後、結果として得られるモデルは、次のいずれかによってさらに絞り込まれる場合があります。手法：

抽出
ファインチューニング
命令のチューニング
パラメータ効率チューニング
プロンプト調整

事前信念

トレーニングを開始する前に、データについて信じていること。たとえば、L₂ 正則化は、重みは小さく、分散されます。

確率的回帰モデル

各特徴の重みだけでなく、それらの重みの不確実性も使用する回帰モデル。確率的回帰モデルでは、予測とその不確実性が含まれますたとえば、確率的回帰モデルでは、標準偏差が 12 の 325 という予測が得られる場合があります。確率的回帰について詳しくは、こちらのColab tensorflow.org.

確率密度関数

データサンプルの頻度を特定する関数は、表示されます。データセットの値が連続浮動小数点完全一致はめったに発生しません。しかし、確率を積分すると、値 x から値 y までの密度関数から、想定される頻度は次のとおりです。 x～y のデータサンプル。

たとえば、平均が 200 で標準偏差が 30 の正規分布について考えてみましょう。211.4～218.7 の範囲内にあるデータサンプルの予想頻度を特定するには、211.4～218.7 の範囲で正規分布の確率密度関数を積分します。

prompt

#language

#generativeAI

大規模言語モデルへの入力として入力されたテキスト特定の動作をするようモデルに与えますプロンプトは、出力シーケンスの任意の長さ（小説の本文全体など）。プロンプト次の表に示す複数のカテゴリに分類できます。

プロンプトカテゴリ	例	メモ
質問	`ハトはどのくらいの速さで飛ぶことができますか？`
手順	`アービトラージについて面白い詩を書いて。`	大規模言語モデルに何かを行うように求めるプロンプト。
例	`Markdown コードを HTML に変換します。例: Markdown: * リストアイテム HTML: <ul> <li>リストアイテム</li> </ul>`	この例のプロンプトの最初の文は指示です。プロンプトの残りの部分が例です。
ロール	`機械学習のトレーニングで勾配降下法が使用される理由を、物理学の博士号取得者に説明します。`	文章の最初の部分は指示です。フレーズ "物理学の博士号まで"ロールの部分です
モデルが完了する部分入力	`英国の首相は`	部分入力プロンプトは、この例のように突然終了することも、アンダースコアで終了することもできます。

生成 AI モデルは、テキスト、コード、画像、エンベディング、動画など、ほぼすべてのプロンプトに応答できます。

プロンプトベースの学習

#language

#generativeAI

適応を可能にする特定のモデルの機能任意のテキスト入力（プロンプト）に応答する動作。典型的なプロンプトベースの学習パラダイムでは、 大規模言語モデル: プロンプトに生成します。たとえば、ユーザーが次のプロンプトを入力したとします。

ニュートンの運動の第 3 法則を要約してください。

プロンプトベースの学習が可能なモデルが、回答するように特別にトレーニングされていない使用します。むしろ、モデルは物理学に関する多くの事実、一般的な言語ルール、一般的に有用な回答を構成するものについて多くのことを「知っています」。その知識は、（うまくいけば）役に立つあります。人間による追加のフィードバック（「回答が複雑すぎた」、「リアクションとは何ですか？」など、プロンプトベースの学習システムは、回答の有用性を高めることができます。

プロンプト設計

#language

#generativeAI

プロンプトエンジニアリングと同義。

プロンプトエンジニアリング

#language

#generativeAI

望ましいレスポンスを引き出すプロンプトを作成する技術 大規模言語モデルから作成されました。人間がプロンプトを実行する学びました適切に構造化されたプロンプトを作成することは、大規模言語モデルから有用なレスポンスを得るために不可欠な要素です。プロンプトエンジニアリングは、次のようなさまざまな要因があります。

大規模言語モデルの事前トレーニングと、必要に応じてファインチューニングに使用されるデータセット。
モデルがレスポンスの生成に使用する temperature などのデコードパラメータ。

詳しくは、プロンプト設計の概要を参照してください。

プロンプト設計は、プロンプトエンジニアリングと同義です。

プロンプト調整

#language

#generativeAI

パラメータ効率調整メカニズム単語の「接頭辞」を先頭に「」が付加され、実際のプロンプト。

プロンプト調整のバリエーションの 1 つ（プレフィックスチューニングとも呼ばれます）があります。すべてのレイヤで接頭辞を付けます。対照的に、ほとんどのプロンプト調整は、 入力レイヤに接頭辞を追加します。

接頭辞の詳細を確認するには、アイコンをクリックします。

プロンプトのチューニングでは、「接頭辞」（「ソフトプロンプト」とも呼ばれます）は、実際のプロンプトのテキストトークンエンベディングの先頭に追加される、学習済みのタスク固有のベクトルのことです。システムはソフトプロンプトを他のすべてのモデルパラメータを凍結して、特定のタスクでファインチューニングします。

プロキシラベル

#fundamentals

ラベルを近似するために使用されるデータは、データセットでは直接利用できません。

たとえば、従業員のストレスレベルを予測するモデルをトレーニングする必要がある場合を考えてみましょう。データセットには多くの予測特徴が含まれていますが、ストレスレベルというラベルは含まれていません。気軽に「職場での事故」を選んでくださいプロキシラベルとしてストレスレベル。ストレスの多い従業員は、落ち着いた従業員よりも事故に遭遇する可能性が高くなります。本当にそうでしょうか？職場での事故や実際には複数の原因で増減しています

2 番目の例として、「雨が降っていますか？」をブール値ラベルにするとします。データセットに降雨データが含まれていませんでした。条件写真がある場合は、「雨は降っていますか？」の代用ラベルとして「傘を持ってる」これは良いプロキシラベルですか？可能性がありますが、地域によっては、雨よりも日差しを避けるために傘を持っている人が多いかもしれません。

多くの場合、プロキシのラベルは完全ではありません。可能であれば、プロキシラベルではなく実際のラベルを選択してください。ただし、実際のラベルがない場合は、プロキシラベルを非常に慎重に選択し、最もひどくないプロキシラベルの候補を選択してください。

プロキシ（機密性の高い属性）

#fairness

機密性の高い属性の代用として使用される属性。たとえば、収入の代用として個人の郵便番号が使用されることがあります。考慮する必要があります。

純粋関数

出力が入力のみに基づき、副作用がない関数。具体的には、純粋関数は、ファイルの内容や関数外の変数の値など、グローバル状態を使用しないか、変更しません。

純粋な関数を使用すると、スレッドセーフなコードを作成できます。これは、 モデルのコードを複数の アクセラレータチップ。

JAX の関数変換メソッドには、入力関数が純粋な関数であることです

Q

Q 関数

#rl

強化学習では、状態でアクションを実行し、特定のポリシーに従うことで得られる予想されるリターンを予測する関数。

Q 関数は、状態行動価値関数とも呼ばれます。

Q 学習

#rl

強化学習では、ベルマン方程式を適用して、エージェントがマルコフ決定プロセスの最適な Q 関数を学習できるようにするアルゴリズムです。マルコフ決定過程モデルは、環境。

分位数

分位バケット化の各バケット。

分位バケット化

特徴の値をバケットに分布させて、同じ（またはほぼ同じ）数のサンプルが格納されています。たとえば、次の図は 44 個の点を 4 つのバケットに分割し、各バケットに 11 個の点を配置しています。図の各バケットに同じ数の点を含めるため、一部のバケットは異なる幅の X 値にまたがっています。

44 個のデータポイントを 11 個のポイントの 4 つのバケットに分割。
各バケットには同じ数のデータポイントが含まれますが、バケットによっては、他のバケットよりも特徴値の範囲が広い場合があります。

量子化

次のいずれかの方法で使用できるオーバーロードされた用語:

特定の特徴に分位バケット化を実装する。
データを 0 と 1 に変換して、保存、トレーニング、推論を高速化します。ブール値データは、ノイズやエラーに対する耐性が量子化によってモデルの正確性が向上します。量子化技術には、丸め、切り捨て、 binning します。
モデルの特徴量の格納に使用するビット数を削減すると、 パラメータ。たとえば、モデルのパラメータが 32 ビットの浮動小数点数として保存されているとします。量子化では、これらのパラメータを 32 ビットから 4 ビット、8 ビット、または 16 ビットに変換します。量子化により、次のことが行われます。
- コンピューティング、メモリ、ディスク、ネットワークの使用量
- 予測を推測するまでの時間
- 消費電力
ただし、量子化により、モデルの予測結果の正確性が低下することがあります。説明します。

キュー

#TensorFlow

キューデータを実装する TensorFlow Operation 構成します。通常は I/O で使用されます。

R

RAG

#fundamentals

検索拡張生成の略語。

ランダムフォレスト

#df

ディシジョンツリーのアンサンブル。各ディシジョンツリーは、バギングなどの特定のランダムノイズでトレーニングされます。

ランダムフォレストは、ディシジョンフォレストの一種です。

ランダムポリシー

#rl

強化学習では、 ポリシー: action。

ランク（順序）

ML の問題におけるクラスの順序位置で、クラスを降順に並べ替えます。たとえば行動ランキングやシステムは犬の報酬を最高のもの（ステーキ）から低い（しおれたケール）。

階数（テンソル）

#TensorFlow

テンソルのディメンション数。たとえば、スカラーのランクは 0、ベクトルのランクは 1、行列のランクは 2 です。

ランク（序数）と混同しないでください。

評価者

#fundamentals

例にラベルを提供する人間。「アノテーター」はレーター（評価者）の別名です。

recall

次の質問に回答する分類モデルの指標。

グラウンドトゥルースが 陽性クラス（予測の何パーセントが実行されたか）モデルは陽性クラスとして正しく識別したでしょうか

式は次のとおりです。

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

ここで

真陽性とは、モデルが陽性のクラスを正しく予測したことを意味します。
偽陰性とは、モデルが誤った予測を ネガティブクラス。

たとえば、200 件の予測をモデルで行ったとします。グラウンドトゥルースは陽性のクラスでした。これらの 200 件の予測のうち、

180 が真陽性でした。
20 は偽陰性でした。

次のような場合があります。

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

アイコンをクリックすると、クラス不均衡なデータセットに関するメモが表示されます。

再現率は、陽性のクラスがまれな分類モデルの予測力を判断する場合に特に役立ちます。たとえば、特定の疾患の陽性クラスが 100 万人の患者のうち 10 人にしか発生しないクラスの不均衡なデータセットについて考えてみましょう。モデルが 500 万件の予測を行い、次の単語が次のような結果になります

30 の真陽性
20 件の偽陰性
4,999,000 件の真陰性
誤検知 950 件

したがって、このモデルの再現率は次のようになります。

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

一方、このモデルの精度は次のとおりです。

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

この高い精度は印象的ですが、本質的には意味がありません。クラスのバランスが取れていないデータセットでは、精度よりも再現率のほうがはるかに有用な指標です。

詳細については、分類: 精度、再現率、適合率、関連指標をご覧ください。

レコメンデーションシステム

#recsystems

比較的少ない数の望ましい会話セットを各ユーザーについて選択し、大規模なコーパスからのアイテム。たとえば、動画レコメンデーションシステムは、10 万本の動画のコーパスから 2 本の動画をおすすめします。あるユーザーには カサブランカと フィラデルフィア物語を、別のユーザーには ワンダーウーマンと ブラックパンサーを選択します。動画のおすすめシステムは次のような要素に基づいて推奨事項が表示されます。

類似のユーザーが評価または視聴した映画。
ジャンル、ディレクター、俳優、ターゲット層...

正規化線形ユニット（ReLU）

#fundamentals

次の動作を持つ活性化関数。

入力が負またはゼロの場合、出力は 0 になります。
入力が正の場合、出力は入力と等しくなります。

例:

入力が -3 の場合、出力は 0 です。
入力が +3 の場合、出力は 3.0 です。

ReLU のプロットを以下に示します。

2 本の線の直交座標プロット。最初の線は、x 軸に沿って -∞,0 から 0,-0 まで、y 値が常に 0 です。2 行目は 0,0 から始まります。この線の傾きは +1 であるため、0,0 から +infinity,+infinity まで延びています。

ReLU は非常に一般的な活性化関数です。動作はシンプルですが、ReLU を使用すると、ニューラルネットワークは特徴量とラベルの間の非線形な関係を学習できます。

回帰型ニューラルネットワーク

#seq

意図的に複数の実行されるニューラルネットワーク 各実行の一部が次の実行にフィードされます。具体的には隠しレイヤから生成されたレイヤの一部は、再計算が行われます。再帰型ニューラルネットワーク特にシーケンスの評価に有用であるため、隠れ層は以前のニューラルネットワークの実行から学習し、必要があります。

たとえば、次の図は、再帰型ニューラルネットワークを 4 回実行されます。最初の実行で隠れ層で学習された値は、2 回目の実行で同じ隠れ層への入力の一部になります。同様に隠れ層で学習した値は、 2 回目の実行は、同じ隠れ層への入力の一部になり、 3 回目の実行がありますこのようにして、回帰型ニューラルネットワークは、ニューラルネットワークがだけではなく、数列全体の意味を予測するできます。

4 つの入力単語を処理するために 4 回実行される RNN。

回帰モデル

#fundamentals

非公式には数値予測を生成するモデル。（これに対し、分類モデルはクラス予測を生成します）。たとえば、次のすべてが回帰モデルです。

特定の住宅の価値（423,000 ユーロなど）を予測するモデル。
ある樹木の寿命を予測するモデル（23.2 年など）。
特定の都市の雨量を予測するモデル 0.18 インチなど、今後の 6 時間にわたって大幅に改善されます。

一般的な回帰モデルには次の 2 種類があります。

線形回帰: ラベル値を特徴に最も適合する線を見つけます。
ロジスティック回帰。その後、システムが通常、クラスにマップする確率は 0.0 ～ 1.0 できます。

数値予測を出力するすべてのモデルが回帰モデルであるとは限りません。場合によっては、数値予測が実際には単なる分類モデルになる数値のクラス名が含まれます。たとえば、郵便番号を予測するモデルは、回帰モデルではなく分類モデルです。

正則化

#fundamentals

過学習を減らすメカニズム。よく使用される正則化のタイプは次のとおりです。

L₁ 正規化
L₂ 正規化
ドロップアウト正則化
早期停止（これは正式な正規化方法ではありませんが、過剰適合を効果的に制限できます）

正則化は、モデルの複雑さに対するペナルティとしても定義できます。

アイコンをクリックすると、追加のメモが表示されます。

正則化は直感に反するものです。正則化を増やすと、通常はトレーニングの損失が増加します。これは混乱を招きます。トレーニングの損失を最小化することを目標にすべきでしょうか。

実は、そうではありません。目標はトレーニング損失を最小限に抑えることではありません。目標は、実際の例に対して優れた予測を行うことです。驚くべきことに、正則化を増やすとトレーニングの損失が増加します。通常、精度が向上しています。

正則化率

#fundamentals

この数値は、指標の相対的な重要度を指定する 正則化。正則化率を上げると過剰適合は減少しますが、モデルの予測能力が低下する可能性があります。逆に、1 対 1 の会話の正則化率は過学習が増えます

アイコンをクリックすると、計算式が表示されます。

正則化率は通常、ギリシャ文字のラムダとして表されます。次の簡略化された損失方程式は、ラムダの影響:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

[Regularization] は、以下を含む任意の正則化メカニズムです。

L₁ 正則化
L₂ 正則化

強化学習（RL）

#rl

最適なポリシーを学習するアルゴリズムファミリー。環境とやり取りする際のリターンを最大化することを目的としています。たとえば、ほとんどのゲームの最終的な報酬は勝利です。強化学習システムは、最終的に勝利につながった過去のゲームの動きと、最終的に敗北につながった動きのシーケンスを評価することで、複雑なゲームのプレイのエキスパートになることができます。

人間からのフィードバックを用いた強化学習（RLHF）

#generativeAI

#rl

人間の評価者からのフィードバックを使用して、モデルのレスポンスの品質を向上させる。たとえば、RLHF メカニズムを使用して、モデルの品質を評価して ” ” または ” ” という絵文字を付けます。システムはその後のレスポンスを調整生成 AI です。

ReLU

#fundamentals

正規化線形ユニットの略。

リプレイバッファ

#rl

DQN のようなアルゴリズムでは、エージェントが使用するメモリ状態遷移をストレージオペレーションで 視聴体験リプレイ。

レプリカ

トレーニングセットまたはモデルのコピー（通常は別のマシン上）。たとえば、システムは次の戦略を使用してデータ並列処理を実装できます。

既存のモデルのレプリカを複数のマシンに配置します。
トレーニングセットの異なるサブセットを各レプリカに送信します。
パラメータの更新を集計します。

報告バイアス

#fairness

ユーザーがアクション、結果、プロパティについて記述する頻度が、実世界の頻度や、プロパティが個人のクラスの特徴である程度を反映していないという事実。報告バイアスが構成に影響する可能性がある ML システムが学習するためのデータです

たとえば、書籍では「笑った」という単語は「息を吸った」よりも一般的です。書籍コーパスから笑い声と呼吸の相対頻度を推定する ML モデルは、笑い声が呼吸よりも一般的であると判断する可能性があります。

「bank」が

データを有用な特徴にマッピングするプロセス。

再ランキング

#recsystems

レコメンデーションシステムの最後のステージ。スコアが付けられたアイテムは、他の（通常は ML 以外の）アルゴリズムに基づいて再評価される場合があります。再ランキングで項目のリストが評価される スコアリング フェーズで生成されたものであり、次のアクションを実行します。

ユーザーがすでに購入した商品を削除する。
新しいアイテムのスコアを上げる。

検索拡張生成（RAG）

#fundamentals

モデルのトレーニング後に取得した知識ソースに基盤を置くことで、大規模言語モデル（LLM）の出力の品質を向上させる手法。RAG は、トレーニング済みの LLM に信頼できるナレッジベースまたはドキュメントから取得した情報へのアクセス権を付与することで、LLM のレスポンスの精度を向上させます。

検索拡張生成を使用する一般的な動機は次のとおりです。

モデルで生成されるレスポンスの事実に基づく精度を高める。
モデルがトレーニングされていない知識にモデルがアクセスできるようにする。
モデルが使用する知識を変更する。
モデルによるソースの引用を有効にする

たとえば、化学アプリが PaLM API を使用して要約を生成分析できますアプリのバックエンドがクエリを受信すると、バックエンドは次の処理を行います。

ユーザーのクエリに関連するデータを検索（「取得」）します。
関連する化学データをユーザーのクエリに追加（「拡張」）します。
追加されたデータに基づいて要約を作成するよう LLM に指示します。

リターン

#rl

強化学習では、特定のポリシーと特定の状態が与えられると、リターンは、エージェントが状態からエピソードの終了までポリシーに従って受け取ると予想されるすべての報酬の合計です。エージェントは、報酬の獲得に必要な状態遷移に応じて報酬を割り引くことで、期待される報酬の遅延を考慮します。

したがって、割引率が $\gamma$で、かつ $r_0, \ldots, r_{N}$であるとします。エピソードの最後まで報酬を示し、収益の計算内容は次のとおりです。

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

特典

#rl

強化学習では、入力シーケンスの アクション: 状態（環境。

リッジ正則化

L₂ 正則化と同義。リッジ正則化という用語は純粋な統計のコンテキストでより頻繁に使用されますが、L₂ 正則化は ML でより頻繁に使用されます。

RNN

#seq

再帰型ニューラルネットワークの略語。

ROC（受信者操作特性）曲線

#fundamentals

真陽性率とさまざまなタイプの 偽陽性率 バイナリ形式の分類しきい値 あります。

ROC 曲線の形状は、バイナリ分類モデルがポジティブクラスとネガティブクラスを分離する能力を示しています。たとえばバイナリ分類モデルでは、すべてのネガティブなすべての正のクラスからすべてのクラスから取得します。

右側に 8 つの正例、左側に 7 つの負例がある数直線。

上記のモデルの ROC 曲線は次のようになります。

ROC 曲線。X 軸は偽陽性率、Y 軸は真陽性率です。曲線は逆 L 字型です。曲線
（0.0,0.0）から始まり、（0.0,1.0）まで直線的に立ち上がります。次に、曲線
（0.0,1.0）から（1.0,1.0）に移動します。

対照的に、次の図は、生のロジスティック回帰をグラフ化したものです。陰性クラスと陰性クラスを分離できないすべて肯定的なクラス:

正のサンプルと負のサンプルが完全に混在している数直線。

このモデルの ROC 曲線は次のようになります。

ROC 曲線（実際には（0.0,0.0）から（1.0,1.0）までの直線）。

一方、現実の世界では、ほとんどのバイナリ分類モデルがある程度は検出できますが、通常は完璧ではありません。したがって、典型的な ROC 曲線は、

ROC 曲線。X 軸は偽陽性率、Y 軸は真陽性率です。ROC 曲線は、コンパスの向きを西から北に移動する不安定な弧を近似しています。

理論的には、ROC 曲線上で（0.0、1.0）に最も近い点が理想的な分類しきい値になります。しかし現実には理想的な分類しきい値の選択に影響を与えます。たとえばおそらく偽陰性の方が偽陽性よりもはるかに負担が大きいでしょう。

AUC と呼ばれる数値指標は、ROC 曲線を単一の浮動小数点値を返します

ロールプロンプト

#language

#generativeAI

対象グループを識別するプロンプトのオプション部分 生成 AI モデルのレスポンスに対して使用します。ロールプロンプトがない場合、大規模言語モデルは、質問したユーザーにとって有用な回答とそうでない回答の両方を返します。ロールプロンプトを使用すると、大規模言語モデルは、特定のターゲットユーザーにとってより適切で有用な方法で回答できます。たとえば、次のプロンプトのロールプロンプト部分は太字になっています。

経済学博士号取得者向けに、この記事を要約します。
潮汐の仕組みを10 歳の子どもに説明してください。
2008 年の金融危機について説明します。幼い子どもに語りかける。ゴールデンレトリバーです

根

#df

開始ノード（最初のノードは条件）をディシジョンツリーに含めます。慣例として、図ではルートをディシジョンツリーの最上部に配置します。例:

2 つの条件と 3 つのリーフを含むディシジョンツリー。開始条件（x > 2）がルートです。

ルートディレクトリ

#TensorFlow

TensorFlow のサブディレクトリをホストするために指定するディレクトリ複数のモデルのチェックポイントファイルとイベントファイル。

二乗平均平方根誤差（RMSE）

#fundamentals

平均二乗誤差の平方根。

回転不変性

#image

画像分類問題では、画像の向きが変わっても画像を正しく分類できるアルゴリズムの能力。たとえば、テニスラケットが上向き、横向き、下向きの場合でも、アルゴリズムはテニスラケットを識別できます。回転不変性は必ずしも望ましいとは限りません。たとえば、上下逆さまの 9 を 9 として分類すべきではありません。

翻訳不変性と サイズの不変性。

決定係数

個々の特徴または特徴セットがラベルのばらつきにどの程度影響しているかを示す回帰指標。R 2 は 0～1 の値で、次のように解釈できます。

R 2 が 0 の場合、ラベルの変動は特徴セットによるものではないことを意味します。
R 2 乗が 1 なら、ラベルのバリエーションはすべて説明します。
0 から 1 の間の R 2 は、特定の特徴量または特徴量セットからラベルの変化を予測できる程度を示します。たとえば、決定係数が 0.10 であれば、分散の 10% である特徴量セットによるものである場合決定係数が 0.20 であればその 20% は機能セットによるものです。

R 2 乗は、モデルが予測した値と正解間のピアソン相関係数の 2 乗です。

S

サンプリングバイアス

#fairness

選択バイアスをご覧ください。

置換によるサンプリング

#df

同じ名前が使われている一連の候補項目から複数回選択できます。「置換あり」というフレーズ意味選択するたびに、選択されたアイテムがプールに返されます検証します。逆の方法である置換なしのサンプリングでは、候補アイテムを選択できるのは 1 回だけです。

たとえば、次のフルーツセットについて考えてみましょう。

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

システムが fig をランダムに最初のアイテムとして選択したとします。置換によるサンプリングを使用する場合、次のセットから 2 番目のアイテムです。

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

はい。これは以前と同じセットであるため、システムは fig を再度選択する可能性があります。

入れ替えなしのサンプリングを使用する場合、一度選択したサンプルを再度選択することはできません。たとえば、システムが fig をランダムに選択し、最初のサンプルでは、fig を再度選択することはできません。そのため、システムは次の（削減された）セットから 2 番目のサンプルを選択します。

fruit = {kiwi, apple, pear, cherry, lime, mango}

アイコンをクリックすると、追加のメモが表示されます。

置換ありサンプリングの「置換」という単語は、多くの人を混乱させます。英語では、置換は「置換」を意味します。ただし、置換によるサンプリングでは、実際にはフランス語の定義を使用しています交換は「何かを返却する」ことを意味します。

英語の「replacement」はフランス語に翻訳されます。「remplacement」という単語を使用します。

SavedModel

#TensorFlow

TensorFlow モデルの保存と復元に推奨される形式です。SavedModel 言語に依存しない復元可能なシリアル化形式であるため、 TensorFlow を生成、使用、変換するための高レベルのシステムとツール構築できます

保存と復元の章をご覧ください。をご覧ください。

割安便

#TensorFlow

モデルのチェックポイントの保存を担当する TensorFlow オブジェクト。

スカラー

ランク 0 のテンソルとして表せる単一の数値または単一の文字列。たとえば、次のコード行はそれぞれ TensorFlow で 1 つのスカラーを作成します。

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

スケーリング

ラベルの範囲をシフトする任意の数学的変換または手法特徴値などです一部のスケーリングは、正規化などの変換に非常に役立ちます。

ML で役立つスケーリングの一般的な形式は次のとおりです。

線形スケーリングでは、一般的に、減算と除算を使用して、元の値を -1 ～+1 の範囲の数値に置き換えるか、 0 ～ 1 の範囲で設定できます
対数スケーリング: 元の値が対数。
Z スコア正規化は、元の値に、元の値と元の値にその特徴量の平均からの標準偏差です

scikit-learn

人気のあるオープンソースの ML プラットフォーム。scikit-learn.org をご覧ください。

得点

#recsystems

レコメンデーションシステムの一部は、によって生成される各アイテムの値またはランキングが 候補生成フェーズでは、

選択バイアス

#fairness

データで観測されたサンプルと観測されなかったサンプルの間に系統的な差異を生む選択プロセスが原因で、サンプリングされたデータから得られた結論に誤りがある。選択バイアスには、次の形式があります。

カバレッジバイアス: データセットに表される母集団が、機械学習モデルが予測を行う母集団と一致していません。
サンプリングバイアス: データは、ターゲットグループからランダムに収集されません。
非回答バイアス（参加バイアスとも呼ばれる）: オプトアウト率が異なる一部のグループは、できます。

たとえば、予測を行う ML モデルを構築するとします。達成するためですトレーニングデータを収集するには映画館の最前列にいる全員にアンケートを配る表示されます。一見、これはデータセットを収集する合理的な方法のように思えますが、この形式のデータ収集では、次のような選択バイアスが生じる可能性があります。

カバレッジバイアス: モデルの予測が一般化しない可能性があります関心を示していませんでした
サンプリングバイアス: サンプルからランダムに対象人口（映画に登場するすべての人）、サンプリングした最前列の人々にリーチできます最前列に座っている人は、他の列の人に比べて映画に興味を持っている可能性があります。
非回答バイアス: 一般に、強い意見を持つ人は、任意のアンケートに、軽度の回答者よりも頻繁に回答する割合意見を求めます。映画に関するアンケートは任意であるため、回答は正規分布（ベル曲線）よりも二峰分布になる傾向があります。

セルフアテンション（セルフアテンションレイヤ）

#language

一連のニューラルネットワークをエンベディング（token エンベディングなど）別のエンベディングシーケンスに変換できます。出力シーケンスの各エンベディングは、入力シーケンスの要素からの情報を統合して構築 アテンション機構によって実現されます。

セルフアテンションの自己部分は、他のコンテキストに与えません。自己注意は Transformer の主要な構成要素の一つであり、「クエリ」、「キー」、「値」などの辞書ルックアップ用語を使用します。

自己注意レイヤは、入力表現のシーケンスから始まります。表示されます。単語の入力表現は単純なもので、説明します。入力シーケンス内の各単語について、ネットワークは単語のシーケンス全体のすべての要素に対する単語の関連性をスコアリングします。関連性スコアによって、その単語の最終的な表現がどの程度他の単語の表現が組み込まれています。

たとえば、次の文について考えてみましょう。

動物は疲れていたため、道路を渡らなかった。

次の図（ Transformer: 言語のための新しいニューラルネットワークアーキテクチャ理解）代名詞 it に対する自己注意レイヤのアテンションパターンを示します。各単語がパフォーマンスに及ぼす影響の度合いを表現:

次の文は 2 回表示されます。「動物は横から渡りませんでした。
疲れすぎたから。代名詞を線で結ぶ
5 つのトークン（The、動物、street、it、
となります。代名詞を結ぶ線は、
動物という言葉が一番強いです

セルフアテンションレイヤは、「it」に関連する単語をハイライト表示します。このアテンションレイヤは、 animal に最大の重みを割り当てます。

n 個のトークンのシーケンスに対して、セルフアテンションはシーケンスを変換します。 n 回（シーケンス内の各位置で 1 回ずつ）のエンベディングを作成します。

アテンションとマルチヘッドセルフアテンションも参照してください。

自己教師あり学習

エンティティを変換するための一連の手法は、 教師なし ML の問題 教師あり ML 問題にサロゲート ラベルを作成して、 ラベルなしのサンプル。

BERT などの一部の Transformer ベースのモデルは、自己教師あり学習を使用します。

自己教師ありトレーニングは、 半教師あり学習のアプローチです。

自己トレーニング

セルフトレーニング学習のバリエーションで、次のすべての条件が満たされている場合に特に便利です。

ラベルなしのサンプルとデータセット内のラベル付きサンプルが多い。
これは分類問題です。

自己トレーニングは、モデルが完成するまで次の 2 つのステップを反復して行います。改善しなくなる:

教師あり ML を使用して以下を行います。ラベル付きサンプルでモデルをトレーニングします
ステップ 1 で作成したモデルを使用して、予測（ラベル）をラベルなしのサンプルを移行し、信頼度の高いサンプルをラベルが付けられた例を予測ラベルで返します。

ステップ 2 の反復処理ごとに、ステップ 1 でトレーニングするラベル付きの例が追加されます。

半教師あり学習

一部のトレーニング例にラベルが付いていて、他の例にラベルが付いていないデータでモデルをトレーニングする。半教師あり学習の 1 つの手法は、ラベルのないサンプルのラベルを推定し、推定されたラベルでトレーニングして新しいモデルを作成することです。半教師あり学習はラベルの取得に費用がかかる場合に便利です。ラベルなしのサンプルはたくさんあります。

自己トレーニングは、半教師あり学習の学びます。

センシティブ属性

#fairness

法律、法律、規制、さまざまな理由が考えられます。

感情分析

#language

統計的アルゴリズムまたは機械学習アルゴリズムを使用して、サービス、プロダクト、サービスに対する全体的な態度（肯定的か否定的か）できます。たとえば、 自然言語理解、アルゴリズムでテキストフィードバックの感情分析を実行できる大学の講義から得た知識に基づいて、評価します。

シーケンスモデル

#seq

入力に順序依存関係があるモデル。たとえば以前に視聴した一連の動画のうち、次に視聴した動画。

シーケンスツーシーケンスタスク

#language

トークンの入力シーケンスを出力に変換するタスクトークンのシーケンスです。たとえば、シーケンスからシーケンスへの変換には、次のとおりです。

翻訳者:
- 入力シーケンスの例: 「愛してる」
- 出力シーケンスの例: 「Je t'aime.」
質問応答:
- サンプル入力シーケンス: 「ニューヨーク市で車は必要ですか？」
- 出力シーケンス例: 「いいえ。車は自宅に置いてください。」

サービングです

トレーニング済みモデルを使用して予測を提供できるようにするプロセス オンライン推論 オフライン推論。

形状（テンソル）

各ディメンションに含まれる要素の数。テンソルです。シェイプは整数のリストとして表されます。たとえば、次の 2 次元テンソルの形状は [3,4] です。

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow では行優先（C スタイル）形式を使用してディメンションの順序を表します。そのため、TensorFlow のシェイプは [4,3] ではなく [3,4] です。つまり、2 次元の TensorFlow テンソルでは、形状は [行数、列数] です。

静的シェイプは、コンパイル時に既知であるテンソル形状です。

動的シェイプはコンパイル時に不明であるため、ランタイムデータに依存します。このテンソルは TensorFlow のプレースホルダディメンション（[3, ?] など）。

シャード

#TensorFlow

#GoogleCloud

トレーニングセットまたは model。通常、一部のプロセスでは、分割によってシャードを例またはパラメータ（通常）チャンクに分割されます。各シャードは異なるマシンに割り当てられます。

モデルのシャーディングはモデル並列処理と呼ばれます。データのシャーディングはデータ並列処理と呼ばれます。

縮み

#df

ハイパーパラメータ: 勾配ブースティング 過学習。勾配ブースティングの縮小これは Google の学習率に相当します。 勾配降下法。収縮は 0.0～1.0 の小数値です。収縮値が小さいほど、収縮値が大きい場合よりも過剰適合が軽減されます。

シグモイド関数

#fundamentals

「押しつぶす」数学関数入力値を制約された範囲に入れる通常は 0 ～ 1 または -1 ～+1 です。つまり、任意の数（2、100 万、シグモイドに変換されても、出力は範囲が制限されています。シグモイド活性化関数のグラフは次のようになります。

シグモイド関数は、ML で次のようないくつかの用途があります。

元の画像の未加工の出力を ロジスティック回帰 多項回帰モデルを使用して、です。
一部のニューラルネットワークでは活性化関数として機能します。

アイコンをクリックすると、計算式が表示されます。

入力数 x に対するシグモイド関数の式は次のとおりです。

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

ML では、x は通常、重み付き和です。

類似性測定

#clustering

クラスタリングアルゴリズムでは、指標の判断に使用される 2 つの例の類似度（類似度）を確認します。

単一プログラム / 複数データ（SPMD）

同じ計算を異なるデバイス上の異なる入力データで並列に実行する並列化手法。SPMD の目標は、結果をより迅速に得ることです。これは、最も一般的な並列プログラミングのスタイルです。

サイズの不変性

#image

画像分類問題では、画像のサイズが変化しても画像を正しく分類できるアルゴリズムの能力。たとえば、200 万ピクセルでも 20 万ピクセルでも、アルゴリズムは猫を識別できます。なお、画像分類アルゴリズムにも、サイズの不変性に現実的な制限があります。たとえば、アルゴリズム（または人間）が 20 ピクセルの猫の画像を正しく分類することはほとんどありません。

移動不変性と回転不変性もご覧ください。

スケッチ

#clustering

教師なし ML では、予備的な類似度分析を行うアルゴリズムのカテゴリ例で説明します。スケッチアルゴリズムでは、 <ph type="x-smartling-placeholder"></ph> 局所性のあるハッシュ関数特徴が似ている点を特定し、その点をバケットに分割できます。

スケッチにより、類似度の計算に必要な計算量を減らす学習しますデータセット内のすべてのサンプルペアの類似性を計算するのではなく、各バケット内の各ポイントペアの類似性のみ計算します。

skip-gram

#language

元の単語から単語を省略（または「スキップ」）できる n-gram つまり、N 個の単語は元々隣接していない可能性があります。より正確には、「k スキップ n グラム」は、最大 k 個の単語がスキップされている n グラムです。

たとえば、「the quick brown fox」には次の 2 グラムが考えられます。

「すばやく」
「早い茶色」
"茶色のフォックス"

「1 スキップ 2 グラム」単語と単語の間の最大 1 つの単語からなる単語のペアです。したがって、「the short brown fox」は次の 1 スキップ 2 グラムがあります:

"the brown"
"quick fox"

また、2 つの単語がスキップされる可能性があるため、すべての 2 グラムは 1 スキップ 2 グラムでもあります。

スキップグラムは、単語の周囲のコンテキストをより深く理解するのに役立ちます。この例では、「fox」は 1 スキップ 2 グラムのセットで「quick」に直接関連付けられていますが、2 グラムのセットで直接関連付けられていません。

スキップグラムは、単語エンベディングモデルのトレーニングに役立ちます。

Softmax

#fundamentals

特定のクラスの確率を マルチクラス分類モデル。各単語の確率は正確に 1.0 に変更します。たとえば、次の表は、ソフトマックスがさまざまな確率をどのように分散させるかを示しています。

画像は...	確率
犬	0.85
猫	0.13
馬	0.02

ソフトマックスは、フルソフトマックスとも呼ばれます。

一方、候補サンプリングでは、

アイコンをクリックすると、計算結果が表示されます。

ソフトマックスの式は次のとおりです。

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

ここで、

$\sigma_i$ は出力ベクトルです。出力ベクトルの各要素この要素の確率を指定します。すべての要素の合計出力ベクトルの 1.0 です。出力ベクトルには、入力ベクトル $z$ と同じ数の要素が含まれます。
$z$ は入力ベクトルです。入力ベクトルの各要素には浮動小数点値が含まれています。
$K$ は入力ベクトル（および出力ベクトルのベクトル）が含まれます。

たとえば、入力ベクトルが次のようになっているとします。

[1.2, 2.5, 1.8]

したがって、softmax は分母を次のように計算します。

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

したがって、各要素のソフトマックス確率は次のようになります。

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

したがって、出力ベクトルは次のようになります。

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ の 3 つの要素の合計は 1.0 です。さて、

ソフトプロンプトのチューニング

#language

#generativeAI

大規模言語モデルのチューニング手法リソースを大量に消費することなく、特定のタスクに ファインチューニング。すべての特徴量を再トレーニングする代わりにモデル内の重み、ソフトプロンプト調整同じ目標を達成するためにプロンプトを自動的に調整する。

与えられたテキストプロンプトで、ソフトプロンプト調整通常はプロンプトに追加のトークンエンベディングを付加し、入力を最適化します。

「ハード」なプロンプトには、トークンエンベディングではなく実際のトークンが含まれます。

スパースな特徴

#language

#fundamentals

値の大部分がゼロまたは空の特徴量。たとえば、1 つの値が 1 で、100 万個の値が 0 である特徴はスパースです。一方、密な特徴には、大部分はゼロや空ではありません

機械学習では、驚くほど多くの特徴量がスパースな特徴量です。カテゴリ特徴は通常、スパースな特徴です。たとえば、森林に生息する 300 種類の樹木のうち、1 つのサンプルでカエデのみを特定できる場合があります。何百万もの動画ライブラリに含まれる可能性のある動画の数によって、1 つの例で “カサブランカ”と言います

モデルでは、通常、スパース特徴をワンホットエンコーディングで表します。ワンホットエンコーディングが大きい場合、 エンベディングレイヤをそのレイヤの上に配置できます。ワンホットエンコーディングを使用します。

スパース表現

#language

#fundamentals

スパースな特徴にゼロ以外の要素の位置のみを保存する。

たとえば、species という名前のカテゴリ特徴が、特定の森林内の 36 種類の樹木を識別するとします。さらに、各例が 1 つの種のみを識別すると仮定します。

1 ホットベクトルを使用して、各例の樹木の種類を表すことができます。ワンホットベクトルには、単一の 1 が含まれます（と 35 個の 0（ 35 種類の樹木。この例では該当なし）。したがって、maple の 1 ホット表現は次のようになります。

位置 0 から 23 が値 0 を保持するベクトルは、
24 は値 1 を保持し、位置 25 から 35 は値 0 を保持します。

あるいは、スパース表現では単純に画像の位置を特定するだけで判断できますmaple が 24 番目の位置にある場合、maple のスパース表現は次のようになります。

スパース表現は、1 ホット表現よりもはるかにコンパクトです。

少し複雑な例を見るには、アイコンをクリックします。

モデル内の各例で、英語の文の単語（単語の順序は含まない）を表す必要があるとします。英語は約 17 万語で構成されているため、英語は約 17 万個の要素を持つカテゴリ型特徴量です。ほとんどの英語の文では、17 万語のうちごく一部の単語しか使用されないため、1 つの例の単語セットは、ほぼ確実にスパースデータになります。

次の文について考えてみましょう。

My dog is a great dog

この文の単語を表すには、ワンホットベクトルのバリエーションを使用できます。このバリアントでは、ベクトルの複数のセルに指定することもできます。さらに、このバリアントでは、セルに整数値を含めることができます。あります。「my」、「is」、「a」、「great」という言葉は表示のみ単語「犬」は、表示されます。このバリアントを使用すると、この文内の単語を表すワンホットベクトルを作成すると、 170,000 要素ベクトル:

同じ文のスパース表現は次のようになります。

不明な場合はアイコンをクリックします。

スパース表現自体はスパースベクトルではないため、「スパース表現」という用語は多くの人を混乱させます。むしろ、スパース表現は実際にはスパースベクトルの高密度表現です。同義語の「インデックス表現」は、「スパース表現」よりも少し明確です。

スパースベクトル

#fundamentals

値のほとんどがゼロのベクトル。スパース特徴量とスパース性もご覧ください。

スパース性

ベクトルまたは行列の除算でゼロ（または null）に設定された要素の数そのベクトルまたは行列のエントリの総数で割ることです。たとえば 98 個のセルにゼロが含まれる 100 要素からなる行列について考えてみましょう。スパース性の計算は次のとおりです。

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

特徴量のスパース性とは、特徴ベクトルのスパース性のことです。 モデルのスパース性とは、モデルの重みのスパース性を指します。

空間プーリング

#image

プーリングをご覧ください。

分割

#df

分岐図では、条件の別名。

分割バー

#df

デシジョンツリーのトレーニング中に、各ノードで最適な条件を見つけるルーティン（およびアルゴリズム）。

SPMD

単一プログラム / 複数のデータの略語。

ヒンジ損失の 2 乗

ヒンジ損失の 2 乗。二乗ヒンジ損失は、通常のヒンジ損失よりも外れ値を厳しくペナルティにします。

二乗損失

#fundamentals

L₂ 損失と同義。

段階的なトレーニング

#language

一連の個別のステージでモデルをトレーニングする手法。目標はトレーニングプロセスをスピードアップするか、モデルの品質を向上させるかのいずれかです。

以下に、段階的なスタッキングアプローチの図を示します。

ステージ 1 には 3 つの隠れ層、ステージ 2 には 6 つの隠れ層、ステージ 3 には 12 個の隠れ層があります。
ステージ 2 は、ステージ 1 の 3 つの隠れ層で学習された重みを使用してトレーニングを開始します。ステージ 3 では、ステージ 2 の 6 つの隠れ層で学習された重みを使用してトレーニングを開始します。

ステージ 1、ステージ 2、ステージ 3 の 3 つのステージ。
各ステージには異なる数のレイヤが含まれています。ステージ 1 には 3 つのレイヤ、ステージ 2 には 6 つのレイヤ、ステージ 3 には 12 個のレイヤが含まれています。ステージ 1 の 3 つのレイヤがステージ 2 の最初の 3 つのレイヤになります。同様に、ステージ 2 の 6 つのレイヤが、最初の 6 つのレイヤになります。
ステージ 3.

パイプライン処理もご覧ください。

state

#fundamentals

勾配降下法アルゴリズムでは、 バッチサイズは 1 です。つまり、Stochastic Gradient Descent は、トレーニングセットから均一にランダムに選択された単一のサンプルでトレーニングします。

ストライド

#image

畳み込み演算またはプーリングでは、入力シーケンスの入力スライスが作成されます。たとえば、次のアニメーションは、畳み込み演算中のストライド（1,1）を示しています。したがって、次の入力スライスは、前の入力の 1 位置右から開始スライス。操作が右端に達すると、次のスライスがすべて 1 つ下の位置になります

入力 5x5 マトリックスと 3x3 畳み込みフィルタ。これは、
ストライドが (1,1) の場合、畳み込みフィルタが 9 回適用されます。最初の畳み込みスライスは、入力行列の左上の 3x3 サブ行列を評価します。2 番目のスライスは、上部中央の 3x3 サブマトリックスを評価します。3 つ目の畳み込みスライスは、右上の 3x3 サブマトリックスを評価します。4 番目のスライスでは、中央左の 3x3 サブ行列を評価します。
5 番目のスライスは、中央の 3x3 サブマトリックスを評価します。6 番目のスライスは、右中央の 3x3 サブマトリックスを評価します。7 番目のスライスは、左下の 3x3 サブマトリックスを評価します。8 番目のスライスでは、
サブマトリクスを 3×3 行列に分割します。9 番目のスライスは、右下の 3x3 サブマトリックスを評価します。

上記の例は、2 次元のストライドを示しています。入力が行列が 3 次元の場合、ストライドも 3 次元になります。

構造的リスクの最小化（SRM）

2 つの目標のバランスを取るアルゴリズム:

最も予測力の高いモデル（損失が最も低いモデルなど）を構築する必要がある。
モデルをできるだけシンプルに保つ必要がある（強力な正規化など）。

たとえば、トレーニングセットで損失と正則化を最小化する関数は、構造リスク最小化アルゴリズムです。

経験損失最小化とは対照的です。

サブサンプリング

#image

プーリングをご覧ください。

サブワードトークン

#language

言語モデルでは、単語の部分文字列（単語全体の場合もあります）であるトークン。

たとえば「itemize」などの単語は「アイテム」という断片に分割されることもあります。（根語）と「ize」を（サフィックス）。各 ID は、それぞれ固有の名前で表され、あります。一般的でない単語をサブワードと呼ばれる部分に分割することで、単語のより一般的な構成部分で動作させることができます。使用できます

逆に「行く」などの一般的な言葉は分割されていない可能性があり、単一のトークンで表されます。

概要

#TensorFlow

TensorFlow では、特定のステップで計算された値または値のセット。通常、トレーニング中のモデル指標の追跡に使用されます。

教師あり ML

#fundamentals

特徴とその特徴からモデルをトレーニングする対応するラベル。教師あり機械学習は、一連の質問とそれに対応する回答を学習して、ある分野を学習することに似ています。質問と回答のマッピングを習得した生徒は、同じトピックに関する新しい（これまでにない）質問に回答できるようになります。

比較対象 教師なし ML。

合成特徴

#fundamentals

入力特徴には存在しないが、1 つ以上の入力特徴から組み立てられた特徴。合成特徴の作成方法次の内容が含まれます。

連続特徴を範囲ビンにバケット化します。
特徴クロスを作成する。
1 つの特徴値を他の特徴値で乗算（または除算）することもできます。たとえば、a と b が入力特徴の場合、合成特徴の例を次に示します。
- ab
- a²
超越関数を特徴値に適用する。たとえば、c が入力特徴の場合、合成特徴の例を次に示します。
- sin(c)
- ln(c)

正規化またはスケーリングのみによって作成された特徴量は、合成特徴量と見なされません。

T

T5

#language

2020 年に Google AI によって導入されたテキストツーテキストの転移学習モデル。T5 は、エンコーダ - デコーダ モデルで、非常に大規模な環境でトレーニングされた Transformer アーキテクチャ説明します。テキストの生成、言語の翻訳、会話形式での質問への回答など、さまざまな自然言語処理タスクに効果的です。

T5 の名前は、「Text-to-Text Transfer Transformer」にある 5 つの T に由来します。

T5X

#language

設計されたオープンソースの機械学習フレームワーク。大規模な自然言語処理を構築してトレーニング モデルです。T5 は、T5X コードベース（JAX と Flax で構築）で実装されています。

表形式の Q 学習

#rl

強化学習では、テーブルを使用して状態とアクションの組み合わせごとにQ 関数を保存することで、Q 学習を実装します。

ターゲット

ラベルと同義。

ターゲットネットワーク

#rl

Deep Q-learning では、メインのニューラルネットワークの安定した近似であるニューラルネットワーク。メインのニューラルネットワークは、Q 関数またはポリシーを実装します。次に、ターゲットネットワークによって予測された Q 値でメインネットワークをトレーニングできます。したがって、メインネットワークが自身で予測した Q 値でトレーニングするときに発生するフィードバックループを防ぐことができます。このフィードバックを回避することで、トレーニングの安定性が向上します。

タスク

次のような、機械学習の手法で解決できる問題。

分類
回帰
クラスタリング
異常検出

温度

#language

#image

#generativeAI

ランダム性の度合いを制御するハイパーパラメータ必要があります。温度が高いほど、出力のランダム性が高まり、温度が低いほど、出力のランダム性が低くなります。

最適な温度の選択は、特定のアプリケーションとモデルの出力の優先プロパティによって異なります。たとえば、クリエイティブな出力を生成するアプリを作成する場合は、温度を上げます。逆に、画像やテキストを分類するモデルを作成する場合は、モデルの精度と一貫性を高めるために温度を下げる必要があります。

#TensorFlow

Tensor に含まれるスカラーの総数。たとえば、 [5, 10] Tensor のサイズは 50 です。

TensorStore

効率的に読み取り、実行するためのライブラリ記述することに集中します

終了条件

#rl

強化学習では、トレーニングに エピソードがいつ終了するかを判断する（エージェントが到達した時間など）しきい値を超えるしきい値を超えた場合に通知を受け取ることができますたとえば、三目並べ（または（ノートとクロス）を使用すると、プレーヤーがマークをつけるか、連続する 3 つのスペース、またはすべてのスペースがマークされている場合です。

test

#df

ディシジョンツリーでは、 condition。

テスト損失

#fundamentals

テストセットに対するモデルの損失を表す指標。モデルの構築時は、通常はテストの損失を最小化しようとします。これは、低いテスト損失は、低いトレーニング損失や低い検証損失よりも強い品質シグナルであるためです。

テスト損失とトレーニング損失または検証損失の差が大きい場合、正則化率を増やす必要があることを示唆していることがあります。

テストセット

テスト用に予約されたdatasetのサブセットトレーニング済みモデル。

従来、データセット内の例は次の 3 つの異なるサブセットに分割されます。

トレーニングセット
検証セット
テストセット

データセット内の各例は、上記のサブセットの 1 つにのみ属している必要があります。たとえば、1 つのサンプルがトレーニングセットとテストセットの両方に属している場合、

トレーニングセットと検証セットはどちらもモデルのトレーニングに密接に関連しています。テストセットはトレーニングに間接的に関連付けられるだけなので、 テスト損失は、 トレーニングの損失または検証の損失。

テキスト範囲

#language

テキスト文字列の特定のサブセクションに関連付けられた配列インデックススパン。たとえば、Python 文字列 s="Be good now" の単語 good は、テキスト範囲 3～6 を占有します。

tf.Example

#TensorFlow

標準 <ph type="x-smartling-placeholder"></ph> プロトコルバッファ ML モデルのトレーニングや推論のための入力データを記述します。

tf.keras

#TensorFlow

TensorFlow に統合された Keras の実装。

しきい値（ディシジョンツリーの場合）

#df

軸に沿った条件では、特徴量が比較される値。たとえば、次の条件では 75 がしきい値です。

grade >= 75

時系列分析

#clustering

ML および統計のサブフィールドで 時間データ。多くの種類の ML 問題では、分類、クラスタリング、予測、異常検出などの時系列分析が必要です。たとえば、月ごとの冬用コートの将来の売上を予測する時系列分析基づいています。

タイムステップ

#seq

リカレントニューラルネットワーク内の 1 つの「展開済み」セル。たとえば、次の図では 3 つのタイムステップ（ラベルが下付き文字 t-1、t、t+1）:

回帰型ニューラルネットワークの 3 つのタイムステップ。最初のタイムステップの出力が 2 番目のタイムステップの入力になります。出力
第 2 タイムステップの入力が第 3 タイムステップの入力になります。

token

#language

言語モデルにおいて、モデルを構成する原子単位。基づいて予測を行いますトークンは通常、次のとおりです。

単語 - たとえば、「犬は猫が好き」というフレーズは、「犬」、「は」、「猫」の 3 つの単語トークンで構成されています。
文字（「bike fish」など）9 つの Pod で使用できます。（空白はトークンの 1 つとしてカウントされます）。
サブワードを使用します。このサブワードでは、1 つの単語が 1 つのトークンまたは複数のトークンになります。サブワードは、ルートワード、接頭辞、接尾辞で構成されます。たとえば、サブワードをトークンとして使用する言語モデルでは、「dogs」という単語を 2 つのトークン（ルート単語「dog」と複数形接尾辞「s」）と見なします。同じ言語モデルは、単一の単語「taller」を 2 つのサブワード（ルート単語「tall」と接尾辞「er」）と見なす場合があります。

#fundamentals

理想的なパラメータ（重みとバイアスなど）をモデル化します。トレーニング中、システムは例を使用して、パラメータを段階的に調整します。トレーニングでは数千回から数十億回にのぼります

トレーニングの損失

#fundamentals

特定のトレーニングイテレーション中のモデルの損失を表す指標。たとえば、損失関数が平均二乗誤差であるとします。おそらく、トレーニングの損失（平均二乗誤差）は 2.2 で、トレーニングの損失は 100 回目の反復処理は 1.9 です。

損失曲線は、トレーニングの損失とエラーの数を必要があります。損失曲線は、トレーニングに関する次のヒントを提供します。

下り坂は、モデルが改善されていることを示します。
上向きの傾斜は、モデルの性能が低下していることを意味します。
傾斜が緩い場合、モデルは収束に達しています。

たとえば、次のやや理想化された損失曲線は、次のことを示しています。

初期の反復処理で急な下降傾向があったため、モデルを迅速に改善できます
終盤に近づくまで徐々に平坦になっていく（引き続き下向き）傾斜モデルの改善を続けていくことになりますが、初期の反復処理よりも遅いペースです。
トレーニングの終わりに向かって勾配が緩やかになり、収束を示しています。

トレーニングの損失と反復のプロット。この損失曲線は
示しています傾斜はゼロになるまで徐々に平坦になります。

トレーニングの損失は重要ですが、 一般化。

トレーニングサービングスキュー

#fundamentals

トレーニング期間中のモデルのパフォーマンスの トレーニングと、同じモデルのパフォーマンスを配信。

トレーニングセット

#fundamentals

モデルのトレーニングに使用されるデータセットのサブセット。

従来、データセット内の例は次の 3 つの異なるサブセットに分割されています。

トレーニングセット
検証セット
テストセット

理想的には、データセット内の各例は、上記のサブセットの 1 つにのみ属している必要があります。たとえば、1 つの例が 2 つのドメインに属する検証セットの両方が含まれます。

軌道

#rl

強化学習では、次の一連のデータを表すタプル エージェントの一連の状態遷移ここで、各タプルは状態、アクション、報酬、特定の状態遷移に対する次の状態。

転移学習

ある ML タスクから別の ML タスクに情報を転送する。たとえばマルチタスク学習では、1 つのモデルで複数のタスクを解き、異なる出力ノードを持つディープモデルなど、さまざまな出力できます。転移学習には知識の習得を伴う場合があるより複雑なタスクの解決策に変えるか、データが多いタスクからデータが少ないことを示します

ほとんどの ML システムは単一のタスクを解決します。転移学習は 1 つのプログラムで解決できる AI への大きな一歩 複数のタスクを実行できます。

Transformer

#language

Google が開発したニューラルネットワーク アーキテクチャは、 セルフアテンションのメカニズムによって、入力エンべディングのシーケンスを、出力シーケンスの 畳み込みや、ML アルゴリズムに依存しない 再帰型ニューラルネットワーク。Transformer は、自己注意レイヤのスタックと見なすことができます。

Transformer には次のいずれかを含めることができます。

エンコーダ
デコーダ
エンコーダとデコーダの両方の

エンコーダは、エンベディングのシーケンスを同じ長さの新しいシーケンスに変換します。エンコーダには N 個の同一レイヤが含まれ、それぞれに 2 つのサブレイヤが含まれています。これら 2 つのサブレイヤは、入力レイヤの各位置に適用されます。エンベディングシーケンスを作成し、シーケンスの各要素を新しい説明します。1 つ目のエンコーダサブレイヤは、エンコーダから出力された生成します。2 番目のエンコーダサブレイヤは、集約された情報を出力エンベディングに変換します。

デコーダは、入力エンベディングのシーケンスを出力エンベディングのシーケンスに変換します。長さが異なる場合があります。デコーダには、3 つのサブレイヤを持つ N 個の同一レイヤも含まれます。このうち 2 つはエンコーダのサブレイヤに似ています。3 つ目のデコーダサブレイヤは、エンコーダの出力を受け取り、セルフアテンション メカニズムを適用してエンコーダから情報を収集します。

ブログ投稿 Transformer: A New Neural Network Architecture for Language 理解 Transformers の概要を示しています。

翻訳不変性

#image

画像分類問題では、画像内のオブジェクトの位置が変化しても画像を正しく分類できるアルゴリズムの能力。たとえば、犬がフレームの中央にいても、フレームの左端にいても、アルゴリズムは犬を識別できます。

サイズ不変性と回転不変性もご覧ください。

トライグラム

#seq

#fundamentals

モデルがトレーニングデータの複雑さを完全に把握していないため、予測能力が低いモデルを生成します。多くの問題学習不足を引き起こす可能性があります。

間違った特徴のセットでトレーニングする。
エポック数が少すぎたり、学習率が低すぎたりする。
正則化率が高すぎるトレーニング。
ディープニューラルネットワークで隠れ層が少なすぎる。

アンダーサンプリング

例を同じクラスの過半数のクラス クラス不均衡なデータセット: よりバランスの取れたトレーニングセットを作成する。

たとえば、多数クラスと少数クラスの比率が 20:1 のデータセットについて考えてみましょう。このクラスを克服するため不均衡がある場合は、少数派のすべてで構成されたトレーニングセットを多数派のクラスのサンプルの 10 分の 1 にすぎません。トレーニングセットのクラス比を 2:1 にします。アンダーサンプリングのおかげでトレーニングセットのバランスがとれた方がモデルの質が向上する可能性があります。または、このバランスの取れたトレーニングセットに、効果的なモデルをトレーニングするのに十分なサンプルが含まれていない場合があります。

一方、オーバーサンプリングは有効です。

単一方向

#language

対象のテキストセクションの前にあるテキストのみを評価するシステム。一方、双方向システムは、対象のテキストセクションの前と後のテキストの両方を評価します。詳しくは、双方向をご覧ください。

単方向言語モデル

#language

ターゲットトークンの後ではなく前に出現するトークンのみに基づいて確率を計算する言語モデル。双方向言語モデルとは対照的です。

ラベルなしの例

#fundamentals

特徴は含まれるが、ラベルは含まれない例。たとえば、次の表は、住宅査定モデルの 3 つのラベルなしの例を示しています。それぞれに 3 つの特徴がありますが、住宅価格はありません。

寝室の数	浴室数	家の築年数
3	2	15
2	1	72
4	2	34

教師あり ML では、ラベル付きサンプルでトレーニングされ、 ラベルなしのサンプル。

半教師ありと 教師なし学習トレーニング中にラベルなしのサンプルが使用されます。

ラベルなしのサンプルとラベル付きサンプルを対比します。

教師なし ML

#clustering

#fundamentals

データセット（通常はラベルなしのデータセット）内のパターンを見つけるようにモデルをトレーニングします。

教師なし ML の最も一般的な用途は、 クラスタデータグループ化しますたとえば、教師なし ML アルゴリズムでは、音楽のさまざまなプロパティに基づいて曲をクラスタリングできます。生成されたクラスタは、他の ML アルゴリズム（音楽レコメンデーションサービスなど）への入力として使用できます。有用なラベルが不足している場合や存在しない場合は、クラスタリングが役立ちます。たとえば、不正行為や不正行為防止などのドメインでは、クラスタを使用して人間がデータをより深く理解できます。

教師あり ML とは対照的です。

アイコンをクリックすると、追加のメモが表示されます。

教師なし機械学習のもう 1 つの例は、主成分分析（PCA）です。たとえば、数百万のショッピングカートの内容を含むデータセットに PCA を適用すると、レモンを含むショッピングカートには、胃薬も頻繁に含まれていることがわかります。

アップリフトモデリング

マーケティングで一般的に使用されるモデリング手法の 1 つで、「因果効果」（いわゆる「増分効果」とも呼ばれる）「処理」「個人」として識別されます次に 2 つの例を示します。

医師は、アップライトモデリングを使用して、患者（個人）の年齢と病歴に応じて、医療処置（治療）による死亡率の低下（因果効果）を予測できます。
マーケティング担当者は増加率モデリングを使用して、広告によって購入される確率（因果効果）人（個人）に対する措置）を表します。

アップリフトモデリングは、分類や回帰とは異なり、一部のラベル（バイナリトリートメントのラベルの半分など）が常に欠落しています。たとえば、患者は治療を受けることも受けないこともできます。したがって、観察できるのは患者が治癒するか、この 2 つのいずれか一方だけが回復することはありません増加率モデルの主な利点は、予測を生成できること式（これは反事実的条件）に当てはめて、それを使用して見ていきましょう。

優先度を上げる

ダウンサンプリングした係数に等しい重みをダウンサンプリングクラスに適用します。

ユーザーマトリックス

#recsystems

レコメンデーションシステムでは、行列分解によって生成されたエンベディングベクトルで、ユーザーの好みに関する潜在的なシグナルを保持します。ユーザーマトリックスの各行には、関連する属性に関する情報が一人のユーザーのさまざまな潜在シグナルの強さたとえば、映画のレコメンデーションシステムについて考えてみましょう。このシステムではユーザーマトリックスの潜在シグナルが各ユーザーの興味 / 関心を表している特定のジャンルの特定のオーディエンスにリーチしたり、複数の要素にまたがる複雑なやり取りを効率的に行えます

ユーザーマトリックスには、潜在する特徴の列とユーザーごとの行があります。つまり、ユーザーマトリックスの行数は、分解されるターゲットマトリックスの行数と同じです。たとえば、ある映画が 1,000,000 ユーザーを対象とするレコメンデーションシステム、 1,000,000 行になります

V

検証

#fundamentals

モデルの品質の初期評価。検証では、検証セットと比較してモデルの予測の品質を確認します。

検証セットはトレーニングセットとは異なるため、検証は過学習を防ぐのに役立ちます。

検証セットに照らしてモデルを評価することは、モデルに照らしてテストと評価を行います テストセットを 2 回目のテストとして設定します。

検証損失

#fundamentals

モデルの損失を表す指標特定の期間における検証セット トレーニングの反復。

一般化曲線もご覧ください。

検証セット

#fundamentals

トレーニング済みのモデルに対して初期評価を行うデータセットのサブセット。通常トレーニング済みモデルを検証セットと照らし合わせて、評価してから、テストセットでモデルを評価します。

従来、データセット内の例は次の 3 つの異なるサブセットに分割されます。

トレーニングセット
検証セット
テストセット

理想的には、データセット内の各例は、上記のサブセットの 1 つにのみ属している必要があります。たとえば、1 つのサンプルがトレーニングセットと検証セットの両方に属している場合、

値の補完

欠損値を許容される代替値に置き換えるプロセス。値が欠落している場合は、例全体を破棄するか、値の補完を使用して例を復元できます。

たとえば、1 時間ごとに記録される temperature 特徴を含むデータセットについて考えてみましょう。ただし、特定の時間帯の温度測定値は取得できませんでした。データセットの一部を次に示します。

タイムスタンプ	温度
1680561000	10
1680564600	12
1680568200	missing
1680571800	20
1680575400	21
1680579000	21

システムは、欠落している例を削除するか、欠落している温度を 12、16、18、20 のいずれかに補完します（補完アルゴリズムによって異なります）。

勾配消失問題

#seq

初期の隠れ層の勾配の傾向いくつかのディープニューラルネットワークを驚くほど平坦（低）です。勾配が徐々に小さくなるほどディープニューラルネットワークにおいて、ノードの重みに小さな変化をつけることにより、ほとんど、またはまったく学習していないからです。勾配消失の問題が発生したモデルは、トレーニングが困難または不可能になります。長短期記憶セルがこの問題に対処します。

勾配爆発問題と比較してください。

変数の重要度

#df

モデルに対する各特徴量の相対的な重要度を示すスコアセット。

たとえば、ディシジョンツリーを考えてみます。住宅の価格の見積もり。このディシジョンツリーには 3 つの特徴：サイズ、経年、スタイルです。ある一連の変数の重要度が 3 つの特徴量は {size=5.8, age=2.5, style=4.7} の場合、ディシジョンツリーと考えてください

重要度が変動するさまざまな指標から情報を得るモデルのさまざまな側面に関する ML エキスパート。

変分オートエンコーダ（VAE）

#language

差異を利用するオートエンコーダの一種入力と出力の間の変換を行って、入力の変更されたバージョンを生成します。変分オートエンコーダは、生成 AI に有用です。

VAE は、確率モデルのパラメータを推定する手法である変分推論に基づいています。

ベクトル

非常にオーバーロードされた用語で、数学や科学の分野によって意味が異なります。ML において、ベクトルには次の 2 つの特性があります。

データ型: 通常、ML のベクトルは浮動小数点数を保持します。
要素数: ベクトルの長さまたは寸法です。

たとえば、8 つの浮動小数点数を保持する特徴ベクトルについて考えてみましょう。この特徴ベクトルの長さまたは次元は 8 です。機械学習ベクトルは多くの場合、膨大な次元数を持ちます。

さまざまな種類の情報をベクトルとして表現できます。例:

地球上の任意の位置は、2 次元ベクトルとして表すことができます。1 つのディメンションは緯度で、もう 1 つのディメンションは経度です。
500 銘柄の現在の価格は、500 次元のベクトルで表すことができます。
有限数のクラスに対する確率分布を表現できるベクトルとして表されます。たとえば、 マルチクラス分類システムを使用して、は、3 つの出力色（赤、緑、黄色）のうち 1 つがベクトル (0.3, 0.2, 0.5) は P[red]=0.3, P[green]=0.2, P[yellow]=0.5 を意味します。

ベクトルは連結できるため、さまざまなメディアを 1 つのベクトルとして表すことができます。一部のモデルは、多くのワンホットエンコーディングの連結に対して直接動作します。

TPU などの専用プロセッサは、次の処理を行うように最適化されています。ベクトルに対する算術演算です。

ベクトルは、ランク 1 のテンソルです。

W

Wasserstein 損失

生成されたデータと実際のデータの分布間のEarth Mover's Distance に基づく、生成敵対ネットワークで一般的に使用される損失関数の 1 つ。

weight

#fundamentals

モデルが別の値に掛ける値。トレーニングは、モデルの理想的な重みを決定するプロセスです。推論とは、学習した重みを使用して、予測を行います。

アイコンをクリックすると、線形モデルの重みの例が表示されます。

2 つの特徴を持つ線形モデルを想像してみてください。トレーニングによって次の重み（ bias）:

バイアス b の値は 2.2 です。
1 つの特徴に関連付けられた重み w₁ は 1.5 です。
他の特徴に関連付けられた重み w₂ は 0.4 です。

次のような特徴値を持つ例について考えてみましょう。

1 つの特徴量 x₁ の値は 6 です。
他の特徴量 x₂ の値は 10 です。

この線形モデルは、次の式を使用して予測値 y' を生成します。

$$y' = b + w_1x_1 + w_2x_2$$

したがって、予測は次のようになります。

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

重みが 0 の場合、対応する特徴量は重みに行います。たとえば、w₁ が 0 の場合、x₁ の値は関係ありません。

重み付き交互最小二乗（WALS）

#recsystems

レコメンデーションシステムの行列分解中に目標関数を最小化するアルゴリズム。これにより、不足している例を軽視できます。WALS は、重みベクトルを元の行列と再構成間の 2 乗誤差を行分解と列分解を交互に分解します。これらの最適化は、最小二乗凸最適化によって解決できます。詳しくは、レコメンデーションシステムコース。

加重合計

#fundamentals

関連するすべての入力値の合計に、対応する重みを掛けた値。たとえば、関連する入力が次のように構成されているとします。

入力値	入力重み
2	-1.3
-1	0.6
3	0.4

したがって、加重合計は次のようになります。

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加重合計は、入力引数です。 活性化関数。

ワイドモデル

通常、多くのスパース入力特徴を持つ線形モデル。このようなモデルは、出力ノードに直接接続する多数の入力を持つ特別なタイプのニューラルネットワークであるため、「ワイド」と呼ばれます。ワイドモデル多くの場合、ディープモデルよりもデバッグや検査が簡単です。ワイドモデルは隠れ層を介して非線形性を表現できませんが、特徴の交差やバケット化などの変換を使用して、さまざまな方法で非線形性をモデル化できます。

ディープラーニングモデルとは対照的です。

幅

特定のレイヤ内のニューロンの数 ニューラルネットワークのものです。

観客の知恵

#df

大きなグループの意見や推定を平均化するという考え方は驚くほど良い結果が得られることが多いです。たとえば、大きなジャーに詰められたジェリービーンズの数を推測するゲームについて考えてみましょう。個々の推測のほとんどは不正確ですが、すべての推測の平均は、実証的に、ジャーに入っている実際のゼリービーンズの数に驚くほど近いことがわかっています。

Ensemblesは、観客の知恵をソフトウェアで表現したものです。たとえ個々のモデルの予測が非常に不正確な場合でも多くのモデルの予測を平均すると学習します。たとえば、個々のディシジョンツリーでは予測が不十分な場合でも、ディシジョンフォレストでは非常に優れた予測が得られることがあります。

ワードエンベディング

#language

エンベディングベクトル内の単語セット内の各単語を表す。つまり、各単語を 0.0～1.0 の浮動小数点値のベクトルとして表します。意味が類似する単語は、意味が異なる単語よりも類似した表現になります。たとえば、ニンジン、セロリ、きゅうりはすべて比較的類似した表現になりますが、飛行機、サングラス、歯磨き粉の表現とは大きく異なります。

X

XLA（Accelerated Linear Algebra）

GPU、CPU、ML アクセラレータ用のオープンソースの ML コンパイラ。

XLA コンパイラは、一般的な ML フレームワークである PyTorch TensorFlow、JAX、これらを連携させて最適化さまざまなハードウェアプラットフォーム、 GPU、CPU、ML アクセラレータ。

Z

ゼロショット学習

機械学習トレーニングの一種。モデルが、トレーニングされていないタスクの予測を推論します。つまり、モデルにはタスク固有のトレーニング例は提供されず、そのタスクの推論を行うよう求められます。

ゼロショットプロンプト

#language

#generativeAI

希望の例を提供しないプロンプト 大規模言語モデルを使用して対応します。例:

1 つのプロンプトの各部分	メモ
`指定された国の公式通貨は何ですか？`	LLM に回答させたい質問。
`インド:`	実際のクエリ。

大規模言語モデルは、次のいずれかのレスポンスを返します。

ルピー
INR
₹
ルピー（インド）
ルピー
インドルピー

上記の選択肢はすべて正しいが、特定の形式が好ましい場合もある。

ゼロショットプロンプトと次の用語を比較します。

ワンショットプロンプト
少数ショットプロンプト

Z スコアの正規化

#fundamentals

元の特徴量値を、その特徴量の平均からの標準偏差の数を表す浮動小数点値に置き換えるスケーリング手法。たとえば、平均が 800 で標準の特徴が偏差は 100 です次の表に、Z スコアの正規化の仕組みを示します。未加工の値を Z スコアにマッピングします。

Raw 値	Z スコア
800	0
950	+1.5
575	-2.25

ML モデルは Z スコアでトレーニングする未加工の値ではなく特徴量の重みで表します

機械学習の用語集

A

アブレーション

A/B テスト

アクセラレータ チップ

accuracy

アイコンをクリックすると、追加のメモが表示されます。

アクション

活性化関数

アイコンをクリックすると例が表示されます。

能動的学習

AdaGrad

エージェント

アグロメーション クラスタリング

異常検出

AR

PR 曲線の下の面積

ROC 曲線の下の面積

AI 全般

人工知能

Attention、

属性

属性サンプリング

AUC（ROC 曲線の下の面積）

アイコンをクリックすると、AUC 曲線と ROC 曲線の関係を確認できます。

アイコンをクリックすると、AUC のより正式な定義が表示されます。

拡張現実

オートエンコーダ

自動化バイアス

AutoML

自己回帰モデル

予備損失

平均適合率

軸に揃えられた条件

B

誤差逆伝播法

バギング

言葉のバッグ

ベースライン

Batch

バッチ推論

バッチ正規化

バッチサイズ

ベイズ ニューラル ネットワーク

ベイズ最適化

ベルマン方程式

BERT（双方向エンコーダ） Transformers による表現）

バイアス（倫理 / 公平性）

バイアス（数学）またはバイアス項

双方向

双方向言語モデル

ビグラム

バイナリ分類

バイナリ条件

ビニング

BLEU（Bilingual Evaluation Understudy）

ブースト

境界ボックス

ブロードキャスト

バケット化、

アイコンをクリックすると、追加のメモが表示されます。

C

調整レイヤ

候補生成

候補サンプリング

カテゴリデータ

因果言語モデル

centroid

セントロイド ベースのクラスタリング

Chain-of-Thought プロンプト

チャット

チェックポイント

クラス

分類モデル

分類しきい値

アイコンをクリックすると、追加のメモが表示されます。

クラスの不均衡なデータセット

クリッピング

Cloud TPU

クラスタリング

アクセラレータチップ

アグロメーションクラスタリング

ベイズニューラルネットワーク

セントロイドベースのクラスタリング

コンセプトドリフト

コンテキストウィンドウ

畳み込みニューラルネットワーク

クラッシュブラッサム

デシジョンフォレスト

ディシジョンツリー

深さ方向の分離可能な畳み込みニューラルネットワーク（sepCNN）