このページは Cloud Translation API によって翻訳されました。

機械学習用語集: ML の基礎

このページには、ML の基礎に関する用語集が含まれています。すべての用語集でこちらをクリックしてください。

A

accuracy

#fundamentals

正しい分類予測の数で割った値割った数値です具体的には、次のことが求められます。

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例: 正解が 40、不正解が 10 のモデルが精度:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

バイナリ分類では特定の名前が付けられるさまざまなカテゴリの正しい予測と 不正確な予測。バイナリ分類の精度式は、内容は次のとおりです。

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ここで

TP は真陽性（正しい予測）の数です。
TN は、真陰性（正しい予測）の数です。
FP は偽陽性（誤った予測）の数です。
FN は偽陰性（誤った予測）の数です。

2 つのモデルの精度を比較対照する precision と recall。

アイコンをクリックすると、追加のメモが表示されます。

状況によっては有用な指標となりますが、精度は誤解を招きかねません特に、精度は通常、指標として画像を処理する分類モデルを評価する クラス不均衡なデータセット。

たとえば、ある特定の地域で雪が降る日数が 100 年あたり 25 日であるとします。考えています。雪が降らない日（陰性クラス）が大きく「雪の日」の降雪データセットがこの都市はクラス不均衡がある バイナリ分類を想像する降雪の有無を予測するモデルですが、「雪なし」と予測するだけです。日々活用しています。このモデルは精度は高いものの、予測能力はありません。次の表は、100 年分の予測結果をまとめたものです。

カテゴリ	数値
TP	0
TN	36500
FP	25
FN	0

したがって、このモデルの精度は次のようになります。

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

99.93% という精度は驚異的な割合のように見えますが、モデルは予測能力はありません

適合率と通常は再現率の方が有用な指標 accuracy よりも、クラス不均衡なデータセットでトレーニングされたモデルを評価することができます。

活性化関数

#fundamentals

ニューラルネットワークが学習できるようにする機能特徴間のnonlinear（複雑な）関係学習します。

よく使用される活性化関数は次のとおりです。

ReLU
シグモイド

活性化関数のプロットは、一本の直線ではありません。たとえば、ReLU 活性化関数のプロットは次の要素で構成されます。 2 本の直線:

2 本の直線のデカルトプロット。最初の行には定数が
x 軸に沿って -infinity,0 から 0,-0 までの y 値が 0。
2 行目は 0,0 から始まります。この線の傾きは +1 なので、
0,0 から +infinity,+infinity まで続きます。

シグモイド活性化関数のプロットは次のようになります。

領域をまたがる x 値を持つ 2 次元の曲線プロット
- 無限大から + 正までの範囲で、y 値はほぼ 0 から正
ほぼ 1 です。x が 0 の場合、y は 0.5 です。曲線の傾きは常に
正の値で、最大傾きは 0.0.5 で、徐々に減少する
x の絶対値が大きくなるにつれて傾きが小さくなります。

アイコンをクリックすると例が表示されます。

ニューラルネットワークでは、活性化関数はニューラルネットワークをモデルにすべての入力の加重合計をニューロン加重合計を計算するため、ニューロンは関連する値と重みの積を返すことができますたとえば、ニューロンへの関連入力は、以下の要素で構成されます。

入力値	入力の重み
2	-1.3
-1	0.6
3	0.4

したがって、加重合計は次のようになります。

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

このニューラルネットワークの設計者が、ニューラルネットワークを シグモイド関数: 活性化関数ですこの場合、ニューロンはシグモイドの -2.0 は約 0.12 です。したがって、ニューロンは、ニューラルネットワークの次の層に（-2.0 ではなく）0.12 を渡します。次の図に、このプロセスの該当部分を示します。

人工知能

#fundamentals

高度なタスクを解決できる、人間以外のプログラムまたはモデル。たとえば、テキストを翻訳するプログラムまたはモデル、あるいは AI によって示された放射線画像から疾患を特定します。

ML は、正式には AI の一分野であるインテリジェンスです。しかし近年、一部の組織では、「AI」と「ML」を同じ意味で使用します。

AUC（ROC 曲線の下の面積）

#fundamentals

0.0 から 1.0 までの数字は、 バイナリ分類モデルの 正のクラスを分離する機能 ネガティブクラス。 AUC が 1.0 に近いほど、モデルの互いのクラスクラスを定義しています

たとえば、次の図は分類モデルを示しています。正のクラス（緑の楕円）と負のクラスを分離する完全にクエリできましたこの非現実的な完璧なモデルは AUC が 1.0 の場合:

片側に 8 つの正例がある数直線と、
反対側に 9 つのネガティブサンプルがあります。

逆に、次の図は分類器の結果を示しています。モデルを定義します。このモデルの AUC は 0.5 です。

6 つの正例と 6 つの負例からなる数直線。
サンプルの順序は、ポジティブ、ネガティブ、
ポジティブ、ネガティブ、ポジティブ、ネガティブ、ポジティブ、ネガティブ、ポジティブ
ネガティブ、ポジティブ、ネガティブです

はい。前のモデルの AUC は 0.5 です。0.0 ではありません。

ほとんどのモデルは、この 2 つの極端な中間にあります。たとえば、陽性と陰性をある程度区別するため、 AUC が 0.5 ～ 1.0 の範囲内にある場合:

6 つの正例と 6 つの負例からなる数直線。
ネガティブ、ネガティブ、ネガティブ、ネガティブ、
ポジティブ、ネガティブ、ポジティブ、ポジティブ、ネガティブ、ポジティブ、ポジティブ、
評価します

AUC では、 分類しきい値。AUC はは、可能性のあるすべての分類しきい値を考慮します。

アイコンをクリックすると、AUC 曲線と ROC 曲線の関係を確認できます。

AUC は測定対象の面積 ROC 曲線。たとえば正と負を完全に分離するモデルの ROC 曲線が次のようになります。

AUC は上の図の灰色の領域の面積です。この特殊なケースでは、領域は単に灰色の領域の長さです。（1.0）に灰色の領域の幅（1.0）を掛けた値。このプロダクトは 1.0 と 1.0 の AUC は正確に 1.0 になります。 AUC スコア。

逆に、クラスを分離できない分類器の ROC 曲線は、次のようなものです。この灰色の領域の面積は 0.5 です。

より一般的な ROC 曲線は、おおよそ次のようになります。

この曲線の下の面積を手動で計算するのは大変です。そのため、プログラムは通常、大半の AUC 値を計算します。

アイコンをクリックすると、AUC の正式な定義が表示されます。

AUC は、分類器が予測値よりも高い信頼度を持つ確率です。陽性のサンプルが無作為に抽出され、陽性と陽性の場合は、ランダムに選択されたネガティブな例が正になります。

B

誤差逆伝播法

#fundamentals

実装するアルゴリズムは、 勾配降下法 ニューラルネットワーク。

ニューラルネットワークのトレーニングには多数の反復が必要次の 2 段階のサイクルで行われます。

フォワードパス中に、システムは次のバッチ例: 予測を生成します。システムは各トークンを予測を各ラベル値に付加します。違いは、予測とラベル値はその例の損失です。システムはすべてのサンプルの損失を集計して、合計値を計算します。現在のバッチの損失です
バックワードパス（バックプロパゲーション）の間は、損失がすべてのニューロンの重みを 非表示レイヤ。

多くの場合、ニューラルネットワークは多くの隠れ層にまたがって多くのニューロンを含んでいます。これらのニューロンはそれぞれ、異なる形で全体的な損失に寄与しています。誤差逆伝播法により重みの増減適用できます。

学習率は、学習率を各バックワードパスが各重みを増減する度合い。学習率を大きくすると、各重みは学習します。

計算では、誤差逆伝播法は チェーンルール。微積分学から得られたものですつまり、誤差逆伝播法では誤差の偏導関数 指定することもできます

数年前、ML の実務担当者は誤差逆伝播法を実装するためのコードを記述する必要がありました。 TensorFlow のような最新の ML API では、誤差逆伝播法が実装されています。さて、

batch

#fundamentals

1 回のトレーニングで使用される例のセット iteration。 バッチサイズにより、使用します。

バッチがエポックの関係の詳細については、エポックをご覧ください。示されます。

バッチサイズ

#fundamentals

バッチ内の例の数。たとえば、バッチサイズが 100 の場合、モデルは イテレーションあたり 100 の例。

一般的なバッチサイズ戦略は次のとおりです。

Stochastic Gradient Descent（SGD）。バッチサイズは 1 です。
フルバッチ。バッチサイズは、全体のサンプル数です。 トレーニングセット。たとえば、トレーニングセットが 100 万個の例が含まれる場合、バッチサイズは 100 万個になります。説明します。フルバッチは通常、非効率的な戦略です。
ミニバッチ。バッチサイズは通常 10 と 1,000 です。ミニバッチは通常、最も効率的な戦略です。

バイアス（倫理/公平性）

#fairness

#fundamentals

1. 固定観念、偏見やえこひいき表示することもできます。これらのバイアスは、データ収集やデータの解釈、システムの設計、ユーザーとの考えることができますこのタイプのバイアスには、次のようなものがあります。

2. サンプリングまたは報告手順によって生じる体系的なエラー。このタイプのバイアスには、次のようなものがあります。

ML モデルのバイアス項と混同しないでください。または予測バイアス。

バイアス（数学）またはバイアス項

#fundamentals

原点からの切片またはオフセット。バイアスはモデルです。このアイコンは、名前が次のとおりです。

b
W₀

たとえば、バイアスは次の式の b です。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

2 次元の単純な直線では、バイアスは単に「y 切片」を意味します。たとえば、次の図の線のバイアスは 2 です。

傾きが 0.5、バイアス（y 切片）が 2 の直線のプロット。

すべてのモデルが原点（0,0）から始まるわけではないため、バイアスが発生します。たとえば遊園地への入場料は 2 ユーロで、お客様の滞在 1 時間あたり 0.5 ユーロ。したがって、モデルにラベル最も低いコストは 2 ユーロであるため、総コストのバイアスは 2 になります。

バイアスを倫理や公平性におけるバイアスと混同してはいけませんまたは予測バイアス。

バイナリ分類

#fundamentals

分類タスクの一種で、次の 2 つの相互に排他的なクラスのいずれかを予測します。

陽性クラス
ネガティブクラス

たとえば、次の 2 つの ML モデルは、それぞれがバイナリ分類:

メールメッセージが「迷惑メール」（肯定的なクラス）または「迷惑メール以外」（除外クラス）です。
医学的症状を評価し、患者が特定の疾患（陽性クラス）を持っているか、ないあります。

一方、マルチクラス分類は、

ロジスティック回帰と 分類しきい値。

バケット化、

#fundamentals

1 つの特徴を複数のバイナリ特徴に変換する「バケット」と呼び、通常は値の範囲に基づきます。切り取られた対象物は通常、 継続的な機能。

たとえば、温度を 1 つのパラメータで表すのではなく、連続浮動小数点特徴を使用して、特定の温度範囲を次のような個別のバケットに分割できます。

摂氏 10 度以下は「寒い」あります。
摂氏 11 ～ 24 度は「温帯」になりますあります。
摂氏 25 度以上は「暖かい」あります。

モデルは、同じバケット内のすべての値を同じように扱います。対象たとえば、13 と 22 という値はどちらも一時バケット内にあるため、モデルは 2 つの値を同じように扱います。

アイコンをクリックすると、追加のメモが表示されます。

温度を連続特徴量で表現すると、モデルは温度を 1 つの特徴として扱います。温度を表す場合 3 つのバケットに分類すると、モデルは各バケットを個別の特徴として扱います。つまり、モデルは、各バケットとラベルとの関係を個別に ラベル。たとえば、 線形回帰モデルは、バケットごとに個別の重み。

バケット数を増やすと、モデルが複雑になるモデルが学習しなければならない関係の数が増えますたとえば、コールド、温暖なバケット、ウォームバケットは、基本的にモデルに 3 つの個別の特徴を提供します「新規顧客の獲得」目標をさらに 2 つのバケット（フリーズとホットなど）を 5 つの個別の特徴量でトレーニングする必要があります。

作成するバケットの数や各バケットの範囲を決めるにはどうすればよいでしょうか。どうすればよいでしょうか。回答を得るには、一般的にかなりの量の必要があります。

C

カテゴリデータ

#fundamentals

可能な値の特定のセットを持つ特徴量。たとえば traffic-light-state という名前のカテゴリ特徴を考えてみましょう。次の 3 つの値のいずれかになります。

red
yellow
green

traffic-light-state をカテゴリ特徴として表すことで、モデルは過去の情報をドライバの動作に対する red、green、yellow のさまざまな影響。

カテゴリ特徴量は「カテゴリ特徴」とも呼ばれ 離散特徴。

数値データは対照的です。

クラス

#fundamentals

ラベルが属することができるカテゴリ。例:

バイナリ分類モデルで、「Spam」の 2 つのクラスを「Spam」と「Not Spam」にできます。
マルチクラス分類モデルの場合犬種を識別する場合、クラスは プードル、ビーグル、パグ、といった具合です

分類モデルはクラスを予測します。これに対して、回帰モデルはです。

分類モデル

#fundamentals

予測がクラスであるモデル。たとえば、すべて分類モデルは次のとおりです。

入力文の言語を予測するモデル（フランス語、スペイン語ですか？イタリア語？）。
樹木の種類（Maple、オーク？Baobab など）？
特定のクラスに対する陽性または陰性のクラスを予測するモデル健康状態に関するものです。

これに対して、回帰モデルは数値を予測します。です。

一般的な分類モデルには次の 2 種類があります。

バイナリ分類
マルチクラス分類

分類しきい値

#fundamentals

バイナリ分類では、元の数値を変換する 0 ～ 1 の数値で ロジスティック回帰モデル 陽性のクラスの予測に変換するまたはネガティブクラス。分類しきい値は人間が選択する値ですが、モデルトレーニングで選択された値ではありません。

ロジスティック回帰モデルは、0 ～ 1 の未加工の値を出力します。以下の手順を行います。

この未加工の値が分類しきい値を超える場合: 予測します。
この未加工の値が分類しきい値より小さい場合、予測されます。

たとえば、分類しきい値が 0.8 であるとします。生の値がが 0.9 の場合、モデルは陽性のクラスと予測します。未加工の値が 0.7 の場合、モデルは陰性のクラスを予測します。

分類しきい値の選択は、分類のしきい値に 偽陽性と 偽陰性。

アイコンをクリックすると、追加のメモが表示されます。

モデルやデータセットが進化するにつれ、エンジニアは分類しきい値です分類しきい値が変化したら正のクラスの予測は、突然負のクラスに変わることがあるできます。

たとえば、バイナリ分類疾患予測モデルについて考えてみましょう。最初の 1 年間にシステムが稼働するとします。

特定の患者に対する生の値は 0.95 です。
分類しきい値は 0.94 です。

したがって、システムは陽性のクラスを診断します。（患者はため息をつき、「気分が悪い」）

1 年後は次のようになります。

同じ患者の生の値は 0.95 のままです。
分類しきい値が 0.97 に変更されます。

したがって、システムはその患者を陰性クラスとして再分類します。（「今日も一日おめでとう！私は病気ではありません」）。同じ患者がいる。診断が異なる。

クラス不均衡なデータセット

#fundamentals

分類問題のデータセットで、単語の総数は各クラスのラベルの数が大きく異なる。たとえば、2 つのラベルを持つバイナリ分類データセットを考えてみましょう。次のように分割されます。

1,000,000 個のネガティブラベル
10 個の陽性ラベル

負のラベルと正のラベルの比率は 100,000 対 1 なので、クラス不均衡なデータセットです

一方、次のデータセットはクラス不均衡ではありません。理由は次のとおりです。正のラベルに対する負のラベルの比率は比較的 1 に近い:

517 個のネガティブラベル
483 個の陽性ラベル

マルチクラスデータセットはクラス不均衡になることもあります。たとえば、次のようになります。マルチクラス分類データセットもクラス不均衡である他の 2 つよりもはるかに多くの例があります。

クラス「green」のラベル 1,000,000 個
クラス「purple」のラベル: 200 個
クラス「orange」の 350 個のラベル

エントロピー、マジョリティクラス、および少数派クラス。

クリッピング

#fundamentals

次のようにすることで外れ値を処理する手法次のいずれかまたは両方を選択できます。

最大値を超える特徴値を削減する最小しきい値まで下がります
最小しきい値を下回る特徴値の増加設定します。

たとえば、特定の特徴量の値の 0.5% 未満が 40 ～ 60 の範囲外ですこの場合は、以下のことができます。

60（最大しきい値）を超えるすべての値をクリップして、ちょうど 60 にします。
40（最小しきい値）未満のすべての値をクリップして、ちょうど 40 にします。

外れ値によってモデルが破損することがあり、場合によっては重みの原因となるオーバーフローしますまた、異常値によって、 accuracy などの指標。クリッピングは、低減します。

勾配のクリッピング力トレーニング中の指定範囲内の勾配値。

混同行列

#fundamentals

正しい予測と誤った予測の数を要約する NxN テーブル 分類モデルで作成されたものです。たとえば、事前トレーニング済みモデルの次の混同行列について バイナリ分類モデル:

	腫瘍（予測）	がん以外（予測）
がん（グラウンドトゥルース）	18（TP）	1（FN）
がん以外（グラウンドトゥルース）	6（FP）	452（TN）

上記の混同行列は、次のことを示しています。

グラウンドトゥルースが腫瘍であった 19 の予測のうち、モデルは正しく 18 と分類しましたが、誤って 1 に分類されました。
グラウンドトゥルースが非腫瘍であった 458 件の予測のうち、モデルは正しく分類されたのは 452 で、誤って 6 に分類されました。

マルチクラス分類の混同行列間違いのパターンを特定できますたとえば、3 つのクラスに対する次の混同行列について考えてみましょう。 3 種類のアヤメの種類を分類するマルチクラス分類モデル（Virginica、Versicolor、Setosa）。グラウンドトゥルースがバージニア州だったとき、混同行列により、モデルが誤認する可能性が非常に高いことがセトサより Versicolor を予測する:

	セトサ（予測）	バーシカラー（予測）	バージニカ（予測）
Setosa（グラウンドトゥルース）	88	12	0
Versicolor（グラウンドトゥルース）	6	141	7
バージニカ（グラウンドトゥルース）	2	27	109

さらに別の例として、混同行列を見ると、モデルのトレーニングに認識しようとすると、誤って 4 ではなく 9 と予測されがちです。誤って 7 ではなく 1 と予測してしまったりします。

混同行列は、 適合率を含む、さまざまなパフォーマンス指標 再現率。

連続的な特徴

#fundamentals

可能な範囲が無限にある浮動小数点特徴量 温度や重量などの値を生成します。

離散特徴とは対照的です。

収束

#fundamentals

損失値の変化がほとんどないか、またはほとんど変化していないときに到達する状態 イテレーションごとにはまったくありません。たとえば、次のようになります。 損失曲線は、約 700 回の反復で収束することを示唆しています。

デカルトプロット。X 軸は損失です。Y 軸はトレーニングの数、
必要があります。最初の数回のイテレーションで損失が非常に大きくなりますが、
急激に低下します100 回ほど繰り返した後も、損失はまだ
緩やかなペースで下がります約 700 回のイテレーション後、
損失は横ばいです

追加のトレーニングが収束しなかった場合にモデルが収束するモデルを改善します

ディープラーニングでは、損失値が一定または最終的には降順になる前に多くの反復処理でほぼ同じ結果が得られます長期間収束していると一時的に感じてしまうことがあります。

早期停止もご覧ください。

D

DataFrame

#fundamentals

モデルを表す一般的な pandas データ型。メモリ内のデータセット。

DataFrame は、テーブルやスプレッドシートに似ています。各列は、 DataFrame には名前（ヘッダー）があり、各行は一意の番号です。

DataFrame の各列は 2 次元配列のような構造になっていますが、各列に独自のデータ型を割り当てることができます

公式ガイド pandas.DataFrame リファレンスのページをご覧ください。

データセットまたはデータセット

#fundamentals

元データの集まり。通常は（ただしそれに限定されない）が、使用できます。

スプレッドシート
CSV（カンマ区切り値）形式のファイル

ディープモデル

#fundamentals

複数を含むニューラルネットワーク 隠れ層。

ディープモデルは、ディープニューラルネットワークとも呼ばれます。

「ワイドモデル」も参照してください。

密な特徴

#fundamentals

ほとんどまたはすべての値がゼロ以外の特徴量。通常は浮動小数点値のTensor。たとえば、次のようになります。 10 要素テンソルは密集しています。これは、その値の 9 つがゼロでないためです。

一方、スパースな特徴量はスパースな特徴量です。

深さ

#fundamentals

ニューラルネットワーク内の次の合計:

隠れ層の数
出力レイヤの数（通常は 1）
エンベディングレイヤの数

たとえば、5 つの隠れ層と 1 つの出力層を持つニューラルネットワークが深さは 6 です。

なお、入力レイヤは影響の深さです

離散特徴

#fundamentals

取り得る値の有限のセットを持つ特徴量。たとえば値が animal、vegetable、mineral のいずれかの値を持つ特徴は、離散（またはカテゴリ）特徴量です。

「継続的な機能」も参照してください。

動的

#fundamentals

頻繁に、または継続的に行われること。動的とオンラインという用語は ML の類義語です。マシンでの動的とオンラインの一般的な用途は次のとおりです。学習:

動的モデル（またはオンラインモデル）とは、再トレーニングするデータに適しています
動的トレーニング（またはオンライントレーニング）はトレーニングのプロセス向上させることができます
動的推論（またはオンライン推論）は、オンデマンドで予測を生成する場合などです。

動的モデル

#fundamentals

頻繁に（または継続的に）使用されるモデル 再トレーニングします。動的モデルは「生涯学習者」進化するデータに絶えず適応します動的モデルは、ML モデルとも呼ばれます オンラインモデル。

「静的モデル」も参照してください。

E

早期停止

#fundamentals

正則化の手法で、トレーニングの損失が完了する前のトレーニング減少しています早期停止では、モデルのトレーニングを意図的に停止します。 検証データセットの損失が始まった時点 increase;つまり 一般化のパフォーマンスは悪化します。

アイコンをクリックすると、追加のメモが表示されます。

早期停止は直感に反するかもしれません。結局のところ、終了をモデルに指示することは損失が減少している間にトレーニングするということは、シェフにデザートが完全に焼く前に調理をやめる。ただし、モデルのトレーニングでは、過学習につながる可能性があります。つまりモデルのトレーニングが長すぎると、モデルがトレーニングデータに適合し、新しいサンプルに対する予測がうまくいかないからです。

エンベディングレイヤ

#language

#fundamentals

トレーニング用の特別な隠れ層 高次元カテゴリ特徴を作成して、下位次元のエンベディングベクトルを徐々に学習します。「エンべディングレイヤを使用することで、ニューラルネットワークは高次元カテゴリ特徴量だけをトレーニングするよりも効率的です。

たとえば、地球は現在約 73,000 種の樹木をサポートしています。仮説樹木の種類はモデルの特徴量であるため、モデルの ワンホットベクトルを含む 73,000 指定することもできます。たとえば、baobab は次のように表されます。

73,000 個の要素からなる配列。最初の 6,232 個の要素が値を保持
0.次の要素には値 1 が保持されます。残りの 66,767 個の要素は
表示されます。

73,000 要素からなる配列は非常に長いです。エンベディングレイヤを追加しない場合トレーニングに膨大な時間がかかります。 72,999 個のゼロを乗算しますエンベディングレイヤを 1 つのレイヤに 12 次元です。その結果、エンベディングレイヤは徐々に学習し、新しいエンベディングベクトルを作成します。

状況によっては、ハッシュ化が妥当な代替手段であるエンベディングレイヤに渡します。

エポック

#fundamentals

トレーニングセット全体にわたるフルトレーニングパス各 example が 1 回処理されるようにします。

エポックは N/バッチサイズを表すトレーニングの iterations（N は例の総数です。

たとえば、次のように仮定します。

このデータセットは 1,000 件のサンプルで構成されています。
バッチサイズは 50 サンプルです。

したがって、1 回のエポックで 20 回の反復が必要になります。

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

例

#fundamentals

1 行の特徴量の値。場合によっては特徴量 ラベル。例 教師あり学習は 2 種類に分類できます。一般カテゴリ:

ラベル付きサンプルは 1 つ以上の特徴で構成されるです。ラベル付きサンプルはトレーニング中に使用されます。
ラベルなしのサンプルは、1 つ以上のサンプルで構成されます。ラベルはありません。推論時にはラベルのないサンプルが使用されます。

たとえば、影響を判断するためにモデルをトレーニングするとします。生徒のテストの点数にラベル付きの例を 3 つ示します。

機能			ラベル
温度	湿度	気圧	テストスコア
15	47	998	良い
19	34	1020	非常に良い
18	92	1012	悪い

ラベルのない例を 3 つ示します。

温度	湿度	気圧
12	62	1014
21	47	1017
19	41	1021

データセットの行は通常、サンプルの元のソースです。つまり、例は通常、テーブル内の列のサブセットで構成されます。表示されます。さらに、サンプルの特徴には、 合成特徴: 例: 特徴クロス。

F

偽陰性（FN）

#fundamentals

モデルが誤った予測結果を提示した例は、 ネガティブクラス。たとえば、モデルの特定のメールメッセージが迷惑メールではないと予測する（否定クラス）であるにもかかわらず、そのメールメッセージは実際には迷惑メールです。

偽陽性（FP）

#fundamentals

モデルが誤った予測結果を提示した例は、 陽性クラス。たとえば、このモデルは特定のメールが迷惑メール（ポジティブクラス）であると同時に、メールが実際には迷惑メールではないと判断される

偽陽性率（FPR）

#fundamentals

モデルが誤ってネガティブサンプルを検出した割合予測値を返します。次の数式は、偽陽性率:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

偽陽性率は ROC 曲線の X 軸です。

特徴；特徴表現

#fundamentals

ML モデルへの入力変数。例は 1 つ以上の特徴で構成されますたとえば、モデルのトレーニング中に気象条件が生徒のテストスコアに及ぼす影響を判断しました。次の表に 3 つの例を示します。それぞれに 3 つの特徴量と 1 つのラベルです。

機能			ラベル
温度	湿度	気圧	テストスコア
15	47	998	92
19	34	1020	84
18	92	1012	87

「label」は対照的です。

特徴クロス

#fundamentals

「交差」によって形成される合成特徴 カテゴリ特徴またはバケット化された特徴。

たとえば、「ムード予測」機能をトレーニングデータを表す temperature を、次の 4 つのバケットのいずれかに分類します。

freezing
chilly
temperate
warm

風速を次の 3 つのバケットのいずれかで表します。

still
light
windy

特徴クロスを使用しない場合、線形モデルは先行しますモデルのトレーニングにはトレーニングとは無関係に、たとえば、freezing windy。

別の方法として、温度と時間、ラベルの風速ですこの合成特徴量には、次の 12 の可能な特徴があります。 values:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

特徴クロスにより、モデルは気分の違いを学習できる freezing-windy～freezing-still 日の間。

それぞれ多くの要素を持つ 2 つの特徴から合成特徴を作成する場合結果として得られる特徴クロスには、非常に多くのできます。たとえば、1 つの特徴に 1,000 個のバケットがあり、もう 1 つの特徴のバケットは 2,000 で、結果として得られる特徴クロスは 2,000,000 説明します。

十字形はデカルト積。

特徴クロスは主に線形モデルで使用され、ほとんど使用されない説明します

２つのステップが含まれます

#fundamentals

#TensorFlow

以下のステップを含むプロセス。

有用と思われる特徴を判断する重要な役割を果たします
データセットに含まれる元データを、利用できます。

たとえば、temperature が有用であると判断できます。機能。その後、バケット化の実験を行ってもかまいません。モデルがさまざまな temperature 範囲から学習できる内容を最適化します。

特徴量エンジニアリングは 特徴抽出または 特徴量化。

アイコンをクリックすると、TensorFlow に関するその他の注意事項を確認できます。

TensorFlow における特徴量エンジニアリングとは、多くの場合、未加工のログファイルを変換すること tf.Example プロトコルバッファに記述します。関連項目 tf.Transform.

機能セット

#fundamentals

ML で使用する特徴のグループ model がトレーニングするデータ。たとえば、郵便番号、物件の規模、物件の条件は、住宅価格を予測するモデル用のシンプルな特徴セットで構成されています。

特徴ベクトル

#fundamentals

次の要素を構成する特徴値の配列例。特徴ベクトルは入力シーケンスの トレーニングおよび推論の際に使用します。例: 2 つの個別の特徴を持つモデルの特徴ベクトル例:

[0.92, 0.56]

4 つのレイヤ: 入力レイヤ、2 つの非表示レイヤ、1 つの出力レイヤ。
入力レイヤには 2 つのノードがあり、1 つは値
0.92 と 0.56 を含む 2 つのテーブルが作成されます。

特徴ベクトルの値は例ごとに異なるため、特徴ベクトルは次のようになります。

[0.73, 0.49]

特徴量エンジニアリングでは、予測します。たとえば、2 項カテゴリ特徴量とラベルが 5 つの可能な値が ワンホットエンコーディング。この場合、特徴ベクトルは 4 つのゼロと次のように、3 番目の位置に 1.0 を 1 つ作成します。

[0.0, 0.0, 1.0, 0.0, 0.0]

別の例として、モデルが次の 3 つの特徴で構成されているとします。

バイナリカテゴリ特徴量で、次のラベルで表される 5 つの可能な値がワンホットエンコーディング例: [0.0, 1.0, 0.0, 0.0, 0.0]
3 つの可能な値が表現されている別のバイナリカテゴリ特徴ワンホットエンコーディングを使用します。例: [0.0, 0.0, 1.0]
浮動小数点特徴例: 8.3

この場合、各サンプルの特徴ベクトルは 9 の値で表します。上のリストの値の例の場合、特徴ベクトルは次のようになります。

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

フィードバックループ

#fundamentals

ML において、モデルの予測がモデルのパフォーマンスに同じモデルまたは別のモデルのトレーニング用データです。たとえば、あるモデルはおすすめの映画はユーザーが見る映画に影響を及ぼし後続の映画のレコメンデーションモデルに影響を与える。

G

一般化

#fundamentals

新しいモデルに対して正しい予測を行うモデルの能力未知のデータを取り込むことができます一般化できるモデルはその逆 過学習しているモデルの

アイコンをクリックすると、追加のメモが表示されます。

トレーニングセットのサンプルでモデルをトレーニングします。そのためトレーニングセット内のデータの特性を学習します。一般化要するにモデルがサンプルに対して適切な予測をトレーニングセットに含まれません。

一般化を促すために 正則化はモデルのトレーニングに役立つトレーニングセットのデータの特性に合わせて調整します。

一般化曲線

#fundamentals

トレーニング損失と 検証損失を iterations。

一般化曲線は、将来起こり得る変化を 過学習。たとえば、次のようになります。過学習が示唆されます。これは検証データの損失が最終的にトレーニングの損失よりも大幅に高くなります

Y 軸に損失と X 軸がラベル付けされたデカルトグラフ
反復処理というラベルが付けられます2 つのプロットが表示されます。一方のプロットでは
もう 1 つは検証の損失です
2 つのプロットの初めは似ていますが、トレーニングの損失は最終的に
下がります。

勾配降下法

#fundamentals

損失を最小限に抑える数学的手法。勾配降下法は反復的に調整重みとバイアス 損失を最小限に抑えるため、徐々に最適な組み合わせを見つけ出します。

勾配降下法は、ML よりもずっと古い手法です。

グラウンドトゥルース

#fundamentals

現実。

実際に起こったことです。

たとえば、バイナリ分類を考えてみましょう。大学 1 年生の学生が 6 年以内に卒業するでしょうこのモデルのグラウンドトゥルースは、 6 年以内に卒業したとは違います

アイコンをクリックすると、追加のメモが表示されます。

グラウンドトゥルースに照らしてモデルの品質を評価します。正解は必ずしも完全かつ信頼できるわけではありませんたとえば、グラウンドトゥルースの潜在的な不完全な部分の例を以下に示します。

修了試験の例では、修了試験が確実に各生徒の記録は常に正しいか。大学の記録を完璧に管理できるか？
ラベルが機器によって測定される浮動小数点値であるとする（気圧計など）。どうすれば各楽器が同じ条件で校正されているか、または各測定値が同じ条件で実施されていることどうすればよいでしょうか。
ラベルが人間によるものだとしたら、それぞれの人間の評価者が、どうすればよいでしょうか。一貫性を高めるために、専門家の人間による評価が必要になることがあるします。

H

隠れ層

#fundamentals

レイヤの間のニューラルネットワークのレイヤは、 入力レイヤ（特徴量）と、出力レイヤ（予測）。各隠れ層は 1 つ以上のニューロンで構成されます。たとえば、次のニューラルネットワークには、隠れ層が 2 つ含まれています。 1 つ目には 3 つのニューロンがあり、2 つ目には 2 つのニューロンがあります。

4 つのレイヤ。最初のレイヤは 2 つのレイヤを含む入力レイヤで、
説明します。第 2 層は隠れ層で、3 つの
あります。3 つ目のレイヤは、2 つのレイヤを含む隠れ層で、
あります。4 番目のレイヤは出力レイヤです。各特徴
3 つのエッジがあり、それぞれが異なるニューロンを指している
作成します。第 2 レイヤの各ニューロンは、
2 つのエッジがあり、それぞれが異なるニューロンを指している
レイヤに配置されます。第 3 階層の各ニューロンには、
1 つのエッジが出力レイヤを指しています。

ディープニューラルネットワークは複数の隠されています。たとえば、上の図は、ディープニューラルネットワーク隠れ層が 2 つあるためです。

ハイパーパラメータ

#fundamentals

ハイパーパラメータ調整サービスによって実行される変数は、モデルを継続的に調整する必要がありますたとえば学習率はハイパーパラメータです。方法トレーニングセッションの前に学習率を 0.01 に設定する。もし 0.01 が高すぎると判断した場合は、トレーニングセッションでは 0.003 に設定します。

一方、パラメータは、モデルに与えられた重みとバイアス トレーニング中に学習します。

I

独立同分布（i.i.d）

#fundamentals

変化しない分布から取得されたデータと、各値が描画されるものは、以前に描画された値に依存しません。ID 理想的なガスとはマシンの有用な数学的構成要素だが、正確にはいくつかあります。たとえばウェブページにアクセスしたユーザーの分布や ID を指定できます。ごく短時間に測定されますつまり、分布は 1 人の訪問は一般的に別のユーザーの訪問とは関係ありませんただし、その時間枠を広げると、ウェブページの訪問者に季節的な差異が生じることがあります。

非定常性もご覧ください。

推論

#fundamentals

ML において、予測を行うプロセスは、 ラベルなしのサンプルにトレーニング済みモデルを適用する。

推論は、統計では若干異なる意味があります。詳しくは、 <ph type="x-smartling-placeholder"></ph> 詳しくは、統計的推論に関するウィキペディアの記事をご覧ください。

入力層

#fundamentals

ニューラルネットワークのレイヤは、は特徴ベクトルを保持します。つまり、入力レイヤが トレーニングの例を提供します。推論。たとえば、次の入力レイヤでは、ニューラルネットワークは、

4 つのレイヤ: 入力レイヤ、2 つの非表示レイヤ、出力レイヤ。

解釈可能性

#fundamentals

ML モデルの推論を人間が理解できる用語で表現します。

たとえば、ほとんどの線形回帰モデルは、作成します。（各トレーニング済み重みを参照するだけで済みます。 feature.)デシジョンフォレストも非常に解釈しやすいものです。ただし一部のモデルでは解釈可能にするには高度な可視化が必要です。

こちらの Learning Interpretability Tool（LIT） ML モデルを解釈します

繰り返し

#fundamentals

モデルのパラメータ（モデルのパラメータ）を 1 回更新すると、重みとバイアス - トレーニングをご覧ください。バッチサイズによって、モデルが 1 回の反復で処理するサンプルの数。たとえばバッチサイズが 20 の場合、モデルは調整する必要があります。

ニューラルネットワークをトレーニングする場合は、1 回の反復処理次の 2 つのパスがあります。

単一のバッチで損失を評価するためのフォワードパス。
バックプロパゲーション（バックプロパゲーション）により、モデルのパラメータを調整する必要があります。

L

L₀ 正則化

#fundamentals

正則化の一種で、ゼロ以外の重みの合計数にペナルティをかけるです。たとえば、非ゼロの重みが 11 個あるモデルにゼロ以外の重みを 10 個も持つ類似モデルよりもペナルティが高くなります。

L₀ 正則化は、L0 ノルム正則化とも呼ばれます。

アイコンをクリックすると、追加のメモが表示されます。

一般に、大規模モデルでは L₀ 正則化は実用的ではありません。 L₀ 正則化は、トレーニングを凸面最適化の問題です。

L₁ 損失

#fundamentals

絶対値を計算する損失関数 実際のラベル値と モデルが予測する値。たとえば、ここでは バッチが 5 の場合の L₁ 損失の計算例:

サンプルの実際の値	モデルの予測値	デルタの絶対値
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ 損失

L₁ 損失は外れ値の影響を受けにくい L₂ 損失よりも高くなります。

平均絶対誤差は、例あたり L₁ 損失。

アイコンをクリックすると、正式な計算が表示されます。

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

ここで

$n$ は、例の数です。
$y$ はラベルの実際の値です。
$\hat{y}$ は、モデルが $y$ について予測した値です。

L₁ 正則化

#fundamentals

ペナルティを課す正則化の一種絶対値の合計に比例する重みあります。L₁ 正則化により、関連性のない要素の重みが促進されるほとんど関連性のない特徴をゼロにします。次の特徴: 重み 0 は、モデルから実質的に削除されます。

対照的に、L₂ 正則化です。

L₂ 損失

#fundamentals

二乗を計算する損失関数 実際のラベル値と モデルが予測する値。たとえば、ここでは バッチが 5 の場合の L₂ 損失の計算例:

サンプルの実際の値	モデルの予測値	三角形
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ 損失

二乗によって、L₂ の損失は 外れ値。つまり、L₂ の損失は、悪い予測に対してよりも強い反応を示す L₁ 損失。たとえば L₁ 損失は、前のバッチでは 16 ではなく 8 になります。1 つの Pod が外れ値は 16 個のうち 9 個を占めます。

通常、回帰モデルでは L₂ 損失を使用します。使用します。

平均二乗誤差は、例あたり L₂ 損失。 二乗損失は L₂ 損失の別名です。

アイコンをクリックすると、正式な計算が表示されます。

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

ここで

$n$ は、例の数です。
$y$ はラベルの実際の値です。
$\hat{y}$ は、モデルが $y$ について予測した値です。

L₂ 正則化

#fundamentals

ペナルティを課す正則化の一種重みの二乗の和に比例した重み。 L₂ 正則化は、外れ値の重み（ 0 に近いものの、0 に近い値を指定します。値が 0 に非常に近い特徴はモデルに残るモデルの予測にはあまり影響しません

L₂ 正則化は常に 線形モデル。

対照的に、L₁ 正則化です。

ラベル

#fundamentals

教師あり ML では、「応答」または「result」（例の一部）。

各ラベル付きサンプルは、1 つ以上の特徴とラベルです。たとえば場合、ラベルはおそらく「Spam」かまたは [迷惑メールではない] を選択します。降水量データセットでは、ラベルは降水量特定期間に降った雨

ラベル付きサンプル

#fundamentals

1 つ以上の特徴量と label。たとえば、次の表では 3 つの住宅評価モデルからラベル付きサンプルを取得、それぞれに 3 つの特徴 1 つのラベル:

寝室の数	浴室数	築年数	住宅価格（ラベル）
3	2	15	345,000 ドル
2	1	72	179,000 ドル
4	2	34	39 万 2,000 ドル

教師あり ML では、ラベル付きサンプルでトレーニングされ、 ラベルなしのサンプル。

ラベル付きサンプルとラベルなしサンプルを対比します。

ラムダ

#fundamentals

正則化率と同義。

ラムダは過負荷な項です。ここでは、データの有効活用に 正則化で定義できます。

レイヤ

#fundamentals

一連のニューロンが ニューラルネットワーク。一般的な 3 種類のレイヤ次のとおりです。

入力レイヤ: すべてのレイヤに値を提供します。機能。
1 つ以上の非表示レイヤ。非線形の関係になります
出力レイヤ。予測を提供します。

たとえば、次の図は、ニューラルネットワークを 1 つの入力層、2 つの隠れ層、1 つの出力層です。

1 つの入力層、2 つの隠れ層、1 つの隠れ層を持つニューラルネットワーク
出力レイヤです。入力レイヤは 2 つの特徴で構成されています。最初の
隠れ層は 3 つのニューロンと 2 つ目の隠れ層で構成されている
2 つのニューロンで構成されています出力レイヤは単一のノードで構成されます。

TensorFlow では、レイヤも Python 関数であり、 テンソルと構成オプションを入力および他のテンソルを出力として生成します。

学習率

#fundamentals

勾配降下法を示す浮動小数点数重みとバイアスをどれだけ強く調整するかを iteration。たとえば、学習率が 0.3 の場合、重みとバイアスの調整が学習率の 3 倍に向上 0.1 です。

学習率は重要なハイパーパラメータです。次の値を設定した場合: 学習率が低すぎると、トレーニングに時間がかかりすぎます。条件学習率の設定が高すぎると、勾配降下法で問題が発生することが収束に到達する。

アイコンをクリックすると、数学的な説明を確認できます。

反復処理のたびに、勾配降下法アルゴリズムは、勾配によって学習します結果として得られる積は、 勾配ステップ。

リニア

#fundamentals

単独で表現できる 2 つ以上の変数間の関係加算と乗算で計算されます

線形関係のプロットは線です。

「nonlinear」は対照的です。

線形モデル

#fundamentals

1 つの重みを 1 つ割り当てるモデル 機能: 予測を行います。（線形モデルにはバイアスも組み込まれています）。一方 ディープモデルでの予測と特徴量の関係通常はnonlinearです。

線形モデルは通常トレーニングが簡単で、ディープモデルよりも解釈可能です。ただし、ディープモデルでは、特徴間の複雑な関係を学習できます。

線形回帰と ロジスティック回帰は、2 種類の線形モデルです。

アイコンをクリックすると、計算式が表示されます。

線形モデルは次の式に従います。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

ここで <ph type="x-smartling-placeholder">

生の予測です。（特定の種類の線形モデルでは、未加工の予測はさらに変更されます。例については、以下をご覧ください。 ロジスティック回帰。
b はバイアスです。
w は重みなので、w₁ は最初の特徴量の重み。w₂ はといった具合です。
x は特徴量なので、x₁ は x₂ は 2 番目の特徴量の値、といった具合です

で確認できます。たとえば、3 つの特徴量の線形モデルがバイアスと重み: <ph type="x-smartling-placeholder">

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

で確認できます。したがって、3 つの特徴（x₁、x₂、 x₃ など）、線形モデルでは次の式が使用されます。各予測を生成します。

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

特定の例に次の値が含まれているとします。

x₁ = 4
x₂ = -10
x₃ = 5

で確認できます。これらの値を数式に組み込むと、この例の予測が生成されます。

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

線形モデルには、一次方程式のみを使用するモデルだけでなく、予測を行うだけでなく、一次方程式を使用する幅広いモデルも予測を行う式の 1 つの要素にすぎませんたとえばロジスティック回帰では 0 ～ 1 の間の最終的な予測値を生成します。あります。

線形回帰

#fundamentals

次の両方に該当する ML モデルのタイプ。

このモデルは線形モデルです。
予測は浮動小数点値です。（ 線形回帰の回帰部分）

線形回帰とロジスティック回帰を比べます。また、回帰と分類を対比します。

ロジスティック回帰

#fundamentals

確率を予測する回帰モデルの一種。ロジスティック回帰モデルには次の特徴があります。

ラベルはカテゴリです。ロジスティックという用語回帰は通常、二項ロジスティック回帰、つまり 2 つの有効な値を持つラベルの確率を計算するモデルに与えられます。あまり一般的でないバリアントである多項ロジスティック回帰では、以下を計算します。取り得る値が 3 つ以上あるラベルの確率です。
トレーニング中の損失関数は Log Loss です。（ラベル用に複数のログ損失ユニットを並行して配置できる指定することもできます。）
このモデルは、ディープニューラルネットワークではなく、線形アーキテクチャを採用しています。ただし、この定義の残りの部分は、確率を予測するディープモデル 使用します。

たとえば、ロジスティック回帰モデルでスパムか、そうでないかの確率です。推論の際に、モデルが 0.72 と予測したとします。したがって、次を予測:

72% の確率でスパム
メールが迷惑メールではない確率は 28%。

ロジスティック回帰モデルでは、次の 2 段階のアーキテクチャを使用します。

モデルは、一次関数を適用して未加工の予測（y'）を生成する学習します。
モデルはその生の予測を入力として シグモイド関数は元のデータを範囲（0 と 1 は含まない）で表現されます。

他の回帰モデルと同様に、ロジスティック回帰モデルは数値を予測します。ただし、この数値は通常、バイナリ分類の一部になります。次のように設定します。

予測された数値が実際の数値よりも大きい場合、 分類しきい値、バイナリ分類モデルが陽性のクラスを予測します。
予測数が分類しきい値より小さい場合、バイナリ分類モデルは陰性のクラスを予測します。

ログ損失

#fundamentals

バイナリで使用される損失関数 ロジスティック回帰。

アイコンをクリックすると、計算式が表示されます。

ログ損失は、次の式で計算されます。

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

ここで

$(x,y)\in D$ は、多数のラベル付きを含むデータセットです。例の $(x,y)$ ペアです。
$y$ は、ラベル付きサンプルのラベルです。これはロジスティック回帰なので $y$ のすべての値は 0 または 1 にする必要があります。
$y'$ は予測値（0 ～ 1 の範囲内、0 と 1 は含まない）です。 $x$の機能セットに対して

対数オッズ

#fundamentals

ある事象が発生する確率の対数。

アイコンをクリックすると、計算式が表示されます。

事象が 2 項確率の場合、オッズは成功の確率（p）と失敗します（1-p）。たとえば、特定のイベントの 10% の確率ですこの例ではオッズは次のように計算されます。

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

対数オッズは単純にオッズの対数です。通常、 "対数"意味自然対数対数は実際には、1 より大きい任意の底にすることができます。慣例により、この例の対数オッズは次のようになります。

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

対数オッズ関数は、 シグモイド関数。

損失

#fundamentals

トレーニングの 教師ありモデル: モデルの予測はラベルから取得されます。

損失関数は損失を計算します。

損失曲線

#fundamentals

トレーニング数の関数としての損失のプロット iterations。次のプロットは、一般的な損失曲線:

損失とトレーニングの反復処理のデカルトグラフ。
初期のイテレーションで損失が急激に減少し、その後徐々に
傾きは緩やかで、最後のイテレーションで傾きは緩やかです。

損失曲線は、モデルがトレーニング中に収束または過学習。

損失曲線では、以下のすべての種類の損失をプロットできます。

トレーニングの損失
検証損失
テスト損失

一般化曲線もご覧ください。

損失関数

#fundamentals

トレーニングまたはテスト中、次の数値を計算する数学関数では、例のバッチに対する損失です。損失関数は、1 対 1 の会話から予測を行うモデルよりも、精度の高い検出できます。

トレーニングの目標は通常、損失関数によって生成される損失を返されます。

さまざまな種類の損失関数が存在します。適切な損失を選択するモデルの種類に応じて適切に分類します例:

L₂ 損失（または平均二乗誤差） 線形回帰の損失関数です。
ログ損失は、ログ損失関数 ロジスティック回帰。

M

機械学習

#fundamentals

トレーニングするプログラムまたはシステム入力データからモデルを取得する。トレーニング済みモデルは生成された新しい（未知の）データから有用な予測を行うモデルのトレーニングに使用したのと同じ分布になります。

ML は、関連する研究分野を指すこれらのプログラムやシステムとは関係ありません

多数派クラス

#fundamentals

より一般的なラベルは、 クラス不均衡なデータセット。たとえば 99% の負のラベルと 1% の正のラベルを含むデータセットを負のラベルはマジョリティクラスです

「少数派」は対照的です。

ミニバッチ

#fundamentals

バッチの小さなランダムに選択されたサブセットを 1 つのバッチで処理する iteration。ミニバッチのバッチサイズは通常、 10 ～ 1,000 サンプル。

たとえば、トレーニングセット全体（完全なバッチ）があるとします。 1,000 個の例で構成されています。さらに、先ほど定義した値に各ミニバッチのバッチサイズを 20 にします。したがって、反復処理により、1,000 個のサンプルのうちランダムな 20 個に対する損失がそれに応じて重みとバイアスを調整します。

ミニバッチでの損失を計算する方が、サンプル全体の損失がわかります

少数派の階級

#fundamentals

カテゴリではあまり一般的でないラベルが クラス不均衡なデータセット。たとえば 99% の負のラベルと 1% の正のラベルを含むデータセットを正のラベルは少数派のクラスです

「マジョリティクラス」は対照的です。

アイコンをクリックすると、追加のメモが表示されます。

100 万個のサンプルの音を含むトレーニングセットお見事です。ただし、少数派のクラスが適切に表現されていない場合、非常に大きなトレーニングセットでも不十分な場合があります。集中するデータセット内の例の合計数や少数派のクラスの例を取り上げています

データセットに少数派のクラスのサンプルが十分にない場合は、次のことを検討してください。ダウンサンプリング（を使用し、マイノリティのクラスを補完します。

モデル

#fundamentals

一般に、入力データを処理して結果を返す数学的構造は出力です。言い換えると、モデルとは一連のパラメータと構造を指す必要な時間を表します。 教師あり ML では、モデルは例を入力として受け取り、出力としての予測。教師あり ML では、若干異なります。例:

線形回帰モデルは一連の重み バイアス。
ニューラルネットワーク モデルは、次の要素で構成されます。 <ph type="x-smartling-placeholder">
- 一連の非表示レイヤ。各レイヤには 1 つまたは複数のレイヤが含まれます。より多くのニューロン。
- 各ニューロンに関連付けられた重みとバイアス。
ディシジョンツリーモデルは次の要素で構成されます。 <ph type="x-smartling-placeholder">
- 木の形状つまり、条件が満たされるパターン葉がつながっています
- 条件と出発。

モデルを保存、復元、コピーできます。

教師なし ML にもモデルを生成します。通常は、入力サンプルをモデルに最適なクラスタを選択する。

アイコンをクリックすると、代数関数やプログラミング関数と ML モデルを比較できます。

次のような代数関数は、モデルです。

  f(x, y) = 3x -5xy + y² + 17

上記の関数は入力値（x と y）を出力です。

同様に、次のようなプログラミング関数もモデルです。

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

呼び出し元は、先行する Python 関数に引数を渡し、 Python 関数は出力を生成します（return ステートメントを使用）。

ディープニューラルネットワークは数学的構造が、代数やプログラミングのディープニューラルネットワークは、入力（例）を受け取り、出力（予測）で構成されます。

人間のプログラマーがプログラミング関数を手動でコーディングします。一方 ML モデルは、最適なパラメータを徐々に学習していきます。自動トレーニングで行われます。

マルチクラス分類

#fundamentals

教師あり学習における分類の問題データセットに含まれるラベルの クラスが 3 つ以上である。たとえば、Iris データセットのラベルは次のいずれかである必要があります。 3 つのクラスがあります。

アヤメ属セトサ
アイリスバージニカ
アイリスベルシカラー

新しいサンプルでアヤメの種類を予測する、虹彩データセットでトレーニングされたモデルマルチクラス分類です。

対照的に、正確に 2 つを区別する分類問題は、クラスはバイナリ分類モデルです。たとえば、迷惑メールか非迷惑メールかを予測するメールモデルなどバイナリ分類モデルです。

クラスタリング問題では、マルチクラス分類とは 2 つのクラスタがあります。

N

陰性クラス

#fundamentals

バイナリ分類では、1 つのクラスこれを正と呼び、もう一方を負と呼びます。陽性のクラスはネガティブクラスとは、モデルがテストする対象やイベント、可能性があります。例:

医学的検査の陰性クラスは「がんでない」かもしれません。
メール分類器のネガティブクラスは「迷惑メールではない」かもしれません。

一方、ポジティブクラスは、

ニューラルネットワークの

#fundamentals

少なくとも 1 つを含むモデル 隠れ層。 ディープニューラルネットワークは、ニューラルネットワークの一種である隠れ層を含んでいます。たとえば、次の図では 2 つの隠れ層を含むディープニューラルネットワークを示しています。

入力層、2 つの隠れ層、1 つの隠れ層を持つニューラルネットワーク
出力レイヤです。

ニューラルネットワーク内の各ニューロンは、次のレイヤのすべてのノードに接続します。たとえば、上の図では、3 つのニューロンのそれぞれが最初の隠れ層にある 2 つのニューロンに個別に接続し、レイヤに分割されます。

コンピュータに実装されたニューラルネットワークは、 人工ニューラルネットワークによって、脳や他の神経系で見られるニューラルネットワークです。

非常に複雑な非線形関係を模倣できるニューラルネットワークもあるモデルに与える影響です

畳み込みニューラルネットワークもご覧ください。 回帰型ニューラルネットワーク。

ニューロン

#fundamentals

ML における隠れ層内の個別の単位 ニューラルネットワークのものです。各ニューロンは次の処理を実行する 2 段階の対策:

入力値に掛け合わせた加重合計を計算します重み付けされます。
入力として加重合計を 活性化関数。

最初の隠れ層のニューロンは特徴値からの入力を受け入れる 入力レイヤ:隠れ層のニューロンは前者は前の隠れ層のニューロンからの入力を受け入れます。たとえば、2 つ目の隠れ層のニューロンは、隠れ層にあるニューロンのみです。

次の図では、2 つのニューロンとできます。

入力層、2 つの隠れ層、1 つの隠れ層を持つニューラルネットワーク
出力レイヤです。2 つのニューロンがハイライト表示されています（最初のニューロンが 1 つ）。
もう 1 つは隠れ層です。ハイライト表示された
最初の隠れ層のニューロンは両方の特徴からの入力を受け取る
渡されます。2 番目の隠れ層でハイライト表示されたニューロン
最初の隠れ層で 3 つのニューロンのそれぞれから入力を受け取り、
レイヤです。

ニューラルネットワークのニューロンは、脳の中のニューロンの挙動を模倣しています。神経系のその他の部分にも影響します。

ノード（ニューラルネットワーク）

#fundamentals

隠れ層のニューロン。

nonlinear

#fundamentals

単独では表現できない 2 つ以上の変数間の関係加算と乗算で計算されます線形関係線で表すことができます。nonlinearの関係は線で表されます。たとえば、2 つのモデルはそれぞれ 1 つのラベルにマッピングできます左側のモデルは線形モデルで右のモデルは非線形です。

2 つのプロット。一方のプロットは直線であるため、これは直線関係です。
もう 1 つのプロットは曲線なので、これは非線形の関係です。

非定常性

#fundamentals

1 つ以上のディメンションで値が変化する特徴（通常は時間）。たとえば、次のような非定常性について考えてみましょう。

特定の店舗で販売されている水着の数は、季節によって異なります。
特定の地域での特定の果物の収穫量ほとんどの期間はゼロですが、短期間では大きな値になります。
気候変動により、年間平均気温は変化しています。

一方、定常性とは対照的です。

正規化

#fundamentals

大まかに言うと、変数の実際の範囲を変換するプロセスが値を標準の値範囲に変換できます。

-1 ～+1
0 to 1
正規分布

たとえば、ある特徴の値の実際の範囲が 800 ～ 2,400 人。特徴量エンジニアリングの一環として実際の値を標準範囲に正規化できます。たとえば、 -1 ～+1 の範囲で設定できます

正規化は、データアナリストが 特徴量エンジニアリング。通常はモデルのトレーニングが速く予測の精度を上げることができます。 特徴ベクトルの範囲はほぼ同じです。

数値データ

#fundamentals

整数または実数として表される特徴量。たとえば住宅の評価モデルでは、数値データとして収集されます。表現数値データは特徴値の値が変化したときにラベルとの数学的関係。つまり、1 つの住宅の平方メートル数は、住宅の価値と数学的な関係です

すべての整数データを数値データとして表す必要はありません。たとえば一部の地域では、郵便番号は整数です。ただし整数のモデルで数値データとして表現すべきではありませんなぜなら、郵便番号（20000）は、郵便番号（20000）の 2 倍（または半分）にはなりません 10,000。さらに、郵便番号には違いがあることに相関関係がありますが、郵便番号の不動産価格が 20,000 は、郵便番号 10,000 では不動産価格の 2 倍の価値があります。郵便番号はカテゴリデータで表す必要があります。してください。

数値特徴量は特徴量エンジニアリングで 継続的な機能。

O

オフライン

#fundamentals

静的と同義。

オフライン推論

#fundamentals

モデルが予測のバッチを生成するプロセス予測をキャッシュに保存（保存）します。これにより、アプリは推測されたキャッシュから予測を行う方が効率的です。

たとえば、地域の天気予報を生成するモデルについて考えてみましょう。（予測）を 4 時間に 1 回実行します。モデルが実行されるたびにシステムはすべての現地天気予報をキャッシュに保存します。天気アプリが天気予報を取得するキャッシュから取り出します。

オフライン推論は静的推論とも呼ばれます。

対照的に、オンライン推論は、

ワンホットエンコード

#fundamentals

カテゴリデータをベクトルとして表現すると、次のようになります。

1 つの要素は 1 に設定されます。
その他の要素はすべて 0 に設定されます。

ワンホットエンコーディングは、文字列や識別子を表すために取り得る値の集合が限られています。たとえば、この名前が付いた特定のカテゴリ特徴を Scandinavia には次の 5 つの値があります。

"デンマーク"
"スウェーデン"
「ノルウェー」
「フィンランド」
「アイスランド」

ワンホットエンコーディングでは、5 つの値をそれぞれ次のように表すことができます。

country	ベクトル
"デンマーク"	1	0	0	0	0
"スウェーデン"	0	1	0	0	0
「ノルウェー」	0	0	1	0	0
「フィンランド」	0	0	0	1	0
「アイスランド」	0	0	0	0	1

ワンホットエンコーディングにより、モデルはさまざまなつながりを 5 か国それぞれについて予測しています

特徴を数値データとして表現することは、ワンホットエンコーディングの代替手段です。残念ながら、スカンジナビアの国は、数値的には良い選択ではありません。たとえば次の数値表現を考えてみましょう。

"デンマーク"0
"スウェーデン"は 1
「ノルウェー」は 2
「フィンランド」3
「アイスランド」4

数値エンコードの場合、モデルは生の数値を解釈します。それらの数値でトレーニングを試みますしかし、アイスランドの人口の 2 倍（または半分）はありません。そのため、モデルは奇妙な結論を導き出します。

1 対すべて

#fundamentals

N 個のクラスを含む分類問題の場合、 N 個の個別のバイナリ分類器 - 特定のタイプに対する 1 つのバイナリ分類器可能性があります。たとえば、サンプルを分類するモデルがあるとします。 1 対 1 のソリューションで次の 3 つの独立したバイナリ分類器です。

動物か、動物ではないか
野菜 vs 野菜なし
ミネラルと非ミネラル

online

#fundamentals

動的と同義。

オンライン推論

#fundamentals

オンデマンドで予測を生成する。たとえばアプリが入力をモデルに渡して、できます。オンライン推論を使用するシステムは、次を実行してリクエストに応答します。（そして予測をアプリに返す）。

対照的なオフライン推論は、

出力層

#fundamentals

「ファイナル」学びます。出力レイヤには予測が含まれます。

次の図は、入力を使用した小規模なディープニューラルネットワークを示しています。 2 つの隠れ層、出力層の 1 つです。

過学習

#fundamentals

モデルを トレーニングデータが近すぎるほど、モデルがトレーニングに失敗する新しいデータに対して正しい予測を行うことができます。

正則化によって過学習を減らすことができます。大規模で多様なトレーニングセットでトレーニングすると、過学習を減らすこともできます。

アイコンをクリックすると、追加のメモが表示されます。

過学習とは、お気に入りの人からのアドバイスに厳密に従うことに似ています。あります。その教師のクラスで成功するでしょうが、過学習の可能性その教師のアイデアに信頼感を与え、。複数の教師のアドバイスに従うと、次のことが可能になります。新しい状況に適切に適応します

P

pandas

#fundamentals

numpy 上に構築された列指向のデータ分析 API。多くの ML フレームワーク Pandas データ構造を入力としてサポートします。詳しくは、 pandas のドキュメントをご覧ください。

パラメータ

#fundamentals

モデルが学習する重みとバイアス トレーニング。たとえば、 線形回帰モデルの場合、パラメータは次の要素で構成されます。バイアス（b）とすべての重み（w₁、w₂）をなど）を次の式に代入します。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

これに対して、ハイパーパラメータはハイパーパラメータチューニングサービス。たとえば、学習率はハイパーパラメータです。

陽性クラス

#fundamentals

テスト対象のクラス。

たとえば、がんモデルにおける陽性のクラスは「tumor」となります。メール分類器における陽性のクラスは「迷惑メール」である可能性があります。

「ネガティブクラス」は対照的です。

アイコンをクリックすると、追加のメモが表示されます。

陽性のクラスという用語は混同されがちです。なぜなら、「陽性」は成果望ましくない結果になることがよくあります。たとえば、変数の陽性クラスは、多くの医学的検査は、がんや疾患に対応しています。通常は「おめでとうございます！テスト結果は陰性でした。」いずれにせよ、陽性のクラスは、テストが見つけようとしているイベントです。

確かに陽性と陰性の両方について同時にテストします。

後処理

#fairness

#fundamentals

モデルの実行後にモデルの出力を調整する。後処理を使用すると、制限なしで公平性の制約を適用できます。モデル自体を修正できます

たとえば、バイナリ分類器に後処理を適用できます。次のような分類しきい値を設定して、 機会の平等が維持されるこの場合は、真陽性率がその属性のすべての値で同じです。

予測

#fundamentals

モデルの出力。例:

バイナリ分類モデルの予測は、陽性または除外します。
マルチクラス分類モデルの予測は 1 つのクラスです。
線形回帰モデルの予測は数値です。

プロキシラベル

#fundamentals

ラベルを近似するために使用されるデータは、データセットでは直接利用できません。

たとえば、従業員を予測するモデルをトレーニングする必要があるとします。ストレスレベル。データセットには多くの予測特徴が含まれていますが、 ストレスレベルというラベルが含まれていません。気軽に「職場での事故」を選んでくださいプロキシラベルとしてストレスレベル。結局、強いストレスにさらされている従業員は、落ち着いて働く従業員より事故です。それともそのとおりですか？職場での事故や実際には複数の原因で増減しています

2 つ目の例として、「雨が降っていますか？」をブール値ラベルにするとします。データセットに降雨データが含まれていませんでした。条件写真がある場合は、「雨は降っていますか？」の代用ラベルとして「傘を持ってる」そうか適切なプロキシラベルでしょうか。その可能性はあるが、文化によっては日光から身を守るため、雨よりも傘を持って行く傾向にあります。

多くの場合、プロキシのラベルは完全ではありません。可能な場合は、実際のラベルではなく、プロキシラベルです。ただし、実際のラベルが存在しない場合は、プロキシを選択する慎重に検討し、最も影響の低いプロキシラベル候補を選択します。

R

RAG

#fundamentals

略語: 検索拡張生成。

評価者

#fundamentals

例のラベルを指定する人間。 "アノテーション作成者"評価者とも呼ばれます。

正規化線形ユニット（ReLU）

#fundamentals

次の動作の活性化関数:

入力が負またはゼロの場合、出力は 0 です。
入力が正の場合、出力は入力と等しくなります。

例:

入力が -3 の場合、出力は 0 です。
入力が +3 の場合、出力は 3.0 です。

ReLU のプロットを以下に示します。

ReLU はよく使われる活性化関数です。その単純な動作にもかかわらず ReLU によってニューラルネットワークは依然としてnonlinearを学習できる 特徴量とラベルの関係

回帰モデル

#fundamentals

非公式には数値予測を生成するモデル。（これとは対照的に、 分類モデルがクラスを生成 prediction.)たとえば、以下はすべて回帰モデルです。

特定の住宅の価値（423,000 ユーロなど）を予測するモデル。
ある樹木の寿命を予測するモデル（23.2 年など）。
特定の都市の雨量を予測するモデル 0.18 インチなど、今後の 6 時間にわたって大幅に改善されます。

一般的な回帰モデルには次の 2 種類があります。

線形回帰。最適な線を見つけます。ラベル値を特徴に合わせます
ロジスティック回帰。その後、システムが通常、クラスにマップする確率は 0.0 ～ 1.0 できます。

数値予測を出力するすべてのモデルが回帰モデルというわけではありません。場合によっては、数値予測が実際には単なる分類モデルになる数値のクラス名が含まれます。たとえばあるトピックについて数値の郵便番号は分類モデルであり、回帰モデルではありません。

正則化

#fundamentals

過学習を減らすメカニズム。よく使用される正則化のタイプは次のとおりです。

L₁ 正則化
L₂ 正則化
ドロップアウト正則化
早期停止（正式な過学習を効果的に制限できます）。

正則化は、モデルの複雑さに対するペナルティとしても定義できます。

アイコンをクリックすると、追加のメモが表示されます。

正則化は直感に反するものです。正則化を増やすと、通常はトレーニングの損失が増加します。これは混乱を招きます。トレーニングの損失を最小化することを目標にすべきでしょうか。

いいえ。目標はトレーニングの損失を最小限に抑えることではありません。目標は次のとおりです。実世界の例に対して優れた予測を行うのに役立ちます。驚くべきことに、正則化を増やすとトレーニングの損失が増加します。通常、精度が向上しています。

正則化率

#fundamentals

この数値は、指標の相対的な重要度を指定する 正則化。正則化率は過学習を低減しますが、モデルの予測能力を低下させます逆に、1 対 1 の会話の正則化率は過学習が増えます

アイコンをクリックすると、計算式が表示されます。

正則化率は通常、ギリシャ文字のラムダとして表されます。次の簡略化された損失方程式は、ラムダの影響:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

[Regularization] は、以下を含む任意の正則化メカニズムです。

L₁ 正則化
L₂ 正則化

ReLU

#fundamentals

正規化線形ユニットの略語。

検索拡張生成（RAG）

#fundamentals

予測結果の質を改善するための手法は、 大規模言語モデル（LLM）の出力モデルのトレーニング後に取得した知識のソースでグラウンディングします。 RAG は、トレーニング済みの LLM に次のものを提供することで、LLM の応答の精度を向上させます。信頼できるナレッジベースまたはドキュメントから取得した情報へのアクセス。

検索拡張生成を使用する一般的な動機は次のとおりです。

モデルで生成されるレスポンスの事実に基づく精度を高める。
トレーニングされていない知識へのアクセスをモデルに与える。
モデルが使用する知識を変更する。
モデルによるソースの引用を有効にする

たとえば、化学アプリが PaLM API を使用して要約を生成分析できますアプリのバックエンドがクエリを受信すると、バックエンドは次のことを行います。

ユーザーのクエリに関連するデータを検索（「取得」）します。
関連する化学データをユーザーのクエリに追加（「拡張」）します。
追加されたデータに基づいて要約を作成するように LLM に指示します。

ROC（受信者動作特性）曲線

#fundamentals

真陽性率と 偽陽性率: バイナリ形式の分類しきい値 あります。

ROC 曲線の形状は、バイナリ分類モデルの能力を陽性クラスと陰性クラスを分離します。たとえばバイナリ分類モデルでは、すべてのネガティブなすべての正のクラスからすべてのクラスから取得します。

右側に 8 個の正例と、
左側にネガティブサンプルが 7 個。

上のモデルの ROC 曲線は次のようになります。

ROC 曲線。X 軸は偽陽性率、Y 軸は
真陽性率です。曲線は逆 L 字型です。曲線
（0.0,0.0）から始まり、（0.0,1.0）まで直線的に立ち上がります。次に、曲線
（0.0,1.0）から（1.0,1.0）に移動します。

対照的に、次の図は、生のロジスティック回帰をグラフ化したものです。陰性クラスと陰性クラスを分離できないすべて肯定的なクラス:

正の例と負のクラスを含む数直線
完全に混在しています

このモデルの ROC 曲線は次のようになります。

ROC 曲線。実際には (0.0,0.0) からの直線である
（1.0,1.0）に変更します。

一方、現実の世界では、ほとんどのバイナリ分類モデルがある程度は検出できますが、通常は完璧ではありません。したがって、典型的な ROC 曲線は、

ROC 曲線。X 軸は偽陽性率、Y 軸は
真陽性率です。ROC 曲線は不安定な円弧に近似する
コンパスポイントを西から北に横断します。

理論的には、（0.0,1.0）に最も近い ROC 曲線上の点は、理想的な分類しきい値ですしかし現実には理想的な分類しきい値の選択に影響を与えます。たとえばおそらく偽陰性の方が偽陽性よりもはるかに苦労するでしょう。

AUC と呼ばれる数値指標は、ROC 曲線を単一の浮動小数点値を返します

二乗平均平方根誤差（RMSE）

#fundamentals

平均二乗誤差の平方根。

S

シグモイド関数

#fundamentals

「押しつぶす」数学関数入力値を制約された範囲に入れる、通常は 0 ～ 1 または -1 ～+1 です。つまり、任意の数（2、100 万、シグモイドに変換されても、出力は範囲が制限されています。シグモイド活性化関数のプロットは次のようになります。

シグモイド関数は、ML で次のようないくつかの用途があります。

元の画像の未加工の出力を ロジスティック回帰 多項回帰モデルを使用して、です。
一部の地域では活性化関数として機能する生成します。

アイコンをクリックすると、計算式が表示されます。

入力数値 x に対するシグモイド関数は、次の式になります。

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

ML では、x は通常 加重合計。

Softmax

#fundamentals

特定のクラスの確率を マルチクラス分類モデル。各単語の確率は正確に 1.0 に変更します。たとえば、次の表は、ソフトマックスが分散して可能性があります。

画像は...	確率
犬	0.85
猫	0.13
馬	0.02

ソフトマックスは、フルソフトマックスとも呼ばれます。

一方、候補サンプリングでは、

アイコンをクリックすると、計算式が表示されます。

ソフトマックスの式は次のとおりです。

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

ここで <ph type="x-smartling-placeholder">

$\sigma_i$ は出力ベクトルです。出力ベクトルの各要素この要素の確率を指定します。すべての要素の合計出力ベクトルの 1.0 です。出力ベクトルに同じ数が含まれています。ベクトル $z$ と表現します。
$z$ は入力ベクトルです。入力ベクトルの各要素には、各要素に浮動小数点値。
$K$ は入力ベクトル（および出力ベクトルのベクトル）が含まれます。

たとえば、次の入力ベクトルがあるとします。

[1.2, 2.5, 1.8]

したがって、ソフトマックスは次のように分母を計算します。

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

したがって、各要素のソフトマックス確率は次のようになります。

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

したがって、出力ベクトルは次のようになります。

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ の 3 つの要素の和は 1.0 です。さて、

スパースな特徴

#language

#fundamentals

値がほぼ 0 または空の特徴。たとえば、1 つの値と 100 万個の値を含む特徴は、です。一方、密な特徴には、大部分はゼロや空ではありません

ML では、驚くほど多くの特徴量がスパースな特徴量になっています。カテゴリ特徴量は通常、スパース特徴量です。たとえば、ある森林で見られる樹木 300 種のうち、単なるカエデの木を識別できるかもしれません。何百万もの動画ライブラリに含まれる可能性のある動画の数によって、1 つの例で “カサブランカ”と言います

モデルでは通常、スパースな特徴を ワンホットエンコーディング。ワンホットエンコーディングが大きい場合、 エンベディングレイヤをそのレイヤの上に配置できます。ワンホットエンコーディングを使用します。

スパース表現

#language

#fundamentals

スパースな特徴にゼロ以外の要素の位置のみを保存する。

たとえば、species という名前のカテゴリ特徴が 36 予測しています。さらに、各データセットが example は 1 種のみを識別します。

それぞれの例で、樹木の種類を表すワンホットベクトルを使用できます。ワンホットベクトルには、単一の 1 が含まれます（と 35 個の 0（ 35 種類の樹木。この例では該当なし）。ワンホット表現は、 maple は次のようになります。

位置 0 から 23 が値 0 を保持するベクトルは、
24 は値 1 を保持し、位置 25 から 35 は値 0 を保持します。

あるいは、スパース表現では単純に画像の位置を特定するだけで判断できますmaple が 24 番目である場合、スパース表現は maple は、単に次のようになります。

スパース表現は、ワンホット表現よりもはるかにコンパクトであることに必要があります。

少し複雑な例を見るには、アイコンをクリックします。

モデル内の各例が単語を表す必要があるが、実際には単語の順序を英語の文で表します。英語は約 170,000 語で構成されているため、英語はカテゴリカル約 170,000 個の要素がありますほとんどの英語の文には、 170,000 語のごく一部であり、ほぼ間違いなくスパースデータです

次の文を考えてみましょう。

My dog is a great dog

ワンホットベクトルのバリアントを使用して、この単語に含まれる単語をあります。このバリアントでは、ベクトルの複数のセルに指定することもできます。さらに、このバリアントでは、セルに整数値を含めることができます。あります。「my」、「is」、「a」、「great」という言葉は表示のみ単語「犬」は、表示されます。このバリアントを使用すると、この文内の単語を表すワンホットベクトルを作成すると、 170,000 要素ベクトル:

同じ文のスパース表現は、単純に次のようになります。

不明な場合は、アイコンをクリックします。

「スパース表現」という用語は、多くの人々を混乱させますが、 スパースベクトルではないということです。むしろ、スパーススパースベクトルの密表現です。類義語のインデックス表現は、スパース表現です。

スパースベクトル

#fundamentals

値がほぼゼロであるベクトル。関連情報: スパース feature と sparsity。

二乗損失

#fundamentals

L₂ 損失と同義。

static

#fundamentals

何かを連続して行うのではなく、一度だけ実行する。静的とオフラインという用語は同義語です。マシンでの静的とオフラインの一般的な用途は次のとおりです。学習:

静的モデル（またはオフラインモデル）は、一度トレーニングされたモデルです。使用しました。
静的トレーニング（またはオフライントレーニング）は、トレーニング静的モデルです。
静的推論（オフライン推論）は、予測のバッチをモデルが一度に生成するプロセスです。

「動的」とは対照的です。

静的推論

#fundamentals

オフライン推論と同義。

静止

#fundamentals

1 つ以上のディメンション（通常は時間）で値が変化しない特徴。たとえば、2021 年とほぼ同じ値に見える特徴が、 2023 年は静止しています。

実際には、静止している特徴はほとんどありません。均等な特徴安定性（海面など）の経時的な変化と同義です。

対照的に、非定常性です。

確率的勾配降下法（SGD）

#fundamentals

勾配降下法アルゴリズムでは、 バッチサイズは 1 です。つまり SGD は均一に選択された単一の例が トレーニングセットからランダムに抽出します。

教師あり ML

#fundamentals

特徴とその特徴からモデルをトレーニングする対応するラベル。教師あり ML は類似主題について学習するために、まず一連の問題と、対応する回答が返されます。質問と行動の間のマッピングをマスターしたら、生徒は新しい（未知の）解答に対して質問できます。

比較対象 教師なし ML。

合成特徴

#fundamentals

特徴は入力特徴に含まれないが、組み合わせたものです合成特徴の作成方法次の内容が含まれます。

連続する特徴を範囲ビンにバケット化します。
特徴クロスを作成する。
1 つの特徴値を他の特徴値で乗算（または除算）することもできます。たとえば、a と b が入力特徴の場合、合成特徴の例を次に示します。 <ph type="x-smartling-placeholder">
- AB
- A²
特徴値に超越関数を適用するたとえば、c の場合、が入力特徴の場合、合成特徴の例を次に示します。 <ph type="x-smartling-placeholder">
- sin(c)
- ln(c)

正規化またはスケーリングによって作成される特徴のみでは合成特徴とはみなされません。

T

テスト損失

#fundamentals

モデルの損失を表す指標 テストセット。モデルの構築時は、通常はテストの損失を最小化しようとします。これは、テストの損失が小さいと、低いトレーニング損失または低いものよりも強い品質シグナル低い検証損失。

テストの損失とトレーニングの損失または検証の損失との間に大きな差が生じることがある新しい P-MAX キャンペーンを 正則化率。

トレーニング

#fundamentals

理想的なパラメータ（重みとバイアスなど）をモデル化します。トレーニング中、システムは例を使用して、パラメータを段階的に調整します。トレーニングでは数千回から数十億回にのぼります

トレーニングの損失

#fundamentals

モデルの損失を表す指標必要があります。たとえば損失関数が 平均二乗誤差です。おそらく、トレーニングの損失（平均二乗誤差）は 2.2 で、トレーニングの損失は 100 回目の反復処理は 1.9 です。

損失曲線は、トレーニングの損失と損失を必要があります。損失曲線は、トレーニングに関する次のヒントを提供します。

下降する傾きはモデルが改善していることを意味します。
上昇する傾きはモデルが悪化していることを意味します。
傾きが平らな場合モデルが収束。

たとえば、次のやや理想化された損失曲線は、表示されます。

初期の反復処理で急な下降傾向にあるため、モデルを迅速に改善できます
終盤に近づくまで徐々に平坦になっていく（引き続き下向き）傾斜モデルの改善を続けていくことになりますが、初期の反復処理よりも遅いペースです。
トレーニングの終わりに近づくにつれて傾きが緩やかになり、収束を示しています。

トレーニングの損失と反復のプロット。この損失曲線は
示しています傾きは徐々に小さくなっていき、
傾きがゼロになります。

トレーニングの損失は重要ですが、 一般化。

トレーニングサービングスキュー

#fundamentals

トレーニング期間中のモデルのパフォーマンスの トレーニングと、同じモデルのパフォーマンスを配信。

トレーニングセット

#fundamentals

モデルのトレーニングに使用されるデータセットのサブセット。

従来、データセット内の例は次の 3 つにサブセットがあります。

トレーニングセット
検証セット
テストセット

理想的には、データセット内の各サンプルは、サブセットです。たとえば、1 つの例が 2 つのドメインに属する検証セットの両方が含まれます。

真陰性（TN）

#fundamentals

モデルが正しい予測を ネガティブクラス。たとえば、モデルは次の単語を特定のメールメッセージが迷惑メールではない場合、そのメールメッセージが実際に 迷惑メールではない。

真陽性（TP）

#fundamentals

モデルが正しい予測を 陽性クラス。たとえば、モデルは次の単語を特定のメールメッセージが迷惑メールであり、そのメールメッセージが本当に迷惑メールである。

真陽性率（TPR）

#fundamentals

再現率と同義。具体的には、次のことが求められます。

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

真陽性率は ROC 曲線の y 軸です。

U

学習不足

#fundamentals

予測能力の低いモデルを生成する。これは、モデルにトレーニングデータの複雑さを完全には把握できていません。多くの問題学習不足を引き起こす可能性があります。

間違った特徴のセットでトレーニングする。
トレーニングのエポックが少なすぎるか、低すぎる 学習率。
正則化率が高すぎるトレーニング。
1 つのコンテナに隠れ層を提供するのが少なすぎるニューラルネットワークです。

ラベルなしの例

#fundamentals

features は含まれているがラベルがない例。たとえば、次の表は、家のラベルのない 3 つの例を示しています。 3 つの特徴があり、住宅の価値は考慮しない:

寝室の数	浴室数	築年数
3	2	15
2	1	72
4	2	34

教師あり ML では、ラベル付きサンプルでトレーニングされ、 ラベルなしのサンプル。

半教師ありと 教師なし学習ラベルのないサンプルがトレーニングに使用されます

ラベルなしのサンプルとラベル付きサンプルを対比します。

教師なし ML

#clustering

#fundamentals

モデルをトレーニングして、データセット（通常はデータセットを作成します。

教師なし ML の最も一般的な用途は、 クラスタデータグループ化しますたとえば、教師なしマシンは学習アルゴリズムは、さまざまなプロパティに基づいて曲をクラスタ化できるあります。結果として得られるクラスタは、他のマシンへの入力としてたとえば、音楽レコメンデーションサービスに対して行います。有用なラベルが不足している場合や存在しない場合は、クラスタリングが役立ちます。たとえば、不正利用防止や不正行為対策などの分野では、クラスタが人間がデータをより深く理解できるようになります。

教師あり ML とは対照的です。

アイコンをクリックすると、追加のメモが表示されます。

教師なし ML のもう一つの例は、主成分分析（PCA）。たとえば、PCA を何百万ものショッピングカートの中身を含むデータセットから、ショッピングカートにレモンが入っていることが多いと、制酸薬もよく含まれていることがわかっています。

V

検証

#fundamentals

モデルの品質の初期評価。検証では、モデルの予測の品質を、 検証セット。

検証セットはトレーニングセットとは異なるため、検証により、過学習から保護できます。

検証セットに照らしてモデルを評価することは、モデルに照らしてテストと評価を行います テストセットを 2 回目のテストとして使用します。

検証損失

#fundamentals

モデルの損失を表す指標特定の期間における検証セット トレーニングの反復。

一般化曲線もご覧ください。

検証セット

#fundamentals

初期値を実行するデータセットのサブセットトレーニング済みモデルに対する評価です。通常トレーニング済みモデルを検証セットと照らし合わせて、評価してから、テストセットでモデルを評価します。

これまでは、データセット内のサンプルを次の 3 つに分けていました。サブセットがあります。

理想的には、データセット内の各サンプルは、サブセットです。たとえば、1 つの例が 2 つのドメインに属する検証セットの両方が含まれます。

W

weight

#fundamentals

モデルで別の値と乗算される値。 トレーニングは、モデルの理想的な重みを決定するプロセスです。推論とは、学習した重みを使用して、予測を行います。

アイコンをクリックすると、線形モデルの重みの例が表示されます。

2 つの特徴を持つ線形モデルを想像してみてください。トレーニングによって次の重み（ bias）:

バイアス b の値は 2.2 です。
1 つの特徴に関連付けられた重み w₁ は 1.5 です。
もう一方の特徴量の重み w₂ は 0.4 です。

次に、次の機能を持つ例について考えてみましょう。 values:

1 つの特徴の値 x₁ は 6 です。
もう一方の特徴量 x₂ の値は 10 です。

この線形モデルは、次の式を使用して予測を生成します。 y':

$$y' = b + w_1x_1 + w_2x_2$$

したがって、予測は次のようになります。

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

重みが 0 の場合、対応する特徴量は重みに行います。たとえば、w₁ が 0 の場合、x₁ の値は関係ありません。

加重合計

#fundamentals

関連するすべての入力値の合計に、対応する入力値を掛けた値トレーニングされます。たとえば、関連する入力が次のように構成されているとします。

入力値	入力の重み
2	-1.3
-1	0.6
3	0.4

したがって、加重合計は次のようになります。

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加重合計は、入力引数です。 活性化関数。

Z

Z スコア正規化

#fundamentals

スケーリング手法のひとつで、特徴値を表す浮動小数点値を持つ feature 値その特徴量の平均からの標準偏差の数たとえば、平均が 800 で標準の特徴が偏差は 100 です次の表に、Z スコアの正規化の仕組みを示します。未加工の値を Z スコアにマッピングします。

Raw 値	Z スコア
800	0
950	+1.5
575	-2.25

ML モデルは Z スコアでトレーニングする未加工の値ではなく特徴量の重みで表します

機械学習用語集: ML の基礎

A

accuracy

アイコンをクリックすると、追加のメモが表示されます。

活性化関数

アイコンをクリックすると例が表示されます。

人工知能

AUC（ROC 曲線の下の面積）

アイコンをクリックすると、AUC 曲線と ROC 曲線の関係を確認できます。

アイコンをクリックすると、AUC の正式な定義が表示されます。

B

誤差逆伝播法

batch

バッチサイズ

バイアス（倫理/公平性）

バイアス（数学）またはバイアス項

バイナリ分類

バケット化、

アイコンをクリックすると、追加のメモが表示されます。

C

カテゴリデータ

クラス

分類モデル

分類しきい値

アイコンをクリックすると、追加のメモが表示されます。

クラス不均衡なデータセット

クリッピング

混同行列

連続的な特徴

収束

D

DataFrame

データセットまたはデータセット

ディープモデル

密な特徴

深さ

離散特徴

動的

動的モデル

E

早期停止

アイコンをクリックすると、追加のメモが表示されます。

エンベディング レイヤ

エポック

例

F

偽陰性（FN）

偽陽性（FP）

偽陽性率（FPR）

特徴；特徴表現

特徴クロス

２つのステップが含まれます

アイコンをクリックすると、TensorFlow に関するその他の注意事項を確認できます。

機能セット

特徴ベクトル

フィードバック ループ

G

一般化

アイコンをクリックすると、追加のメモが表示されます。

一般化曲線

勾配降下法

グラウンド トゥルース

アイコンをクリックすると、追加のメモが表示されます。

H

隠れ層

ハイパーパラメータ

I

独立同分布（i.i.d）

推論

入力層

解釈可能性

繰り返し

L

L0 正則化

アイコンをクリックすると、追加のメモが表示されます。

L1 損失

アイコンをクリックすると、正式な計算が表示されます。

L1 正則化

L2 損失

アイコンをクリックすると、正式な計算が表示されます。

エンベディングレイヤ

フィードバックループ

グラウンドトゥルース

L₀ 正則化

L₁ 損失

L₁ 正則化

L₂ 損失

L₂ 正則化

ニューラルネットワークの

ノード（ニューラルネットワーク）

ワンホットエンコード