機械学習用語集: ML の基礎

このページには、ML の基礎に関する用語集が含まれています。すべての用語集で こちらをクリックしてください。

A

accuracy

#fundamentals

正しい分類予測の数で割った値 割った数値です具体的には、次のことが求められます。

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

例: 正解が 40、不正解が 10 のモデルが 精度:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

バイナリ分類では特定の名前が付けられる さまざまなカテゴリの正しい予測不正確な予測。バイナリ分類の精度式は、 内容は次のとおりです。

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

ここで

  • TP は真陽性(正しい予測)の数です。
  • TN は、真陰性(正しい予測)の数です。
  • FP は偽陽性(誤った予測)の数です。
  • FN は偽陰性(誤った予測)の数です。

2 つのモデルの精度を比較対照する precisionrecall

活性化関数

#fundamentals

ニューラル ネットワークが学習できるようにする機能 特徴間のnonlinear(複雑な)関係 学習します。

よく使用される活性化関数は次のとおりです。

活性化関数のプロットは、一本の直線ではありません。 たとえば、ReLU 活性化関数のプロットは次の要素で構成されます。 2 本の直線:

2 本の直線のデカルト プロット。最初の行には定数が
          x 軸に沿って -infinity,0 から 0,-0 までの y 値が 0。
          2 行目は 0,0 から始まります。この線の傾きは +1 なので、
          0,0 から +infinity,+infinity まで続きます。

シグモイド活性化関数のプロットは次のようになります。

領域をまたがる x 値を持つ 2 次元の曲線プロット
          - 無限大から + 正までの範囲で、y 値はほぼ 0 から正
          ほぼ 1 です。x が 0 の場合、y は 0.5 です。曲線の傾きは常に
          正の値で、最大傾きは 0.0.5 で、徐々に減少する
          x の絶対値が大きくなるにつれて傾きが小さくなります。

人工知能

#fundamentals

高度なタスクを解決できる、人間以外のプログラムまたはモデル。 たとえば、テキストを翻訳するプログラムまたはモデル、あるいは AI によって示された放射線画像から疾患を特定します。

ML は、正式には AI の一分野である インテリジェンスです。しかし近年、一部の組織では、 「AI」と「ML」を同じ意味で使用します。

AUC(ROC 曲線の下の面積)

#fundamentals

0.0 から 1.0 までの数字は、 バイナリ分類モデルの 正のクラスを分離する機能 ネガティブ クラス。 AUC が 1.0 に近いほど、モデルの 互いのクラスクラスを定義しています

たとえば、次の図は分類モデルを示しています。 正のクラス(緑の楕円)と負のクラスを分離する 完全にクエリできましたこの非現実的な完璧なモデルは AUC が 1.0 の場合:

片側に 8 つの正例がある数直線と、
          反対側に 9 つのネガティブ サンプルがあります。

逆に、次の図は分類器の結果を示しています。 モデルを定義します。このモデルの AUC は 0.5 です。

6 つの正例と 6 つの負例からなる数直線。
          サンプルの順序は、ポジティブ、ネガティブ、
          ポジティブ、ネガティブ、ポジティブ、ネガティブ、ポジティブ、ネガティブ、ポジティブ
          ネガティブ、ポジティブ、ネガティブです

はい。前のモデルの AUC は 0.5 です。0.0 ではありません。

ほとんどのモデルは、この 2 つの極端な中間にあります。たとえば、 陽性と陰性をある程度区別するため、 AUC が 0.5 ~ 1.0 の範囲内にある場合:

6 つの正例と 6 つの負例からなる数直線。
          ネガティブ、ネガティブ、ネガティブ、ネガティブ、
          ポジティブ、ネガティブ、ポジティブ、ポジティブ、ネガティブ、ポジティブ、ポジティブ、
          評価します

AUC では、 分類しきい値。AUC は は、可能性のあるすべての分類しきい値を考慮します。

B

誤差逆伝播法

#fundamentals

実装するアルゴリズムは、 勾配降下法 ニューラル ネットワーク

ニューラル ネットワークのトレーニングには多数の反復が必要 次の 2 段階のサイクルで行われます。

  1. フォワード パス中に、システムは次のバッチ : 予測を生成します。システムは各トークンを 予測を各ラベル値に付加します。違いは、 予測とラベル値はその例の損失です。 システムはすべてのサンプルの損失を集計して、合計値を計算します。 現在のバッチの損失です
  2. バックワード パス(バックプロパゲーション)の間は、損失が すべてのニューロンの重みを 非表示レイヤ

多くの場合、ニューラル ネットワークは多くの隠れ層にまたがって多くのニューロンを含んでいます。 これらのニューロンはそれぞれ、異なる形で全体的な損失に寄与しています。 誤差逆伝播法により重みの増減 適用できます。

学習率は、学習率を 各バックワード パスが各重みを増減する度合い。 学習率を大きくすると、各重みは 学習します。

計算では、誤差逆伝播法は チェーンルール。 微積分学から得られたものですつまり、誤差逆伝播法では 誤差の偏導関数 指定することもできます

数年前、ML の実務担当者は誤差逆伝播法を実装するためのコードを記述する必要がありました。 TensorFlow のような最新の ML API では、誤差逆伝播法が実装されています。さて、

batch

#fundamentals

1 回のトレーニングで使用されるのセット iterationバッチサイズにより、 使用します。

バッチがエポックの関係の詳細については、エポックをご覧ください。 示されます。

バッチサイズ

#fundamentals

バッチ内のの数。 たとえば、バッチサイズが 100 の場合、モデルは イテレーションあたり 100 の例。

一般的なバッチサイズ戦略は次のとおりです。

  • Stochastic Gradient Descent(SGD)。バッチサイズは 1 です。
  • フルバッチ。バッチサイズは、全体のサンプル数です。 トレーニング セット。たとえば、トレーニング セットが 100 万個の例が含まれる場合、バッチサイズは 100 万個になります。 説明します。フルバッチは通常、非効率的な戦略です。
  • ミニバッチ。バッチサイズは通常 10 と 1,000 です。ミニバッチは通常、最も効率的な戦略です。

バイアス(倫理/公平性)

#fairness
#fundamentals

1. 固定観念、偏見やえこひいき 表示することもできます。これらのバイアスは、データ収集や データの解釈、システムの設計、ユーザーとの 考えることができますこのタイプのバイアスには、次のようなものがあります。

2. サンプリングまたは報告手順によって生じる体系的なエラー。 このタイプのバイアスには、次のようなものがあります。

ML モデルのバイアス項と混同しないでください。 または予測バイアス

バイアス(数学)またはバイアス項

#fundamentals

原点からの切片またはオフセット。バイアスは モデルです。このアイコンは、名前が 次のとおりです。

  • b
  • W0

たとえば、バイアスは次の式の b です。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

2 次元の単純な直線では、バイアスは単に「y 切片」を意味します。 たとえば、次の図の線のバイアスは 2 です。

傾きが 0.5、バイアス(y 切片)が 2 の直線のプロット。

すべてのモデルが原点(0,0)から始まるわけではないため、バイアスが発生します。たとえば 遊園地への入場料は 2 ユーロで、 お客様の滞在 1 時間あたり 0.5 ユーロ。したがって、モデルにラベル 最も低いコストは 2 ユーロであるため、総コストのバイアスは 2 になります。

バイアスを倫理や公平性におけるバイアスと混同してはいけません または予測バイアス

バイナリ分類

#fundamentals

分類タスクの一種で、 次の 2 つの相互に排他的なクラスのいずれかを予測します。

たとえば、次の 2 つの ML モデルは、それぞれが バイナリ分類:

  • メール メッセージが 「迷惑メール」(肯定的なクラス)または「迷惑メール以外」(除外クラス)です。
  • 医学的症状を評価し、患者が 特定の疾患(陽性クラス)を持っているか、ない あります。

一方、マルチクラス分類は、

ロジスティック回帰分類しきい値

バケット化、

#fundamentals

1 つの特徴を複数のバイナリ特徴に変換する 「バケット」と呼び、 通常は値の範囲に基づきます。切り取られた対象物は通常、 継続的な機能

たとえば、温度を 1 つのパラメータで表すのではなく、 連続浮動小数点特徴を使用して、特定の温度範囲を 次のような個別のバケットに分割できます。

  • 摂氏 10 度以下は「寒い」あります。
  • 摂氏 11 ~ 24 度は「温帯」になりますあります。
  • 摂氏 25 度以上は「暖かい」あります。

モデルは、同じバケット内のすべての値を同じように扱います。対象 たとえば、1322 という値はどちらも一時バケット内にあるため、 モデルは 2 つの値を同じように扱います。

C

カテゴリデータ

#fundamentals

可能な値の特定のセットを持つ特徴量。たとえば traffic-light-state という名前のカテゴリ特徴を考えてみましょう。 次の 3 つの値のいずれかになります。

  • red
  • yellow
  • green

traffic-light-state をカテゴリ特徴として表すことで、 モデルは過去の情報を ドライバの動作に対する redgreenyellow のさまざまな影響。

カテゴリ特徴量は「カテゴリ特徴」とも呼ばれ 離散特徴

数値データは対照的です。

クラス

#fundamentals

ラベルが属することができるカテゴリ。 例:

  • バイナリ分類モデルで、 「Spam」の 2 つのクラスを「Spam」と「Not Spam」にできます。
  • マルチクラス分類モデルの場合 犬種を識別する場合、クラスは プードルビーグルパグ、 といった具合です

分類モデルはクラスを予測します。 これに対して、回帰モデルは です。

分類モデル

#fundamentals

予測がクラスであるモデル。 たとえば、すべて分類モデルは次のとおりです。

  • 入力文の言語を予測するモデル(フランス語、スペイン語ですか? イタリア語?)。
  • 樹木の種類(Maple、オーク?Baobab など)?
  • 特定のクラスに対する陽性または陰性のクラスを予測するモデル 健康状態に関するものです。

これに対して、回帰モデルは数値を予測します。 です。

一般的な分類モデルには次の 2 種類があります。

分類しきい値

#fundamentals

バイナリ分類では、 元の数値を変換する 0 ~ 1 の数値で ロジスティック回帰モデル 陽性のクラスの予測に変換する またはネガティブ クラス。 分類しきい値は人間が選択する値ですが、 モデル トレーニングで選択された値ではありません。

ロジスティック回帰モデルは、0 ~ 1 の未加工の値を出力します。以下の手順を行います。

  • この未加工の値が分類しきい値を超える場合: 予測します。
  • この未加工の値が分類しきい値より小さい場合、 予測されます。

たとえば、分類しきい値が 0.8 であるとします。生の値が が 0.9 の場合、モデルは陽性のクラスと予測します。未加工の値が 0.7 の場合、モデルは陰性のクラスを予測します。

分類しきい値の選択は、分類のしきい値に 偽陽性偽陰性

クラス不均衡なデータセット

#fundamentals

分類問題のデータセットで、単語の総数は 各クラスのラベルの数が大きく異なる。 たとえば、2 つのラベルを持つバイナリ分類データセットを考えてみましょう。 次のように分割されます。

  • 1,000,000 個のネガティブラベル
  • 10 個の陽性ラベル

負のラベルと正のラベルの比率は 100,000 対 1 なので、 クラス不均衡なデータセットです

一方、次のデータセットはクラス不均衡ではありません。理由は次のとおりです。 正のラベルに対する負のラベルの比率は比較的 1 に近い:

  • 517 個のネガティブラベル
  • 483 個の陽性ラベル

マルチクラス データセットはクラス不均衡になることもあります。たとえば、次のようになります。 マルチクラス分類データセットもクラス不均衡である 他の 2 つよりもはるかに多くの例があります。

  • クラス「green」のラベル 1,000,000 個
  • クラス「purple」のラベル: 200 個
  • クラス「orange」の 350 個のラベル

エントロピーマジョリティ クラス、 および少数派クラス

クリッピング

#fundamentals

次のようにすることで外れ値を処理する手法 次のいずれかまたは両方を選択できます。

  • 最大値を超える特徴値を削減する 最小しきい値まで下がります
  • 最小しきい値を下回る特徴値の増加 設定します。

たとえば、特定の特徴量の値の 0.5% 未満が 40 ~ 60 の範囲外ですこの場合は、以下のことができます。

  • 60(最大しきい値)を超えるすべての値をクリップして、ちょうど 60 にします。
  • 40(最小しきい値)未満のすべての値をクリップして、ちょうど 40 にします。

外れ値によってモデルが破損することがあり、場合によっては重みの原因となる オーバーフローしますまた、異常値によって、 accuracy などの指標。クリッピングは、 低減します。

勾配のクリッピング力 トレーニング中の指定範囲内の勾配値。

混同行列

#fundamentals

正しい予測と誤った予測の数を要約する NxN テーブル 分類モデルで作成されたものです。 たとえば、事前トレーニング済みモデルの次の混同行列について バイナリ分類モデル:

腫瘍(予測) がん以外(予測)
がん(グラウンド トゥルース) 18(TP) 1(FN)
がん以外(グラウンド トゥルース) 6(FP) 452(TN)

上記の混同行列は、次のことを示しています。

  • グラウンド トゥルースが腫瘍であった 19 の予測のうち、 モデルは正しく 18 と分類しましたが、誤って 1 に分類されました。
  • グラウンド トゥルースが非腫瘍であった 458 件の予測のうち、モデルは 正しく分類されたのは 452 で、誤って 6 に分類されました。

マルチクラス分類の混同行列 間違いのパターンを特定できます たとえば、3 つのクラスに対する次の混同行列について考えてみましょう。 3 種類のアヤメの種類を分類するマルチクラス分類モデル (Virginica、Versicolor、Setosa)。グラウンド トゥルースがバージニア州だったとき、 混同行列により、モデルが誤認する可能性が非常に高いことが セトサより Versicolor を予測する:

  セトサ(予測) バーシカラー(予測) バージニカ(予測)
Setosa(グラウンド トゥルース) 88 12 0
Versicolor(グラウンド トゥルース) 6 141 7
バージニカ(グラウンド トゥルース) 2 27 109

さらに別の例として、混同行列を見ると、モデルのトレーニングに 認識しようとすると、誤って 4 ではなく 9 と予測されがちです。 誤って 7 ではなく 1 と予測してしまったりします。

混同行列は、 適合率を含む、さまざまなパフォーマンス指標 再現率

連続的な特徴

#fundamentals

可能な範囲が無限にある浮動小数点特徴量 温度や重量などの値を生成します。

離散特徴とは対照的です。

収束

#fundamentals

損失値の変化がほとんどないか、またはほとんど変化していないときに到達する状態 イテレーションごとにはまったくありません。たとえば、次のようになります。 損失曲線は、約 700 回の反復で収束することを示唆しています。

デカルト プロット。X 軸は損失です。Y 軸はトレーニングの数、
          必要があります。最初の数回のイテレーションで損失が非常に大きくなりますが、
          急激に低下します100 回ほど繰り返した後も、損失はまだ
          緩やかなペースで下がります約 700 回のイテレーション後、
          損失は横ばいです

追加のトレーニングが収束しなかった場合にモデルが収束する モデルを改善します

ディープ ラーニングでは、損失値が一定または 最終的には降順になる前に 多くの反復処理でほぼ同じ結果が得られます長期間 収束していると一時的に感じてしまうことがあります。

早期停止もご覧ください。

D

DataFrame

#fundamentals

モデルを表す一般的な pandas データ型。 メモリ内のデータセット

DataFrame は、テーブルやスプレッドシートに似ています。各列は、 DataFrame には名前(ヘッダー)があり、各行は 一意の番号です。

DataFrame の各列は 2 次元配列のような構造になっていますが、 各列に独自のデータ型を割り当てることができます

公式ガイド pandas.DataFrame リファレンス のページをご覧ください。

データセットまたはデータセット

#fundamentals

元データの集まり。通常は(ただしそれに限定されない)が、 使用できます。

  • スプレッドシート
  • CSV(カンマ区切り値)形式のファイル

ディープモデル

#fundamentals

複数を含むニューラル ネットワーク 隠れ層

ディープモデルは、ディープ ニューラル ネットワークとも呼ばれます。

ワイドモデル」も参照してください。

密な特徴

#fundamentals

ほとんどまたはすべての値がゼロ以外の特徴量。通常は 浮動小数点値のTensor。たとえば、次のようになります。 10 要素テンソルは密集しています。これは、その値の 9 つがゼロでないためです。

8 3 7 5 2 4 0 4 9 6

一方、スパースな特徴量はスパースな特徴量です。

深さ

#fundamentals

ニューラル ネットワーク内の次の合計:

たとえば、5 つの隠れ層と 1 つの出力層を持つニューラル ネットワークが 深さは 6 です。

なお、入力レイヤは 影響の深さです

離散特徴

#fundamentals

取り得る値の有限のセットを持つ特徴量。たとえば 値が animalvegetablemineral のいずれかの値を持つ特徴は、 離散(またはカテゴリ)特徴量です。

継続的な機能」も参照してください。

動的

#fundamentals

頻繁に、または継続的に行われること。 動的とオンラインという用語は ML の類義語です。 マシンでの動的とオンラインの一般的な用途は次のとおりです。 学習:

  • 動的モデル(またはオンライン モデル)とは、 再トレーニングするデータに適しています
  • 動的トレーニング(またはオンライン トレーニング)はトレーニングのプロセス 向上させることができます
  • 動的推論(またはオンライン推論)は、 オンデマンドで予測を生成する場合などです。

動的モデル

#fundamentals

頻繁に(または継続的に)使用されるモデル 再トレーニングします。動的モデルは「生涯学習者」 進化するデータに絶えず適応します動的モデルは、ML モデルとも呼ばれます オンライン モデル

静的モデル」も参照してください。

E

早期停止

#fundamentals

正則化の手法で、 トレーニングの損失が完了する前トレーニング 減少しています早期停止では、モデルのトレーニングを意図的に停止します。 検証データセットの損失が始まった時点 increase;つまり 一般化のパフォーマンスは悪化します。

エンベディング レイヤ

#language
#fundamentals

トレーニング用の特別な隠れ層 高次元カテゴリ特徴を作成して、 下位次元のエンベディング ベクトルを徐々に学習します。「 エンべディング レイヤを使用することで、ニューラル ネットワークは 高次元カテゴリ特徴量だけをトレーニングするよりも効率的です。

たとえば、地球は現在約 73,000 種の樹木をサポートしています。仮説 樹木の種類はモデルの特徴量であるため、モデルの ワンホット ベクトルを含む 73,000 指定することもできます。 たとえば、baobab は次のように表されます。

73,000 個の要素からなる配列。最初の 6,232 個の要素が値を保持
     0.次の要素には値 1 が保持されます。残りの 66,767 個の要素は
     表示されます。

73,000 要素からなる配列は非常に長いです。エンベディング レイヤを追加しない場合 トレーニングに膨大な時間がかかります。 72,999 個のゼロを乗算しますエンベディング レイヤを 1 つのレイヤに 12 次元です。その結果、エンベディング レイヤは徐々に学習し、 新しいエンベディング ベクトルを作成します。

状況によっては、ハッシュ化が妥当な代替手段である エンベディング レイヤに渡します。

エポック

#fundamentals

トレーニング セット全体にわたるフル トレーニング パス 各 example が 1 回処理されるようにします。

エポックは N/バッチサイズを表す トレーニングの iterationsN は 例の総数です。

たとえば、次のように仮定します。

  • このデータセットは 1,000 件のサンプルで構成されています。
  • バッチサイズは 50 サンプルです。

したがって、1 回のエポックで 20 回の反復が必要になります。

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

#fundamentals

1 行の特徴量の値。場合によっては特徴量 ラベル。例 教師あり学習は 2 種類に分類できます。 一般カテゴリ:

  • ラベル付きサンプルは 1 つ以上の特徴で構成される です。ラベル付きサンプルはトレーニング中に使用されます。
  • ラベルなしのサンプルは、1 つ以上のサンプルで構成されます。 ラベルはありません。推論時にはラベルのないサンプルが使用されます。

たとえば、影響を判断するためにモデルをトレーニングするとします。 生徒のテストの点数にラベル付きの例を 3 つ示します。

機能 ラベル
温度 湿度 気圧 テストスコア
15 47 998 良い
19 34 1020 非常に良い
18 92 1012 悪い

ラベルのない例を 3 つ示します。

温度 湿度 気圧  
12 62 1014  
21 47 1017  
19 41 1021  

データセットの行は通常、サンプルの元のソースです。 つまり、例は通常、テーブル内の列のサブセットで構成されます。 表示されます。さらに、サンプルの特徴には、 合成特徴: 例: 特徴クロス

F

偽陰性(FN)

#fundamentals

モデルが誤った予測結果を提示した例は、 ネガティブ クラス。たとえば、モデルの 特定のメール メッセージが迷惑メールではないと予測する (否定クラス)であるにもかかわらず、そのメール メッセージは実際には迷惑メールです。

偽陽性(FP)

#fundamentals

モデルが誤った予測結果を提示した例は、 陽性クラス。たとえば、このモデルは 特定のメールが迷惑メール(ポジティブ クラス)であると同時に、 メールが実際には迷惑メールではないと判断される

偽陽性率(FPR)

#fundamentals

モデルが誤ってネガティブ サンプルを検出した割合 予測値を返します。次の数式は、偽 陽性率:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

偽陽性率は ROC 曲線の X 軸です。

特徴;特徴表現

#fundamentals

ML モデルへの入力変数。 は 1 つ以上の特徴で構成されますたとえば、モデルのトレーニング中に 気象条件が生徒のテストスコアに及ぼす影響を判断しました。 次の表に 3 つの例を示します。それぞれに 3 つの特徴量と 1 つのラベルです。

機能 ラベル
温度 湿度 気圧 テストスコア
15 47 998 92
19 34 1020 84
18 92 1012 87

label」は対照的です。

特徴クロス

#fundamentals

「交差」によって形成される合成特徴 カテゴリ特徴またはバケット化された特徴。

たとえば、「ムード予測」機能をトレーニング データを表す temperature を、次の 4 つのバケットのいずれかに分類します。

  • freezing
  • chilly
  • temperate
  • warm

風速を次の 3 つのバケットのいずれかで表します。

  • still
  • light
  • windy

特徴クロスを使用しない場合、線形モデルは 先行しますモデルのトレーニングには トレーニングとは無関係に、たとえば、freezing windy

別の方法として、温度と時間、ラベルの 風速ですこの合成特徴量には、次の 12 の可能な特徴があります。 values:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

特徴クロスにより、モデルは気分の違いを学習できる freezing-windyfreezing-still 日の間。

それぞれ多くの要素を持つ 2 つの特徴から合成特徴を作成する場合 結果として得られる特徴クロスには、非常に多くの できます。たとえば、1 つの特徴に 1,000 個のバケットがあり、 もう 1 つの特徴のバケットは 2,000 で、結果として得られる特徴クロスは 2,000,000 説明します。

十字形は デカルト積

特徴クロスは主に線形モデルで使用され、ほとんど使用されない 説明します

2つのステップが含まれます

#fundamentals
#TensorFlow

以下のステップを含むプロセス。

  1. 有用と思われる特徴を判断する 重要な役割を果たします
  2. データセットに含まれる元データを、 利用できます。

たとえば、temperature が有用であると判断できます。 機能。その後、バケット化の実験を行ってもかまいません。 モデルがさまざまな temperature 範囲から学習できる内容を最適化します。

特徴量エンジニアリングは 特徴抽出または 特徴量化

機能セット

#fundamentals

ML で使用する特徴のグループ model がトレーニングするデータ。 たとえば、郵便番号、物件の規模、物件の条件は、 住宅価格を予測するモデル用のシンプルな特徴セットで構成されています。

特徴ベクトル

#fundamentals

次の要素を構成する特徴値の配列 。特徴ベクトルは入力シーケンスの トレーニングおよび推論の際に使用します。 例: 2 つの個別の特徴を持つモデルの特徴ベクトル 例:

[0.92, 0.56]

4 つのレイヤ: 入力レイヤ、2 つの非表示レイヤ、1 つの出力レイヤ。
          入力レイヤには 2 つのノードがあり、1 つは値
          0.92 と 0.56 を含む 2 つのテーブルが作成されます。

特徴ベクトルの値は例ごとに異なるため、 特徴ベクトルは次のようになります。

[0.73, 0.49]

特徴量エンジニアリングでは、 予測します。たとえば、2 項カテゴリ特徴量とラベルが 5 つの可能な値が ワンホット エンコーディング。この場合、 特徴ベクトルは 4 つのゼロと 次のように、3 番目の位置に 1.0 を 1 つ作成します。

[0.0, 0.0, 1.0, 0.0, 0.0]

別の例として、モデルが次の 3 つの特徴で構成されているとします。

  • バイナリ カテゴリ特徴量で、次のラベルで表される 5 つの可能な値が ワンホット エンコーディング例: [0.0, 1.0, 0.0, 0.0, 0.0]
  • 3 つの可能な値が表現されている別のバイナリ カテゴリ特徴 ワンホット エンコーディングを使用します。例: [0.0, 0.0, 1.0]
  • 浮動小数点特徴例: 8.3

この場合、各サンプルの特徴ベクトルは 9 の値で表します。上のリストの値の例の場合、 特徴ベクトルは次のようになります。

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

フィードバック ループ

#fundamentals

ML において、モデルの予測がモデルのパフォーマンスに 同じモデルまたは別のモデルのトレーニング用データです。たとえば、あるモデルは おすすめの映画は ユーザーが見る映画に影響を及ぼし 後続の映画のレコメンデーション モデルに影響を与える。

G

一般化

#fundamentals

新しいモデルに対して正しい予測を行うモデルの能力 未知のデータを取り込むことができます一般化できるモデルはその逆 過学習しているモデルの

一般化曲線

#fundamentals

トレーニング損失検証損失iterations

一般化曲線は、将来起こり得る変化を 過学習。たとえば、次のようになります。 過学習が示唆されます。これは検証データの損失が 最終的にトレーニングの損失よりも 大幅に高くなります

Y 軸に損失と X 軸がラベル付けされたデカルトグラフ
          反復処理というラベルが付けられます2 つのプロットが表示されます。一方のプロットでは
          もう 1 つは検証の損失です
          2 つのプロットの初めは似ていますが、トレーニングの損失は最終的に
          下がります。

勾配降下法

#fundamentals

損失を最小限に抑える数学的手法。 勾配降下法は反復的に調整 重みバイアス 損失を最小限に抑えるため、徐々に最適な組み合わせを見つけ出します。

勾配降下法は、ML よりもずっと古い手法です。

グラウンド トゥルース

#fundamentals

現実。

実際に起こったことです。

たとえば、バイナリ分類を考えてみましょう。 大学 1 年生の学生が 6 年以内に卒業するでしょうこのモデルのグラウンド トゥルースは、 6 年以内に卒業したとは違います

H

隠れ層

#fundamentals

レイヤの間のニューラル ネットワークのレイヤは、 入力レイヤ(特徴量)と、 出力レイヤ(予測)。 各隠れ層は 1 つ以上のニューロンで構成されます。 たとえば、次のニューラル ネットワークには、隠れ層が 2 つ含まれています。 1 つ目には 3 つのニューロンがあり、2 つ目には 2 つのニューロンがあります。

4 つのレイヤ。最初のレイヤは 2 つのレイヤを含む入力レイヤで、
          説明します。第 2 層は隠れ層で、3 つの
          あります。3 つ目のレイヤは、2 つのレイヤを含む隠れ層で、
          あります。4 番目のレイヤは出力レイヤです。各特徴
          3 つのエッジがあり、それぞれが異なるニューロンを指している
          作成します。第 2 レイヤの各ニューロンは、
          2 つのエッジがあり、それぞれが異なるニューロンを指している
          レイヤに配置されます。第 3 階層の各ニューロンには、
          1 つのエッジが出力レイヤを指しています。

ディープ ニューラル ネットワークは複数の 隠されています。たとえば、上の図は、ディープ ニューラル ネットワーク 隠れ層が 2 つあるためです。

ハイパーパラメータ

#fundamentals

ハイパーパラメータ調整サービスによって実行される変数は、 モデルを継続的に調整する必要がありますたとえば 学習率はハイパーパラメータです。方法 トレーニング セッションの前に学習率を 0.01 に設定する。もし 0.01 が高すぎると判断した場合は、 トレーニング セッションでは 0.003 に設定します。

一方、パラメータは、 モデルに与えられた重みバイアス トレーニング中に学習します。

I

独立同分布(i.i.d)

#fundamentals

変化しない分布から取得されたデータと、各値が 描画されるものは、以前に描画された値に依存しません。ID 理想的なガスとは マシンの 有用な数学的構成要素だが、正確には いくつかあります。たとえば ウェブページにアクセスしたユーザーの分布や ID を指定できます。ごく短時間に測定されますつまり、分布は 1 人の訪問は一般的に 別のユーザーの訪問とは関係ありませんただし、その時間枠を広げると、 ウェブページの訪問者に季節的な差異が生じることがあります。

非定常性もご覧ください。

推論

#fundamentals

ML において、予測を行うプロセスは、 ラベルなしのサンプルにトレーニング済みモデルを適用する。

推論は、統計では若干異なる意味があります。 詳しくは、 <ph type="x-smartling-placeholder"></ph> 詳しくは、統計的推論に関するウィキペディアの記事をご覧ください。

入力層

#fundamentals

ニューラル ネットワークレイヤは、 は特徴ベクトルを保持します。つまり、入力レイヤが トレーニングを提供します。 推論。たとえば、次の入力レイヤでは、 ニューラル ネットワークは、

4 つのレイヤ: 入力レイヤ、2 つの非表示レイヤ、出力レイヤ。

解釈可能性

#fundamentals

ML モデルの推論を 人間が理解できる用語で表現します。

たとえば、ほとんどの線形回帰モデルは、 作成します。(各トレーニング済み重みを参照するだけで済みます。 feature.)デシジョン フォレストも非常に解釈しやすいものです。ただし一部のモデルでは 解釈可能にするには高度な可視化が必要です。

こちらの Learning Interpretability Tool(LIT) ML モデルを解釈します

繰り返し

#fundamentals

モデルのパラメータ(モデルのパラメータ)を 1 回更新すると、 重みバイアス - トレーニングをご覧ください。バッチサイズによって、 モデルが 1 回の反復で処理するサンプルの数。たとえば バッチサイズが 20 の場合、モデルは 調整する必要があります。

ニューラル ネットワークをトレーニングする場合は、1 回の反復処理 次の 2 つのパスがあります。

  1. 単一のバッチで損失を評価するためのフォワードパス。
  2. バックプロパゲーション(バックプロパゲーション)により、 モデルのパラメータを調整する必要があります。

L

L0 正則化

#fundamentals

正則化の一種で、 ゼロ以外の重み合計数にペナルティをかける です。たとえば、非ゼロの重みが 11 個あるモデルに ゼロ以外の重みを 10 個も持つ類似モデルよりもペナルティが高くなります。

L0 正則化は、L0 ノルム正則化とも呼ばれます。

L1 損失

#fundamentals

絶対値を計算する損失関数 実際のラベル値と モデルが予測する値。たとえば、ここでは バッチが 5 の場合の L1 損失の計算 :

サンプルの実際の値 モデルの予測値 デルタの絶対値
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 損失

L1 損失は外れ値の影響を受けにくい L2 損失よりも高くなります。

平均絶対誤差は、 例あたり L1 損失。

L1 正則化

#fundamentals

ペナルティを課す正則化の一種 絶対値の合計に比例する重み あります。L1 正則化により、関連性のない要素の重みが促進される ほとんど関連性のない特徴をゼロにします。次の特徴: 重み 0 は、モデルから実質的に削除されます。

対照的に、L2 正則化です。

L2 損失

#fundamentals

二乗を計算する損失関数 実際のラベル値と モデルが予測する値。たとえば、ここでは バッチが 5 の場合の L2 損失の計算 :

サンプルの実際の値 モデルの予測値 三角形
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 損失

二乗によって、L2 の損失は 外れ値。 つまり、L2 の損失は、悪い予測に対してよりも強い反応を示す L1 損失。たとえば L1 損失は、 前のバッチでは 16 ではなく 8 になります。1 つの Pod が 外れ値は 16 個のうち 9 個を占めます。

通常、回帰モデルでは L2 損失を使用します。 使用します。

平均二乗誤差は、 例あたり L2 損失。 二乗損失は L2 損失の別名です。

L2 正則化

#fundamentals

ペナルティを課す正則化の一種 重みの二乗の和に比例した重み。 L2 正則化は、外れ値の重み( 0 に近いものの、0 に近い値を指定します。 値が 0 に非常に近い特徴はモデルに残る モデルの予測にはあまり影響しません

L2 正則化は常に 線形モデル

対照的に、L1 正則化です。

ラベル

#fundamentals

教師あり ML では、 「応答」または「result」(の一部)。

ラベル付きサンプルは、1 つ以上の 特徴とラベルです。たとえば 場合、ラベルはおそらく「Spam」かまたは [迷惑メールではない] を選択します。降水量データセットでは、ラベルは降水量 特定期間に降った雨

ラベル付きサンプル

#fundamentals

1 つ以上の特徴量label。たとえば、次の表では 3 つの 住宅評価モデルからラベル付きサンプルを取得、それぞれに 3 つの特徴 1 つのラベル:

寝室の数 浴室数 築年数 住宅価格(ラベル)
3 2 15 345,000 ドル
2 1 72 179,000 ドル
4 2 34 39 万 2,000 ドル

教師あり ML では、 ラベル付きサンプルでトレーニングされ、 ラベルなしのサンプル

ラベル付きサンプルとラベルなしサンプルを対比します。

ラムダ

#fundamentals

正則化率と同義。

ラムダは過負荷な項です。ここでは、データの有効活用に 正則化で定義できます。

レイヤ

#fundamentals

一連のニューロンニューラル ネットワーク。一般的な 3 種類のレイヤ 次のとおりです。

たとえば、次の図は、ニューラル ネットワークを 1 つの入力層、2 つの隠れ層、1 つの出力層です。

1 つの入力層、2 つの隠れ層、1 つの隠れ層を持つニューラル ネットワーク
          出力レイヤです。入力レイヤは 2 つの特徴で構成されています。最初の
          隠れ層は 3 つのニューロンと 2 つ目の隠れ層で構成されている
          2 つのニューロンで構成されています出力レイヤは単一のノードで構成されます。

TensorFlow では、レイヤも Python 関数であり、 テンソルと構成オプションを入力および 他のテンソルを出力として生成します。

学習率

#fundamentals

勾配降下法を示す浮動小数点数 重みとバイアスをどれだけ強く調整するかを iteration。たとえば、学習率が 0.3 の場合、 重みとバイアスの調整が学習率の 3 倍に向上 0.1 です。

学習率は重要なハイパーパラメータです。次の値を設定した場合: 学習率が低すぎると、トレーニングに時間がかかりすぎます。条件 学習率の設定が高すぎると、勾配降下法で問題が発生することが 収束に到達する。

リニア

#fundamentals

単独で表現できる 2 つ以上の変数間の関係 加算と乗算で計算されます

線形関係のプロットは線です。

nonlinear」は対照的です。

線形モデル

#fundamentals

1 つの重みを 1 つ割り当てるモデル 機能: 予測を行います。 (線形モデルにはバイアスも組み込まれています)。一方 ディープモデルでの予測と特徴量の関係 通常はnonlinearです。

線形モデルは通常トレーニングが簡単で、 ディープモデルよりも解釈可能です。ただし、 ディープモデルでは、特徴間の複雑な関係を学習できます。

線形回帰ロジスティック回帰は、2 種類の線形モデルです。

線形回帰

#fundamentals

次の両方に該当する ML モデルのタイプ。

  • このモデルは線形モデルです。
  • 予測は浮動小数点値です。( 線形回帰回帰部分)

線形回帰とロジスティック回帰を比べます。 また、回帰と分類を対比します。

ロジスティック回帰

#fundamentals

確率を予測する回帰モデルの一種。 ロジスティック回帰モデルには次の特徴があります。

  • ラベルはカテゴリです。ロジスティックという用語 回帰は通常、二項ロジスティック回帰、つまり 2 つの有効な値を持つラベルの確率を計算するモデルに与えられます。 あまり一般的でないバリアントである多項ロジスティック回帰では、以下を計算します。 取り得る値が 3 つ以上あるラベルの確率です。
  • トレーニング中の損失関数は Log Loss です。 (ラベル用に複数のログ損失ユニットを並行して配置できる 指定することもできます。)
  • このモデルは、ディープ ニューラル ネットワークではなく、線形アーキテクチャを採用しています。 ただし、この定義の残りの部分は、 確率を予測するディープモデル 使用します。

たとえば、ロジスティック回帰モデルで スパムか、そうでないかの確率です。 推論の際に、モデルが 0.72 と予測したとします。したがって、 次を予測:

  • 72% の確率でスパム
  • メールが迷惑メールではない確率は 28%。

ロジスティック回帰モデルでは、次の 2 段階のアーキテクチャを使用します。

  1. モデルは、一次関数を適用して未加工の予測(y')を生成する 学習します。
  2. モデルはその生の予測を入力として シグモイド関数は元のデータを 範囲(0 と 1 は含まない)で表現されます。

他の回帰モデルと同様に、ロジスティック回帰モデルは数値を予測します。 ただし、この数値は通常、バイナリ分類の一部になります。 次のように設定します。

  • 予測された数値が実際の数値よりも大きい場合、 分類しきい値、 バイナリ分類モデルが陽性のクラスを予測します。
  • 予測数が分類しきい値より小さい場合、 バイナリ分類モデルは陰性のクラスを予測します。

ログ損失

#fundamentals

バイナリで使用される損失関数 ロジスティック回帰

対数オッズ

#fundamentals

ある事象が発生する確率の対数。

損失

#fundamentals

トレーニング教師ありモデル: モデルの予測ラベルから取得されます。

損失関数は損失を計算します。

損失曲線

#fundamentals

トレーニング数の関数としての損失のプロット iterations。次のプロットは、一般的な損失 曲線:

損失とトレーニングの反復処理のデカルトグラフ。
          初期のイテレーションで損失が急激に減少し、その後徐々に
          傾きは緩やかで、最後のイテレーションで傾きは緩やかです。

損失曲線は、モデルがトレーニング中に 収束または過学習

損失曲線では、以下のすべての種類の損失をプロットできます。

一般化曲線もご覧ください。

損失関数

#fundamentals

トレーニングまたはテスト中、 次の数値を計算する数学関数では、 例のバッチに対する損失です。損失関数は、1 対 1 の会話から 予測を行うモデルよりも、精度の高い 検出できます。

トレーニングの目標は通常、損失関数によって生成される損失を 返されます。

さまざまな種類の損失関数が存在します。適切な損失を選択する モデルの種類に応じて適切に分類します例:

M

機械学習

#fundamentals

トレーニングするプログラムまたはシステム 入力データからモデルを取得する。トレーニング済みモデルは 生成された新しい(未知の)データから有用な予測を行う モデルのトレーニングに使用したのと同じ分布になります。

ML は、関連する研究分野を指す これらのプログラムやシステムとは 関係ありません

多数派クラス

#fundamentals

より一般的なラベルは、 クラス不均衡なデータセット。たとえば 99% の負のラベルと 1% の正のラベルを含むデータセットを 負のラベルはマジョリティクラスです

少数派」は対照的です。

ミニバッチ

#fundamentals

バッチの小さなランダムに選択されたサブセットを 1 つのバッチで処理する iteration。 ミニバッチのバッチサイズは通常、 10 ~ 1,000 サンプル。

たとえば、トレーニング セット全体(完全なバッチ)があるとします。 1,000 個の例で構成されています。さらに、先ほど定義した値に 各ミニバッチのバッチサイズを 20 にします。したがって、 反復処理により、1,000 個のサンプルのうちランダムな 20 個に対する損失が それに応じて重みバイアスを調整します。

ミニバッチでの損失を計算する方が、 サンプル全体の損失が わかります

少数派の階級

#fundamentals

カテゴリではあまり一般的でないラベルが クラス不均衡なデータセット。たとえば 99% の負のラベルと 1% の正のラベルを含むデータセットを 正のラベルは少数派のクラスです

マジョリティ クラス」は対照的です。

モデル

#fundamentals

一般に、入力データを処理して結果を返す数学的構造は 出力です。言い換えると、モデルとは一連のパラメータと構造を指す 必要な時間を表します。 教師あり ML では、 モデルはを入力として受け取り、 出力としての予測。教師あり ML では、 若干異なります。例:

  • 線形回帰モデルは一連の重み バイアス
  • ニューラル ネットワーク モデルは、次の要素で構成されます。 <ph type="x-smartling-placeholder">
      </ph>
    • 一連の非表示レイヤ。各レイヤには 1 つまたは複数のレイヤが含まれます。 より多くのニューロン
    • 各ニューロンに関連付けられた重みとバイアス。
  • ディシジョン ツリー モデルは次の要素で構成されます。 <ph type="x-smartling-placeholder">
      </ph>
    • 木の形状つまり、条件が満たされるパターン 葉がつながっています
    • 条件と出発。

モデルを保存、復元、コピーできます。

教師なし ML にも モデルを生成します。通常は、入力サンプルをモデルに 最適なクラスタを選択する。

マルチクラス分類

#fundamentals

教師あり学習における分類の問題 データセットに含まれるラベルの クラス3 つ以上である。 たとえば、Iris データセットのラベルは次のいずれかである必要があります。 3 つのクラスがあります。

  • アヤメ属セトサ
  • アイリス バージニカ
  • アイリス ベルシカラー

新しいサンプルでアヤメの種類を予測する、虹彩データセットでトレーニングされたモデル マルチクラス分類です。

対照的に、正確に 2 つを区別する分類問題は、 クラスはバイナリ分類モデルです。 たとえば、迷惑メールか非迷惑メールかを予測するメールモデルなど バイナリ分類モデルです。

クラスタリング問題では、マルチクラス分類とは 2 つのクラスタがあります。

N

陰性クラス

#fundamentals

バイナリ分類では、1 つのクラス これをと呼び、もう一方を負と呼びます。陽性のクラスは ネガティブ クラスとは、モデルがテストする対象やイベント、 可能性があります。例:

  • 医学的検査の陰性クラスは「がんでない」かもしれません。
  • メール分類器のネガティブクラスは「迷惑メールではない」かもしれません。

一方、ポジティブ クラスは、

ニューラル ネットワークの

#fundamentals

少なくとも 1 つを含むモデル 隠れ層ディープ ニューラル ネットワークは、ニューラル ネットワークの一種である 隠れ層を含んでいます。たとえば、次の図では 2 つの隠れ層を含むディープ ニューラル ネットワークを示しています。

入力層、2 つの隠れ層、1 つの隠れ層を持つニューラル ネットワーク
          出力レイヤです。

ニューラル ネットワーク内の各ニューロンは、次のレイヤのすべてのノードに接続します。 たとえば、上の図では、3 つのニューロンのそれぞれが 最初の隠れ層にある 2 つのニューロンに個別に接続し、 レイヤに分割されます。

コンピュータに実装されたニューラル ネットワークは、 人工ニューラル ネットワークによって、 脳や他の神経系で見られるニューラル ネットワークです。

非常に複雑な非線形関係を模倣できるニューラル ネットワークもある モデルに与える影響です

畳み込みニューラル ネットワークもご覧ください。 回帰型ニューラル ネットワーク

ニューロン

#fundamentals

ML における隠れ層内の個別の単位 ニューラル ネットワークのものです。各ニューロンは次の処理を実行する 2 段階の対策:

  1. 入力値に掛け合わせた加重合計を計算します 重み付けされます。
  2. 入力として加重合計を 活性化関数

最初の隠れ層のニューロンは特徴値からの入力を受け入れる 入力レイヤ:隠れ層のニューロンは 前者は前の隠れ層のニューロンからの入力を受け入れます。 たとえば、2 つ目の隠れ層のニューロンは、 隠れ層にあるニューロンのみです。

次の図では、2 つのニューロンと できます。

入力層、2 つの隠れ層、1 つの隠れ層を持つニューラル ネットワーク
          出力レイヤです。2 つのニューロンがハイライト表示されています(最初のニューロンが 1 つ)。
          もう 1 つは隠れ層です。ハイライト表示された
          最初の隠れ層のニューロンは両方の特徴からの入力を受け取る
          渡されます。2 番目の隠れ層でハイライト表示されたニューロン
          最初の隠れ層で 3 つのニューロンのそれぞれから入力を受け取り、
          レイヤです。

ニューラル ネットワークのニューロンは、脳の中のニューロンの挙動を模倣しています。 神経系のその他の部分にも影響します。

ノード(ニューラル ネットワーク)

#fundamentals

隠れ層ニューロン

nonlinear

#fundamentals

単独では表現できない 2 つ以上の変数間の関係 加算と乗算で計算されます線形関係 線で表すことができます。nonlinearの関係は 線で表されます。たとえば、2 つのモデルはそれぞれ 1 つのラベルにマッピングできます左側のモデルは線形モデルで 右のモデルは非線形です。

2 つのプロット。一方のプロットは直線であるため、これは直線関係です。
          もう 1 つのプロットは曲線なので、これは非線形の関係です。

非定常性

#fundamentals

1 つ以上のディメンションで値が変化する特徴(通常は時間)。 たとえば、次のような非定常性について考えてみましょう。

  • 特定の店舗で販売されている水着の数は、季節によって異なります。
  • 特定の地域での特定の果物の収穫量 ほとんどの期間はゼロですが、短期間では大きな値になります。
  • 気候変動により、年間平均気温は変化しています。

一方、定常性とは対照的です。

正規化

#fundamentals

大まかに言うと、変数の実際の範囲を変換するプロセスが 値を標準の値範囲に変換できます。

  • -1 ~+1
  • 0 to 1
  • 正規分布

たとえば、ある特徴の値の実際の範囲が 800 ~ 2,400 人。特徴量エンジニアリングの一環として 実際の値を標準範囲に正規化できます。たとえば、 -1 ~+1 の範囲で設定できます

正規化は、データ アナリストが 特徴量エンジニアリング。通常はモデルのトレーニングが速く 予測の精度を上げることができます。 特徴ベクトルの範囲はほぼ同じです。

数値データ

#fundamentals

整数または実数として表される特徴量。 たとえば住宅の評価モデルでは、 数値データとして収集されます。表現 数値データは特徴値の値が変化したときに ラベルとの数学的関係。 つまり、1 つの住宅の平方メートル数は、 住宅の価値と数学的な関係です

すべての整数データを数値データとして表す必要はありません。たとえば 一部の地域では、郵便番号は整数です。ただし 整数の モデルで数値データとして表現すべきではありませんなぜなら、 郵便番号(20000)は、郵便番号(20000)の 2 倍(または半分)にはなりません 10,000。さらに、郵便番号には違いがあることに相関関係がありますが、 郵便番号の不動産価格が 20,000 は、郵便番号 10,000 では不動産価格の 2 倍の価値があります。 郵便番号はカテゴリデータで表す必要があります。 してください。

数値特徴量は特徴量エンジニアリングで 継続的な機能

O

オフライン

#fundamentals

静的と同義。

オフライン推論

#fundamentals

モデルが予測のバッチを生成するプロセス 予測をキャッシュに保存(保存)します。これにより、アプリは推測された キャッシュから予測を行う方が効率的です。

たとえば、地域の天気予報を生成するモデルについて考えてみましょう。 (予測)を 4 時間に 1 回実行します。モデルが実行されるたびにシステムは すべての現地天気予報をキャッシュに保存します。天気アプリが天気予報を取得する キャッシュから取り出します。

オフライン推論は静的推論とも呼ばれます。

対照的に、オンライン推論は、

ワンホット エンコード

#fundamentals

カテゴリデータをベクトルとして表現すると、次のようになります。

  • 1 つの要素は 1 に設定されます。
  • その他の要素はすべて 0 に設定されます。

ワンホット エンコーディングは、文字列や識別子を表すために 取り得る値の集合が限られています。 たとえば、この名前が付いた特定のカテゴリ特徴を Scandinavia には次の 5 つの値があります。

  • "デンマーク"
  • "スウェーデン"
  • 「ノルウェー」
  • 「フィンランド」
  • 「アイスランド」

ワンホット エンコーディングでは、5 つの値をそれぞれ次のように表すことができます。

country ベクトル
"デンマーク" 1 0 0 0 0
"スウェーデン" 0 1 0 0 0
「ノルウェー」 0 0 1 0 0
「フィンランド」 0 0 0 1 0
「アイスランド」 0 0 0 0 1

ワンホット エンコーディングにより、モデルはさまざまなつながりを 5 か国それぞれについて予測しています

特徴を数値データとして表現することは、 ワンホット エンコーディングの代替手段です。残念ながら、 スカンジナビアの国は、数値的には良い選択ではありません。たとえば 次の数値表現を考えてみましょう。

  • "デンマーク"0
  • "スウェーデン"は 1
  • 「ノルウェー」は 2
  • 「フィンランド」3
  • 「アイスランド」4

数値エンコードの場合、モデルは生の数値を解釈します。 それらの数値でトレーニングを試みます しかし、アイスランドの人口の 2 倍(または半分)はありません。 そのため、モデルは奇妙な結論を導き出します。

1 対すべて

#fundamentals

N 個のクラスを含む分類問題の場合、 N 個の個別の バイナリ分類器 - 特定のタイプに対する 1 つのバイナリ分類器 可能性があります。たとえば、サンプルを分類するモデルがあるとします。 1 対 1 のソリューションで 次の 3 つの独立したバイナリ分類器です。

  • 動物か、動物ではないか
  • 野菜 vs 野菜なし
  • ミネラルと非ミネラル

online

#fundamentals

動的と同義。

オンライン推論

#fundamentals

オンデマンドで予測を生成する。たとえば アプリが入力をモデルに渡して、 できます。 オンライン推論を使用するシステムは、次を実行してリクエストに応答します。 (そして予測をアプリに返す)。

対照的なオフライン推論は、

出力層

#fundamentals

「ファイナル」学びます。出力レイヤには予測が含まれます。

次の図は、入力を使用した小規模なディープ ニューラル ネットワークを示しています。 2 つの隠れ層、出力層の 1 つです。

1 つの入力層、2 つの隠れ層、1 つの隠れ層を持つニューラル ネットワーク
          出力レイヤです。入力レイヤは 2 つの特徴で構成されています。最初の
          隠れ層は 3 つのニューロンと 2 つ目の隠れ層で構成されている
          2 つのニューロンで構成されています出力レイヤは単一のノードで構成されます。

過学習

#fundamentals

モデルトレーニング データが近すぎるほど、モデルがトレーニングに失敗する 新しいデータに対して正しい予測を行うことができます。

正則化によって過学習を減らすことができます。 大規模で多様なトレーニング セットでトレーニングすると、過学習を減らすこともできます。

P

pandas

#fundamentals

numpy 上に構築された列指向のデータ分析 API。 多くの ML フレームワーク Pandas データ構造を入力としてサポートします。詳しくは、 pandas のドキュメント をご覧ください。

パラメータ

#fundamentals

モデルが学習する重みバイアス トレーニング。たとえば、 線形回帰モデルの場合、パラメータは次の要素で構成されます。 バイアス(b)とすべての重み(w1w2)を など)を次の式に代入します。

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

これに対して、ハイパーパラメータは ハイパーパラメータ チューニング サービス。 たとえば、学習率はハイパーパラメータです。

陽性クラス

#fundamentals

テスト対象のクラス。

たとえば、がんモデルにおける陽性のクラスは「tumor」となります。 メール分類器における陽性のクラスは「迷惑メール」である可能性があります。

ネガティブ クラス」は対照的です。

後処理

#fairness
#fundamentals

モデルの実行にモデルの出力を調整する。 後処理を使用すると、制限なしで公平性の制約を適用できます。 モデル自体を修正できます

たとえば、バイナリ分類器に後処理を適用できます。 次のような分類しきい値を設定して、 機会の平等が維持される この場合は、真陽性率が その属性のすべての値で同じです。

予測

#fundamentals

モデルの出力。例:

  • バイナリ分類モデルの予測は、陽性または 除外します。
  • マルチクラス分類モデルの予測は 1 つのクラスです。
  • 線形回帰モデルの予測は数値です。

プロキシラベル

#fundamentals

ラベルを近似するために使用されるデータは、データセットでは直接利用できません。

たとえば、従業員を予測するモデルをトレーニングする必要があるとします。 ストレスレベル。データセットには多くの予測特徴が含まれていますが、 ストレスレベルというラベルが含まれていません。 気軽に「職場での事故」を選んでくださいプロキシラベルとして ストレスレベル。結局、強いストレスにさらされている従業員は、 落ち着いて働く従業員より事故です。それともそのとおりですか?職場での事故や 実際には複数の原因で 増減しています

2 つ目の例として、「雨が降っていますか?」をブール値ラベルにするとします。 データセットに降雨データが含まれていませんでした。条件 写真がある場合は、 「雨は降っていますか?」の代用ラベルとして「傘を持ってる」そうか 適切なプロキシラベルでしょうか。その可能性はあるが、文化によっては 日光から身を守るため、雨よりも傘を持って行く傾向にあります。

多くの場合、プロキシのラベルは完全ではありません。可能な場合は、実際のラベルではなく、 プロキシラベルです。ただし、実際のラベルが存在しない場合は、プロキシを選択する 慎重に検討し、最も影響の低いプロキシラベル候補を選択します。

R

RAG

#fundamentals

略語: 検索拡張生成

評価者

#fundamentals

ラベルを指定する人間。 "アノテーション作成者"評価者とも呼ばれます。

正規化線形ユニット(ReLU)

#fundamentals

次の動作の活性化関数:

  • 入力が負またはゼロの場合、出力は 0 です。
  • 入力が正の場合、出力は入力と等しくなります。

例:

  • 入力が -3 の場合、出力は 0 です。
  • 入力が +3 の場合、出力は 3.0 です。

ReLU のプロットを以下に示します。

2 本の直線のデカルト プロット。最初の行には定数が
          x 軸に沿って -infinity,0 から 0,-0 までの y 値が 0。
          2 行目は 0,0 から始まります。この線の傾きは +1 なので、
          0,0 から +infinity,+infinity まで続きます。

ReLU はよく使われる活性化関数です。その単純な動作にもかかわらず ReLU によってニューラル ネットワークは依然としてnonlinearを学習できる 特徴量ラベルの関係

回帰モデル

#fundamentals

非公式には数値予測を生成するモデル。(これとは対照的に、 分類モデルがクラスを生成 prediction.)たとえば、以下はすべて回帰モデルです。

  • 特定の住宅の価値(423,000 ユーロなど)を予測するモデル。
  • ある樹木の寿命を予測するモデル(23.2 年など)。
  • 特定の都市の雨量を予測するモデル 0.18 インチなど、今後の 6 時間にわたって大幅に改善されます。

一般的な回帰モデルには次の 2 種類があります。

  • 線形回帰。最適な線を見つけます。 ラベル値を特徴に合わせます
  • ロジスティック回帰。 その後、システムが通常、クラスにマップする確率は 0.0 ~ 1.0 できます。

数値予測を出力するすべてのモデルが回帰モデルというわけではありません。 場合によっては、数値予測が実際には単なる分類モデルになる 数値のクラス名が含まれます。たとえば あるトピックについて 数値の郵便番号は分類モデルであり、回帰モデルではありません。

正則化

#fundamentals

過学習を減らすメカニズム。 よく使用される正則化のタイプは次のとおりです。

正則化は、モデルの複雑さに対するペナルティとしても定義できます。

正則化率

#fundamentals

この数値は、指標の相対的な重要度を指定する 正則化。 正則化率は過学習を低減しますが、 モデルの予測能力を低下させます逆に、1 対 1 の会話の 正則化率は過学習が増えます

ReLU

#fundamentals

正規化線形ユニットの略語。

検索拡張生成(RAG)

#fundamentals

予測結果の質を改善するための手法は、 大規模言語モデル(LLM)の出力 モデルのトレーニング後に取得した知識のソースでグラウンディングします。 RAG は、トレーニング済みの LLM に次のものを提供することで、LLM の応答の精度を向上させます。 信頼できるナレッジベースまたはドキュメントから取得した情報へのアクセス。

検索拡張生成を使用する一般的な動機は次のとおりです。

  • モデルで生成されるレスポンスの事実に基づく精度を高める。
  • トレーニングされていない知識へのアクセスをモデルに与える。
  • モデルが使用する知識を変更する。
  • モデルによるソースの引用を有効にする

たとえば、化学アプリが PaLM API を使用して要約を生成 分析できますアプリのバックエンドがクエリを受信すると、バックエンドは次のことを行います。

  1. ユーザーのクエリに関連するデータを検索(「取得」)します。
  2. 関連する化学データをユーザーのクエリに追加(「拡張」)します。
  3. 追加されたデータに基づいて要約を作成するように LLM に指示します。

ROC(受信者動作特性)曲線

#fundamentals

真陽性率偽陽性率: バイナリ形式の分類しきい値 あります。

ROC 曲線の形状は、バイナリ分類モデルの能力を 陽性クラスと陰性クラスを分離します。たとえば バイナリ分類モデルでは、すべてのネガティブな すべての正のクラスからすべてのクラスから取得します。

右側に 8 個の正例と、
          左側にネガティブ サンプルが 7 個。

上のモデルの ROC 曲線は次のようになります。

ROC 曲線。X 軸は偽陽性率、Y 軸は
          真陽性率です。曲線は逆 L 字型です。曲線
          (0.0,0.0)から始まり、(0.0,1.0)まで直線的に立ち上がります。次に、曲線
          (0.0,1.0)から(1.0,1.0)に移動します。

対照的に、次の図は、生のロジスティック回帰をグラフ化したものです。 陰性クラスと陰性クラスを分離できない すべて肯定的なクラス:

正の例と負のクラスを含む数直線
          完全に混在しています

このモデルの ROC 曲線は次のようになります。

ROC 曲線。実際には (0.0,0.0) からの直線である
          (1.0,1.0)に変更します。

一方、現実の世界では、ほとんどのバイナリ分類モデルが ある程度は検出できますが、通常は完璧ではありません。したがって、 典型的な ROC 曲線は、

ROC 曲線。X 軸は偽陽性率、Y 軸は
          真陽性率です。ROC 曲線は不安定な円弧に近似する
          コンパスポイントを西から北に横断します。

理論的には、(0.0,1.0)に最も近い ROC 曲線上の点は、 理想的な分類しきい値ですしかし現実には 理想的な分類しきい値の選択に影響を与えます。たとえば おそらく偽陰性の方が偽陽性よりもはるかに苦労するでしょう。

AUC と呼ばれる数値指標は、ROC 曲線を 単一の浮動小数点値を返します

二乗平均平方根誤差(RMSE)

#fundamentals

平均二乗誤差の平方根。

S

シグモイド関数

#fundamentals

「押しつぶす」数学関数入力値を制約された範囲に入れる、 通常は 0 ~ 1 または -1 ~+1 です。つまり、任意の数(2、100 万、 シグモイドに変換されても、出力は 範囲が制限されています。 シグモイド活性化関数のプロットは次のようになります。

領域をまたがる x 値を持つ 2 次元の曲線プロット
          - 無限大から + 正までの範囲で、y 値はほぼ 0 から正
          ほぼ 1 です。x が 0 の場合、y は 0.5 です。曲線の傾きは常に
          正の値で、最大傾きは 0.0.5 で、徐々に減少する
          x の絶対値が大きくなるにつれて傾きが小さくなります。

シグモイド関数は、ML で次のようないくつかの用途があります。

Softmax

#fundamentals

特定のクラスの確率を マルチクラス分類モデル。各単語の確率は 正確に 1.0 に変更します。たとえば、次の表は、ソフトマックスが分散して 可能性があります。

画像は... 確率
0.85
0.13
0.02

ソフトマックスは、フル ソフトマックスとも呼ばれます。

一方、候補サンプリングでは、

スパースな特徴

#language
#fundamentals

値がほぼ 0 または空の特徴。 たとえば、1 つの値と 100 万個の値を含む特徴は、 です。一方、密な特徴には、 大部分はゼロや空ではありません

ML では、驚くほど多くの特徴量がスパースな特徴量になっています。 カテゴリ特徴量は通常、スパース特徴量です。 たとえば、ある森林で見られる樹木 300 種のうち、 単なるカエデの木を識別できるかもしれません。何百万もの 動画ライブラリに含まれる可能性のある動画の数によって、1 つの例で “カサブランカ”と言います

モデルでは通常、スパースな特徴を ワンホット エンコーディング。ワンホット エンコーディングが大きい場合、 エンベディング レイヤをそのレイヤの上に配置できます。 ワンホット エンコーディングを使用します。

スパース表現

#language
#fundamentals

スパースな特徴にゼロ以外の要素の位置のみを保存する。

たとえば、species という名前のカテゴリ特徴が 36 予測しています。さらに、各データセットが example は 1 種のみを識別します。

それぞれの例で、樹木の種類を表すワンホット ベクトルを使用できます。 ワンホット ベクトルには、単一の 1 が含まれます( と 35 個の 0( 35 種類の樹木。この例では該当なし)。ワンホット表現は、 maple は次のようになります。

位置 0 から 23 が値 0 を保持するベクトルは、
          24 は値 1 を保持し、位置 25 から 35 は値 0 を保持します。

あるいは、スパース表現では単純に画像の位置を特定するだけで 判断できますmaple が 24 番目である場合、スパース表現は maple は、単に次のようになります。

24

スパース表現は、ワンホット表現よりもはるかにコンパクトであることに 必要があります。

スパース ベクトル

#fundamentals

値がほぼゼロであるベクトル。関連情報: スパース featuresparsity

二乗損失

#fundamentals

L2 損失と同義。

static

#fundamentals

何かを連続して行うのではなく、一度だけ実行する。 静的とオフラインという用語は同義語です。 マシンでの静的とオフラインの一般的な用途は次のとおりです。 学習:

  • 静的モデル(またはオフライン モデル)は、一度トレーニングされたモデルです。 使用しました。
  • 静的トレーニング(またはオフライン トレーニング)は、トレーニング 静的モデルです。
  • 静的推論(オフライン推論)は、 予測のバッチをモデルが一度に生成するプロセスです。

動的」とは対照的です。

静的推論

#fundamentals

オフライン推論と同義。

静止

#fundamentals

1 つ以上のディメンション(通常は時間)で値が変化しない特徴。 たとえば、2021 年とほぼ同じ値に見える特徴が、 2023 年は静止しています。

実際には、静止している特徴はほとんどありません。均等な特徴 安定性(海面など)の経時的な変化と同義です。

対照的に、非定常性です。

確率的勾配降下法(SGD)

#fundamentals

勾配降下法アルゴリズムでは、 バッチサイズは 1 です。つまり SGD は 均一に選択された単一の例が トレーニング セットからランダムに抽出します。

教師あり ML

#fundamentals

特徴とその特徴からモデルをトレーニングする 対応するラベル。教師あり ML は類似 主題について学習するために、まず一連の問題と、 対応する回答が返されます。質問と行動の間のマッピングをマスターしたら、 生徒は新しい(未知の)解答に対して 質問できます。

比較対象 教師なし ML

合成特徴

#fundamentals

特徴は入力特徴に含まれないが、 組み合わせたものです合成特徴の作成方法 次の内容が含まれます。

  • 連続する特徴を範囲ビンにバケット化します。
  • 特徴クロスを作成する。
  • 1 つの特徴値を他の特徴値で乗算(または除算)する こともできます。たとえば、ab が入力特徴の場合、 合成特徴の例を次に示します。 <ph type="x-smartling-placeholder">
      </ph>
    • AB
    • A2
  • 特徴値に超越関数を適用するたとえば、c の場合、 が入力特徴の場合、合成特徴の例を次に示します。 <ph type="x-smartling-placeholder">
      </ph>
    • sin(c)
    • ln(c)

正規化またはスケーリングによって作成される特徴 のみでは合成特徴とはみなされません。

T

テスト損失

#fundamentals

モデルの損失を表す指標 テストセットモデルの構築時は、 通常はテストの損失を最小化しようとします。これは、テストの損失が小さいと、 低いトレーニング損失または低いものよりも強い品質シグナル 低い検証損失

テストの損失とトレーニングの損失または検証の損失との間に大きな差が生じることがある 新しい P-MAX キャンペーンを 正則化率

トレーニング

#fundamentals

理想的なパラメータ(重みと バイアスなど)をモデル化します。トレーニング中、システムは を使用して、パラメータを段階的に調整します。トレーニングでは 数千回から数十億回にのぼります

トレーニングの損失

#fundamentals

モデルの損失を表す指標 必要があります。たとえば 損失関数が 平均二乗誤差です。おそらく、トレーニングの損失(平均 二乗誤差)は 2.2 で、トレーニングの損失は 100 回目の反復処理は 1.9 です。

損失曲線は、トレーニングの損失と損失を 必要があります。損失曲線は、トレーニングに関する次のヒントを提供します。

  • 下降する傾きはモデルが改善していることを意味します。
  • 上昇する傾きはモデルが悪化していることを意味します。
  • 傾きが平らな場合 モデルが 収束

たとえば、次のやや理想化された損失曲線は、 表示されます。

  • 初期の反復処理で急な下降傾向にあるため、 モデルを迅速に改善できます
  • 終盤に近づくまで徐々に平坦になっていく(引き続き下向き)傾斜 モデルの改善を続けていくことになりますが、 初期の反復処理よりも遅いペースです。
  • トレーニングの終わりに近づくにつれて傾きが緩やかになり、収束を示しています。

トレーニングの損失と反復のプロット。この損失曲線は
     示しています傾きは徐々に小さくなっていき、
     傾きがゼロになります。

トレーニングの損失は重要ですが、 一般化

トレーニング サービング スキュー

#fundamentals

トレーニング期間中のモデルのパフォーマンスの トレーニングと、同じモデルのパフォーマンスを 配信

トレーニング セット

#fundamentals

モデルのトレーニングに使用されるデータセットのサブセット。

従来、データセット内の例は次の 3 つに サブセットがあります。

理想的には、データセット内の各サンプルは、 サブセットです。たとえば、1 つの例が 2 つのドメインに属する 検証セットの両方が含まれます。

真陰性(TN)

#fundamentals

モデルが正しい予測を ネガティブ クラス。たとえば、モデルは次の単語を 特定のメール メッセージが迷惑メールではない場合、そのメール メッセージが実際に 迷惑メールではない

真陽性(TP)

#fundamentals

モデルが正しい予測を 陽性クラス。たとえば、モデルは次の単語を 特定のメール メッセージが迷惑メールであり、そのメール メッセージが本当に迷惑メールである。

真陽性率(TPR)

#fundamentals

再現率と同義。具体的には、次のことが求められます。

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

真陽性率は ROC 曲線の y 軸です。

U

学習不足

#fundamentals

予測能力の低いモデルを生成する。これは、モデルに トレーニング データの複雑さを完全には把握できていません。多くの問題 学習不足を引き起こす可能性があります。

  • 間違った特徴のセットでトレーニングする。
  • トレーニングのエポックが少なすぎるか、低すぎる 学習率
  • 正則化率が高すぎるトレーニング。
  • 1 つのコンテナに隠れ層を提供するのが少なすぎる ニューラル ネットワークです。

ラベルなしの例

#fundamentals

features は含まれているがラベルがない例。 たとえば、次の表は、家のラベルのない 3 つの例を示しています。 3 つの特徴があり、住宅の価値は考慮しない:

寝室の数 浴室数 築年数
3 2 15
2 1 72
4 2 34

教師あり ML では、 ラベル付きサンプルでトレーニングされ、 ラベルなしのサンプル

半教師あり教師なし学習 ラベルのないサンプルがトレーニングに使用されます

ラベルなしのサンプルとラベル付きサンプルを対比します。

教師なし ML

#clustering
#fundamentals

モデルをトレーニングして、データセット(通常は データセットを作成します。

教師なし ML の最も一般的な用途は、 クラスタデータ グループ化しますたとえば、教師なしマシンは 学習アルゴリズムは、さまざまなプロパティに基づいて曲をクラスタ化できる あります。結果として得られるクラスタは、他のマシンへの入力として たとえば、音楽レコメンデーション サービスに対して行います。 有用なラベルが不足している場合や存在しない場合は、クラスタリングが役立ちます。 たとえば、不正利用防止や不正行為対策などの分野では、クラスタが 人間がデータをより深く理解できるようになります。

教師あり ML とは対照的です。

V

検証

#fundamentals

モデルの品質の初期評価。 検証では、モデルの予測の品質を、 検証セット

検証セットはトレーニング セットとは異なるため、 検証により、過学習から保護できます。

検証セットに照らしてモデルを評価することは、 モデルに照らしてテストと評価を行います テストセットを 2 回目のテストとして使用します。

検証損失

#fundamentals

モデルの損失を表す指標 特定の期間における検証セット トレーニングの反復

一般化曲線もご覧ください。

検証セット

#fundamentals

初期値を実行するデータセットのサブセット トレーニング済みモデルに対する評価です。通常 トレーニング済みモデルを検証セットと照らし合わせて、 評価してから、テストセットでモデルを評価します。

これまでは、データセット内のサンプルを次の 3 つに分けていました。 サブセットがあります。

理想的には、データセット内の各サンプルは、 サブセットです。たとえば、1 つの例が 2 つのドメインに属する 検証セットの両方が含まれます。

W

weight

#fundamentals

モデルで別の値と乗算される値。 トレーニングは、モデルの理想的な重みを決定するプロセスです。 推論とは、学習した重みを使用して、 予測を行います。

加重合計

#fundamentals

関連するすべての入力値の合計に、対応する入力値を掛けた値 トレーニングされます。たとえば、関連する入力が次のように構成されているとします。

入力値 入力の重み
2 -1.3
-1 0.6
3 0.4

したがって、加重合計は次のようになります。

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

加重合計は、入力引数です。 活性化関数

Z

Z スコア正規化

#fundamentals

スケーリング手法のひとつで、 特徴値を表す浮動小数点値を持つ feature 値 その特徴量の平均からの標準偏差の数 たとえば、平均が 800 で標準の特徴が 偏差は 100 です次の表に、Z スコアの正規化の仕組みを示します。 未加工の値を Z スコアにマッピングします。

Raw 値 Z スコア
800 0
950 +1.5
575 -2.25

ML モデルは Z スコアでトレーニングする 未加工の値ではなく特徴量の重みで表します