データセット: ラベル

このセクションでは、ラベルについて説明します。

直接ラベルとプロキシラベル

次の 2 種類のラベルについて考えてみましょう。

  • 直接ラベル: モデルの予測と同一のラベル 判断できます。つまり モデルが行う予測は データセット内の列として正確に存在します。 たとえば、bicycle owner という名前の列は、 人間がデータを所有するかどうかを予測するバイナリ分類モデル 考えてみましょう
  • プロキシラベル。これは似ているものの、 同じでないことを意味します。 たとえば『Bicycle Bizarre』の定期購読者である 自転車を所有しています

通常、直接ラベルはプロキシラベルよりも優れています。データセットが ダイレクト ラベルが用意されている場合は、これを使用する必要があります。 ただし、多くの場合、直接ラベルは使用できません。

プロキシラベルは常に妥協します。これは、 ダイレクトラベルですただし、一部のプロキシラベルは十分に近似値に近い 考えてみましょう。プロキシラベルを使用するモデルは、 プロキシラベルと予測の間の接続です

すべてのラベルは浮動小数点数で表現する必要があることを思い出してください。 特徴ベクトルにおける (ML は基本的には数学と数学の膨大な組み合わせにすぎないため) あります。直接のラベルが存在しても、簡単には表現できない 特徴ベクトルの浮動小数点数です。この場合は、プロキシラベルを使用します。

演習:理解度をチェックする

あなたの会社は次のことを行いたいと考えています。

クーポンを郵送します(例: 「古い自転車を下取りに出して 新しい自転車 15% オフ」)を自転車の所有者に提供しています。

そのため、モデルは次のことを行う必要があります。

どの人が自転車を所有しているかを予測します。

残念ながら、データセットには bike owner という名前の列がありません。 ただし、データセットには recently bought a bicycle という名前の列が含まれています。

recently bought a bicycle は適切なプロキシラベルです どうでしょうか
適切なプロキシラベル
recently bought a bicycle 列は プロキシ ラベルとして優れています。結局のところ、ほとんどのチームは 回答していますそれにもかかわらず プロキシラベルは非常に良好であっても、recently bought a bicycle は不完全です。結局購入側は アイテムは、必ずしもそのアイテムを使用(または所有)している人とは限りません。 たとえば、自転車をギフトとして購入することがあります。
プロキシラベルが不十分
すべてのプロキシラベルと同様に、recently bought a bicycle 不完全である(一部の自転車はギフトとして購入され、 。ただし、recently bought a bicycle は 依然として 組織が特定のリソースを所有し あります。

人が生成したデータ

一部のデータは人間が生成します。つまり 1 人以上の人間が 値を指定します(通常はラベル用)。たとえば 1 人以上の気象学者が天空の写真を調べ、 説明します。

また、一部のデータは自動生成されます。つまり (場合によっては別の ML モデルによって)値が決定されます。たとえば、 ML モデルは空の写真を調べて、 説明します。

このセクションでは、人間が生成したデータのメリットとデメリットについて説明します。

メリット

  • 人間の評価者は幅広いタスクを実行できますが、 難しい場合があるかもしれません。
  • このプロセスでは、データセットのオーナーは、 必要があります。

デメリット

  • 通常、評価者に料金を支払うため、人間が作成したデータには費用がかかる可能性があります。
  • 間違いを犯すのは人間。そのため 複数の人間の評価担当者が 同じデータを使用します

以下の質問について検討し、ニーズを判断してください。

  • 評価者はどの程度熟練している必要がありますか?(たとえば、評価者は どうなるでしょうか対話や NLP には言語学者が必要か ありますか?)
  • ラベル付きサンプルはいくつ必要かいつまでに必要になりますか?
  • ご予算はどれくらいでしょうか?

必ず人間の評価者を再確認します。例: ラベル 1, 000 のサンプル。 他の評価者の結果とどのように一致するかを表示されます。 違いが見られた場合でも、自己評価が正しいものだとは思い込まないでください。 特に価値の判断に関わる場合はなおさらです人間の評価者が 役立つ手順を追加してもう一度お試しください。

で確認できます。