データセット: ラベル

このセクションでは、ラベルについて説明します。

直接ラベルとプロキシラベル

次の 2 種類のラベルについて考えてみましょう。

  • 直接ラベル: モデルが行う予測と同じラベルです。つまり、モデルが予測しようとしている値が、データセットの列として正確に存在します。たとえば、bicycle owner という名前の列は、自転車を所有しているかどうかを予測するバイナリ分類モデルの直接ラベルになります。
  • プロキシラベル: モデルが行う予測に似ているが、同じではないラベルです。たとえば、自転車雑誌「自転車奇譚」を定期購読しているユーザーは、自転車を所有している可能性が高いですが、必ずしもそうとは限りません。

通常、直接ラベルはプロキシラベルよりも優れています。データセットに直接ラベルが提供されている場合は、そのラベルを使用する必要があります。ただし、直接ラベルを使用できない場合もあります。

プロキシラベルは常に妥協であり、直接ラベルの不完全な近似値です。ただし、一部のプロキシラベルは、十分に近い近似値で、有用な場合があります。プロキシラベルを使用するモデルの有用性は、プロキシラベルと予測の間の接続に依存します。

すべてのラベルは、特徴ベクトルで浮動小数点数として表す必要があることを思い出してください(機械学習は基本的に、数学演算の巨大な集合体にすぎないからです)。直接ラベルが存在する場合でも、特徴ベクトルで浮動小数点数として簡単に表せないことがあります。この場合は、プロキシラベルを使用します。

演習: 理解度を確認する

お客様の会社は、次のことを希望しています。

自転車の所有者にクーポン(「古い自転車を下取りに出して、新しい自転車を 15% オフ」)を郵送する。

したがって、モデルは次のことを行わなければなりません。

自転車を所有しているユーザーを予測する。

残念ながら、このデータセットには bike owner という名前の列がありません。ただし、データセットには recently bought a bicycle という名前の列が含まれています。

recently bought a bicycle は、このモデルの優れたプロキシラベルですか、それとも不適切なプロキシラベルですか。
優れたプロキシラベル
recently bought a bicycle は比較的優れたプロキシラベルです。自転車を購入する人のほとんどは、自転車を所有しています。ただし、recently bought a bicycle は、非常に優れたプロキシラベルであっても、他のすべてのプロキシラベルと同様に完全ではありません。結局のところ、アイテムを購入した人がそのアイテムを使用(または所有)しているとは限りません。たとえば、自転車をプレゼントとして購入することがあります。
不適切なプロキシラベル
他のすべてのプロキシラベルと同様に、recently bought a bicycle は不完全です(自転車の中には、ギフトとして購入して他人に贈るものもあります)。ただし、recently bought a bicycle は、自転車を所有している可能性を示す比較的優れた指標です。

人間が生成したデータ

一部のデータは人間が生成します。つまり、1 人以上の人間が情報を調べて、通常はラベルの値を提供します。たとえば、1 人以上の気象学者が空の写真を調べて雲の種類を特定できます。

また、一部のデータは自動生成されます。つまり、ソフトウェア(別の ML モデルの場合もあります)が値を決定します。たとえば、機械学習モデルは空の写真を調べて、雲の種類を自動的に識別できます。

このセクションでは、人間が生成したデータのメリットとデメリットについて説明します。

メリット

  • 人間の評価者は、高度な ML モデルでも難しい場合がある幅広いタスクを実行できます。
  • このプロセスにより、データセットのオーナーは明確で一貫した基準を策定する必要があります。

デメリット

  • 通常、人間の評価担当者に支払う必要があるため、人間が生成したデータは費用が高くなる可能性があります。
  • 人間である以上、ミスを完全に防ぐことはできません。そのため、複数の人間評価者が同じデータを評価しなければならない場合があります。

次の質問に答えて、ニーズを特定します。

  • 評価担当者のスキルはどの程度必要ですか?(たとえば、評価者は特定の言語を理解している必要がありますか?会話や NLP アプリケーションの言語学者が必要ですか?)
  • ラベル付きの例はいくつ必要ですか?いつまでに必要ですか?
  • 予算はどれくらいか。

人間による評価は必ず二重チェックしてください。たとえば、自分で 1,000 個のサンプルにラベルを付け、他の評価者の結果と比較します。差異が明らかになった場合は、特に価値判断が関与している場合は、自分の評価が正しいと想定しないでください。人間のレーティングでエラーが発生した場合は、レーティングの精度を高めるための手順を追加して、もう一度お試しください。