データセット: ラベル

このセクションでは、ラベルに焦点を当てます。

直接ラベルとプロキシラベル

次の 2 種類のラベルについて考えてみましょう。

直接ラベル。モデルが予測しようとしている予測と同じラベル。つまり、モデルが予測しようとしている値が、データセットの列として正確に存在しているということです。たとえば、bicycle owner という列は、ユーザーが自転車を所有しているかどうかを予測するバイナリ分類モデルの直接ラベルになります。
プロキシラベル。モデルが予測しようとしているものと類似しているが、同一ではないラベル。たとえば、Bicycle Bizarre という雑誌を購読している人は、自転車を所有している可能性が高いですが、必ずしもそうとは限りません。

通常、直接ラベルはプロキシラベルよりも優れています。データセットで直接ラベルを使用できる場合は、それを使用することをおすすめします。ただし、直接ラベルは利用できないことがよくあります。

プロキシラベルは常に妥協案であり、直接ラベルの不完全な近似値です。ただし、一部のプロキシラベルは、有用な近似値として十分な精度を備えています。プロキシラベルを使用するモデルは、プロキシラベルと予測の関連性に応じて有用性が決まります。

すべてのラベルは、特徴ベクトルと同様に、浮動小数点数として表す必要があります（ML は基本的に数学演算の集合であるため）。直接ラベルが存在しても、浮動小数点数として簡単に表現できないことがあります。この場合は、プロキシラベルを使用します。

演習: 理解度を確認する

会社で次のことを行いたいと考えています。

自転車の所有者にクーポン（「新しい自転車用ヘルメットを 15% オフで入手」など）を郵送する。

そのため、モデルは次の処理を行う必要があります。

自転車を所有している人を予測します。

残念ながら、データセットには bike owner という名前の列が含まれていません。ただし、データセットには recently bought a bicycle という名前の列が含まれています。

recently bought a bicycle はこのモデルの適切なプロキシラベルですか、それとも不適切なプロキシラベルですか？

Good proxy ラベル

列 recently bought a bicycle は、比較的適切なプロキシラベルです。結局のところ、現在自転車を購入する人のほとんどは自転車を所有しています。ただし、すべてのプロキシラベルと同様に、非常に優れたラベルであっても、

recently bought a
            bicycle

は完全ではありません。商品を購入した人が、その商品を使用（または所有）する人とは限りません。たとえば、自転車はギフトとして購入されることもあります。

不適切なプロキシラベル

すべてのプロキシラベルと同様に、recently bought a bicycle は完璧ではありません（自転車はギフトとして購入され、他人に贈られることもあります）。ただし、recently bought a bicycle は、自転車を所有していることを示す比較的良い指標です。

人間が生成したデータ

一部のデータは人間が生成します。つまり、1 人以上の人間が情報を調べて、通常はラベルの値を指定します。たとえば、複数の気象学者が空の写真を調べて、雲の種類を特定できます。

また、一部のデータは自動生成されます。つまり、ソフトウェア（別の ML モデルの可能性もある）が値を決定します。たとえば、機械学習モデルで空の画像を調べて、雲の種類を自動的に特定できます。

このセクションでは、人間が生成したデータの利点と欠点について説明します。

メリット

人間の評価者は、高度な ML モデルでも難しいタスクを幅広く実行できます。
このプロセスにより、データセットのオーナーは明確で一貫性のある基準を策定する必要があります。

デメリット

通常、人間の評価者には報酬を支払うため、人間が生成したデータは高額になる可能性があります。
人間は間違いを犯すものです。そのため、複数の人間の評価者が同じデータを評価する必要がある場合があります。

次の質問について検討し、ニーズを特定します。

評価者はどの程度のスキルが必要ですか？（たとえば、特定の言語を理解している必要がありますか？（ダイアログアプリケーションや NLP アプリケーションに言語学者は必要ですか？）
ラベル付きの例はいくつ必要ですか？いつまでに必要ですか？
予算はどれくらいですか？

人間の評価者を必ず再確認してください。たとえば、1,000 個の例に自分でラベルを付け、自分の結果が他の評価者の結果とどのように一致するかを確認します。不一致が見つかった場合は、特に価値判断が伴う場合、自分の評価が正しいと決めつけないでください。人間の評価者がエラーを導入した場合は、評価者を支援する手順を追加して、もう一度試してください。

プラスアイコンをクリックすると、人間が生成したデータについて詳しく知ることができます。

データを手動で確認することは、データの取得方法に関係なく、良い練習になります。Andrej Karpathy は ImageNet でこれを行い、その経験について書きました。

モデルは、自動生成されたラベルと人間が生成したラベルを組み合わせてトレーニングできます。ただし、ほとんどのモデルでは、人間が生成したラベルの追加セット（古くなる可能性がある）は、複雑さとメンテナンスの追加に見合うものではありません。ただし、自動ラベルでは得られない追加情報が手動ラベルから得られることもあります。

データの特性（10 分）

不均衡なデータセット（10 分）