カテゴリデータ: 一般的な問題

数値データは科学機器や科学機器によって 自動測定一方、カテゴリデータは多くの場合、 機械学習(ML)モデルによって分類されます。誰が決定するか その意思決定の方法が、 そのデータの信頼性と有用性を確保することです。

評価担当者

人が手動でラベル付けしたデータは、多くの場合ゴールドラベルと呼ばれます。 トレーニング モデルには、機械でラベル付けされたデータよりも望ましい、 これはデータ品質が比較的高いためです

これは、ヒューマン ラベリングがラベルを付けたデータ セットに 向上しますこの時点で人為的ミス、バイアス、悪意が生まれる可能性がある データのクリーニングと処理中に 使用されることもあります確認 学習します

2 人のユーザーが同じサンプルに異なるラベルを付ける可能性があります。違い 評価担当者のいわゆる 評価者間 契約をご覧ください。 各評価者の差異を把握することで自分の意見を サンプルごとに複数の評価者を使用し、評価者間の一致を測定します。

機械評価者

マシンでラベルが付けられたデータ。1 つ以上のラベルによってカテゴリが自動的に決定されます。 シルバーラベルと呼ばれます。 機械でラベル付けされたデータの品質には大きなばらつきがある。正確性だけでなく 常識、現実、意図に反する要素だけでなく、対象 たとえば、コンピュータ ビジョン モデルが画像のラベルを チワワのマフィンの写真があると、そのラベル付きデータでトレーニングしたモデルは、 低品質になることがあります。

同様に、中立的な単語をスコア付けする感情分析ツールは、0.0 が 0.0 の場合に -0.25 と評価します。 中立的な値。すべての単語が追加の負のバイアスでスコア付けされる可能性がある モデルにフィードできます過度の有害性検出機能 中立的な記述の多くを、有害であると誤って報告する可能性があります。そのときの状況を把握して 機械ラベルとアノテーションの品質とバイアスを 学習します

高次元

カテゴリデータは高次元の特徴ベクトルを生成する傾向がある。つまり 特徴ベクトルが生成されます。 高次元化によってトレーニング コストが増加し、 困難です。こうした理由から、ML の専門家は多くの場合、 必要があります。

自然言語データの場合、次元数を削減する主な方法は、 特徴ベクトルをエンベディング ベクトルに変換します。これについては Embeddings モジュールは、このモジュールの このコースを受講してください