カテゴリデータ: 一般的な問題

数値データは、多くの場合、科学機器や自動測定によって記録されます。一方、カテゴリデータは、多くの場合、人間または ML モデルによって分類されます。カテゴリとラベルを決定すると、その決定を行う方法は、データの信頼性と有用性に影響します。

人間の評価者

人間が手動でラベル付けしたデータはゴールドラベルと呼ばれることが多く、データ品質が比較的優れているため、機械でラベル付けされたデータよりもトレーニング モデルのトレーニングに適しています。

ただし、ヒューマン ラベリングされたデータセットが必ずしも高品質であるとは限りません。人的エラー、バイアス、悪意は、データ収集時やデータのクリーニングと処理中に発生する可能性があります。トレーニングの前に確認してください。

2 人の人間が同じ例に異なるラベルを付ける可能性があります。人間の評価者の判断の違いは、評価者間の一致と呼ばれます。例ごとに複数の評価者を使用し、評価者間の一致を測定することで、評価者の意見のばらつきを把握できます。

マシン評価者

1 つ以上の分類モデルによってカテゴリが自動的に決定される機械ラベル付きデータは、多くの場合「シルバーラベル」と呼ばれます。機械でラベル付けされたデータの品質は大きく異なる場合があります。正確性やバイアスだけでなく、常識、現実、意図に反していないことも確認してください。たとえば、コンピュータ ビジョン モデルがチワワの写真にマフィンのラベルを誤って付けたり、マフィンの写真にチワワのラベルを誤って付けたりすると、そのラベル付きデータでトレーニングされたモデルの品質は低下します。

同様に、中立的な単語を -0.25 としてスコア付けする感情分析ツール(0.0 が中立値の場合)は、データに実際には存在しない否定的なバイアスをすべての単語に追加してスコア付けしている可能性があります。過敏な有害性検出機能は、多くの中立的な記述を誤って有害と報告する可能性があります。トレーニングを行う前に、データ内のマシンラベルとアノテーションの品質とバイアスを把握してください。

高次元

カテゴリデータは、高次元の特徴ベクトル(要素数の多い特徴ベクトル)を生成する傾向があります。高次元を使用すると、トレーニング コストが増加し、トレーニングが困難になります。このような理由から、ML の専門家は多くの場合、トレーニング前にディメンション数を減らす方法を模索しています。

自然言語データの場合、次元数を削減する主な方法は、特徴ベクトルをエンベディング ベクトルに変換することです。これについては、このコースの後半のエンベディング モジュールで説明します。