カテゴリデータ: 一般的な問題

数値データは、多くの場合、科学機器や自動測定によって記録されます。一方、カテゴリデータは、多くの場合、人間または ML モデルによって分類されます。カテゴリとラベルを決定する人と、その決定を行う方法は、データの信頼性と有用性に影響します。

人間の評価者

人間が手動でラベル付けしたデータはゴールドラベルと呼ばれることが多く、データ品質が比較的優れているため、機械でラベル付けされたデータよりもトレーニングモデルのトレーニングに適しています。

ただし、ヒューマンラベリングされたデータセットが必ずしも高品質であるとは限りません。人的エラー、バイアス、悪意は、データ収集時やデータのクリーニングと処理中に発生する可能性があります。トレーニングの前に確認してください。

2 人の人間が同じ例に異なるラベルを付ける可能性があります。人間の評価者の判断の違いは、評価者間の一致と呼ばれます。例ごとに複数の評価者を使用し、評価者間の一致を測定することで、評価者の意見のばらつきを把握できます。

クリックして、判定者間の合意指標の詳細を確認する

評価者間の一致を測定する方法は次のとおりです。

コーエンのカッパ係数とバリエーション
クラス内相関（ICC）
Krippendorff のアルファ

Cohen のカッパとクラス内相関の詳細については、Hallgren 2012 をご覧ください。Krippendorff のアルファの詳細については、 Krippendorff 2011 をご覧ください。

マシン評価者

1 つ以上の分類モデルによってカテゴリが自動的に決定される機械ラベル付きデータは、多くの場合「シルバーラベル」と呼ばれます。機械でラベル付けされたデータの品質は大きく異なる場合があります。正確性やバイアスだけでなく、常識、現実、意図に反していないことも確認してください。たとえば、コンピュータビジョンモデルがチワワの写真にマフィンのラベルを誤って付けたり、マフィンの写真にチワワのラベルを誤って付けたりすると、そのラベル付きデータでトレーニングされたモデルの品質は低下します。

同様に、中立的な単語を -0.25 としてスコア付けする感情分析ツール（0.0 が中立値の場合）は、データに実際には存在しない否定的なバイアスをすべての単語に追加してスコア付けしている可能性があります。過敏な有害性検出機能は、多くの中立的な記述を誤って有害と報告する可能性があります。トレーニングを行う前に、データ内のマシンラベルとアノテーションの品質とバイアスを把握してください。

高次元

カテゴリデータは、高次元の特徴ベクトル（要素数の多い特徴ベクトル）を生成する傾向があります。高次元を使用すると、トレーニングコストが増加し、トレーニングが困難になります。このような理由から、ML の専門家は多くの場合、トレーニング前にディメンション数を減らす方法を模索しています。

自然言語データの場合、次元数を削減する主な方法は、特徴ベクトルをエンベディングベクトルに変換することです。これについては、このコースの後半のエンベディングモジュールで説明します。

語彙とワンホットエンコーディング（10 分）

特徴クロス（5 分）

カテゴリデータ: 一般的な問題 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

人間の評価者

マシン評価者

高次元

カテゴリデータ: 一般的な問題