ML 실습: Perspective API의 공정성

Jigsaw팀이 머신러닝을 사용하여 악의적인 댓글을 식별하는 Perspective API를 개발하여 Google의 악용 방지 기술팀과 협업하여 온라인 괴롭힘을 해결한 방법을 알아보세요. 그런 다음 공정성 지표를 사용하여 ML 모델을 평가하고 학습 데이터에서 의도치 않은 편향을 완화합니다.

소개

Jigsaw는 Alphabet 내 단위로서 더 안전한 세상을 만드는 기술을 구축합니다. 2017년에는 온라인 괴롭힘 문제를 해결하기 위해 Perspective API를 개발했습니다. Perspective API의 목표는 대규모 온라인 대화에 대한 참여, 품질, 공감을 높이는 것입니다. 개발자와 게시자는 Perspective를 통해 위협, 모욕, 욕설, 악의적인 언어 등 불쾌감을 줄 수 있는 텍스트의 댓글 콘텐츠를 분석하여 온라인 포럼의 건설적인 대화를 저해하는 텍스트를 식별하고 필터링할 수 있습니다.

Perspective API는 댓글 텍스트를 입력값으로 삼아 0에서 1 사이의 값을 반환하여 댓글이 이전에 표시된 악의적인 댓글과 유사할 가능성을 나타냅니다. 점수가 0점이면 댓글이 유해할 가능성이 0% 임을 나타내고 1점이 100% 이면 댓글이 유해할 가능성이 있다는 뜻이며, 0.5점이면 모델이 불쾌할 가능성이 50% 임을 나타냅니다 (즉, 모델이 확실하지 않음).

문제 서술

Perspective API를 처음 출시한 후 외부 사용자는 인종 또는 성 지향성과 악의적 점수에 대한 정보가 포함된 ID 용어 간에 양의 상관관계를 발견했습니다. 예를 들어 '나는 흑인 여성 동성애자입니다'라는 문구는 0.87의 독성 점수를 받았습니다. 이 경우에는 ID 용어가 사용되는 데 사용되지 않았으므로 이 예시는 잘못 분류되었습니다. 문제 발생 위치