Измерение сходства по вложениям

Теперь у вас есть вложения для любой пары примеров. Контролируемая мера сходства принимает эти вложения и возвращает число, измеряющее их сходство. Помните, что вложения — это векторы чисел. Чтобы найти сходство между двумя векторами \(A = [a_1,a_2,...,a_n]\) и \(B = [b_1,b_2,...,b_n]\), выберите одну из этих трех мер сходства:

Мера Значение Формула По мере увеличения сходства эта мера...
Евклидово расстояние Расстояние между концами векторов\(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Уменьшается
Косинус Косинус угла \(\theta\) между векторами\(\frac{a^T b}{|a| \cdot |b|}\) Увеличивает
Скалярное произведение Косинус, умноженный на длины обоих векторов\(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Увеличивается. Также увеличивается с длиной векторов.

Выбор меры сходства

В отличие от косинуса скалярное произведение пропорционально длине вектора. Это важно, поскольку примеры, которые очень часто появляются в обучающем наборе (например, популярные видеоролики на YouTube), как правило, содержат встраиваемые векторы большой длины.Если вы хотите завоевать популярность, выберите скалярный продукт. Однако существует риск того, что популярные примеры могут исказить показатель сходства. Чтобы сбалансировать этот перекос, вы можете увеличить длину до показателя \(\alpha\ < 1\) чтобы вычислить скалярное произведение как \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Чтобы лучше понять, как длина вектора меняет меру сходства, нормализуйте длины векторов к 1 и обратите внимание, что три меры становятся пропорциональными друг другу.

Доказательство: пропорциональность мер сходства.
После нормализации a и b так, что \(||a||=1\) и \(||b||=1\)эти три меры связаны следующим образом:
  • Евклидово расстояние = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Скалярное произведение = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Косинус = \(\cos(\theta_{ab})\).
Таким образом, все три меры сходства эквивалентны, поскольку они пропорциональны \(cos(\theta_{ab})\).

Обзор мер сходства

Мера сходства количественно определяет сходство между парой примеров по сравнению с другими парами примеров. Ниже сравниваются два типа: ручной и контролируемый:

Тип Как создать Лучшее для Подразумеваемое
Руководство Объедините данные объектов вручную. Небольшие наборы данных с функциями, которые легко объединить. Дает представление о результатах расчетов сходства. Если данные объекта изменяются, вам необходимо вручную обновить меру сходства.
Контролируемый Измерьте расстояние между вложениями, сгенерированными контролируемой DNN. Большие наборы данных с трудно объединяемыми функциями. Не дает представления о результатах. Однако DNN может автоматически адаптироваться к изменению данных объектов.