En lugar de comparar datos de funciones combinados manualmente, puedes reducir datos a representaciones llamadas incorporaciones y, luego, comparar de las incorporaciones. Las incorporaciones se generan entrenando una función neuronal profunda supervisada red (DNN) en el atributo los datos en sí. Las incorporaciones asignan los datos del atributo a un vector en una incorporación con menos dimensiones que los datos de los atributos. Las incorporaciones son como se explica en la sección Incorporaciones del Curso intensivo de aprendizaje automático, mientras que las redes neuronales se analizan en el Redes neuronales módulo. Vectores de incorporación para ejemplos similares, como videos de YouTube en los temas similares vistos por los mismos usuarios terminan juntos en la incorporación espacio. Una medida de similitud supervisada usa esta "cercanía" para cuantificar la similitud de pares de ejemplos.
Recuerda que estamos hablando de aprendizaje supervisado solo para crear nuestra similitud medir. Entonces, la medida de similitud, ya sea manual o supervisada, se utiliza un algoritmo para agrupar en clústeres no supervisado.
Comparación entre las medidas manuales y supervisadas
En esta tabla, se describe cuándo usar una similitud manual o supervisada medir según tus requisitos.
Requisito | Manual | Supervisado |
---|---|---|
¿Elimina la información redundante en los atributos correlacionados? | No, debes investigar las correlaciones entre los atributos. | Sí, la DNN elimina la información redundante. |
proporciona información sobre las similitudes calculadas? | Sí | No, las incorporaciones no se pueden descifrar. |
¿Apto para conjuntos de datos pequeños con pocos atributos? | Sí. | No, los conjuntos de datos pequeños no proporcionan suficientes datos de entrenamiento para una DNN. |
¿Apto para conjuntos de datos grandes con muchos atributos? | No, eliminar manualmente la información redundante de varios atributos y combinarlos es muy difícil. | Sí, la DNN elimina automáticamente la información redundante y combina atributos. |
Crear una medida de similitud supervisada
A continuación, se muestra una descripción general del proceso para crear una medida de similitud supervisada:
En esta página, se analizan las DNN, mientras que en las siguientes páginas se describen los pasos restantes.
Elegir DNN según las etiquetas de entrenamiento
Reduce los datos de atributos a incorporaciones de menor dimensión entrenando una DNN que usa los mismos datos de atributos como entrada y como etiquetas. Por ejemplo, en en el caso de los datos de viviendas, la DNN usaría los atributos, como el precio, el tamaño código postal) para predecir esos atributos.
Codificador automático
Una DNN que aprende de las incorporaciones de datos de entrada con la predicción de los datos de entrada se llama codificador automático. Debido a que las capas ocultas del codificador automático son más pequeñas que las capas de entrada y salida, el codificador automático se ve forzado a aprender un comprimida de los datos de atributos de entrada. Una vez que la DNN está entrenada, extraer las incorporaciones de la capa oculta más pequeña para calcular la similitud
Predictor
Un codificador automático es la opción más simple para generar incorporaciones. Sin embargo, un automático no es la mejor opción cuando ciertos atributos importante que otros para determinar la similitud. Por ejemplo, los datos internos, suponer que el precio es más importante que el código postal. En esos casos, utiliza solo el atributo importante como la etiqueta de entrenamiento para la DNN. Dado que esta DNN predice un atributo de entrada específico en lugar de predecir todos los atributos de entrada, se llama DNN de predictor. Por lo general, las incorporaciones se deben extraer última capa de incorporación.
Cuando elija un atributo como etiqueta:
Prefiere los atributos numéricos en lugar de los categóricos porque la pérdida es más fácil de calcular e interpretar para atributos numéricos.
Quita el atributo que usas como etiqueta de la entrada a la DNN. De lo contrario, la DNN usará ese atributo para predecir el resultado a la perfección. (Este es un ejemplo extremo de filtración de etiquetas).
Según las etiquetas que elijas, la DNN resultante es una un codificador automático o un predictor.