Esta lección se centra en las preguntas que debes hacer sobre tus datos
y el modelo en los sistemas de producción.
¿Es útil cada función?
Debe supervisar el modelo de forma continua
para quitar los atributos que contribuyen
poco o nada a la capacidad predictiva del modelo. Si los datos de entrada para
atributos cambian abruptamente, el comportamiento de tu modelo también puede
cambios de formas no deseadas.
También considera la siguiente pregunta relacionada:
- ¿La utilidad del atributo justifica el costo de incluirlo?
Siempre es tentador agregar más atributos al modelo. Por ejemplo:
Supongamos que encuentra un nuevo atributo cuya suma hace que las predicciones de su modelo
un poco mejor. Las predicciones algo mejores sin duda parecen mejores que
predicciones un poco peores; Sin embargo, la función adicional aumenta
carga de mantenimiento.
¿Tu fuente de datos es confiable?
Estas son algunas preguntas para hacer sobre la fiabilidad de tus datos de entrada:
- ¿La señal siempre estará disponible o proviene de un
una fuente poco confiable? Por ejemplo:
- ¿La señal proviene de un servidor que falla cuando hay cargas pesadas?
- ¿La señal proviene de personas que se van de vacaciones todos los meses de agosto?
- ¿El sistema que calcula los datos de entrada de tu modelo cambia alguna vez? De ser así:
- ¿Cada cuánto tiempo?
- ¿Cómo sabrás cuando ese sistema cambie?
Considera crear tu propia copia de los datos que recibes del
proceso ascendente. Luego, solo avanza a la siguiente versión del flujo
datos cuando tengas la certeza de que es seguro hacerlo.
¿Tu modelo es parte de un ciclo de retroalimentación?
A veces, un modelo puede afectar sus propios datos de entrenamiento. Por ejemplo, el
los resultados de algunos modelos, a su vez, se convierten (directa o indirectamente) en entradas
atributos a ese mismo modelo.
A veces, un modelo puede afectar a otro modelo. Por ejemplo, considera dos
para predecir el precio de las acciones:
- el modelo A, que es un modelo con mala predicción.
- el Modelo B.
Como el Modelo A tiene errores, por equivocación decide comprar acciones de la Acción X.
Esas compras aumentan el precio de la Acción X. El modelo B usa el precio
de la Acción X como atributo de entrada, por lo que el modelo B puede tener
conclusiones sobre el valor de la Acción X. Por lo tanto, el Modelo B podría
comprar o vender acciones de la Acción X, según el comportamiento con errores del Modelo A.
El comportamiento del Modelo B, a su vez, puede afectar al Modelo A, lo que podría activar
tulipomanía o un deslizamiento en
Acciones de la Empresa X.
Ejercicio: Comprueba tus conocimientos
¿Cuáles son tres de los siguientes modelos susceptibles de sufrir
un ciclo de retroalimentación?
Un modelo de previsión del tráfico que predice los atascos en las salidas de autopistas
cerca de la playa, teniendo en cuenta el tamaño de la multitud como una de sus características.
Algunos bañistas prefieren armar sus planes
para hacer una previsión. Si hay mucha gente en la playa y se prevé que el tráfico será mayor
mucho, muchas personas
pueden hacer planes alternativos. Esto puede deprimir a la playa
una menor participación, lo que da como resultado una previsión del tráfico más ligera, que puede
aumentar la asistencia y el ciclo se repite.
Un modelo de recomendación de libros que sugiere novelas para los usuarios
en función de su popularidad (es decir, el número de veces que los libros se han
comprado).
Es probable que las recomendaciones de libros
generen compras y estas
se ingresarán ventas adicionales al modelo como entrada
lo que aumenta las probabilidades de recomendar estos mismos libros en el
en el futuro.
Un modelo de clasificación de universidades que ordena las facultades en parte por su
selectividad, el porcentaje de estudiantes que se postularon que no
admitido.
Es posible que la clasificación del modelo genere interés adicional hacia los puntajes más altos
para instituciones educativas, lo que aumenta
la cantidad de solicitudes que reciben. Si estos
en las escuelas siguen recibiendo la misma cantidad de estudiantes,
aumentar (el porcentaje de estudiantes ingresantes disminuirá). Esta
impulsará la confianza de estas escuelas de clasificación, lo que aumentará aún más
interés potencial del estudiante, etc.
Un modelo de resultados de elecciones que prevé el ganador de un
alcalde mediante una encuesta al 2% de los votantes después del cierre de urnas.
Si el modelo no publica su previsión hasta después de que las encuestas hayan
cerrado, no es posible que sus predicciones afecten al votante
el comportamiento de los usuarios.
Un modelo de tasación de viviendas que predice el precio de las casas mediante
tamaño (área en metros cuadrados), cantidad de habitaciones y ubicación geográfica
como atributos.
No es posible cambiar rápidamente la ubicación de una casa,
el tamaño o la cantidad de habitaciones en respuesta a las previsiones de precios,
lo que hace improbable un ciclo de retroalimentación. Sin embargo, existe la posibilidad
una correlación entre el tamaño y la cantidad de habitaciones (casas más grandes)
tengan más habitaciones) que deban separarse.
Un modelo de atributos faciales que detecta si una persona está sonriendo
en una foto, que se entrena periódicamente con una base de datos de fotografías de archivo
que se actualiza mensualmente de forma automática.
En este caso no hay ciclo de retroalimentación, ya que las predicciones del modelo no tienen
cualquier impacto en la base de datos de fotos. Sin embargo, el control de versiones de la entrada
datos es una preocupación, ya que estas actualizaciones mensuales podrían
tener efectos imprevistos en el modelo.