En esta lección, se enfocan las preguntas que debes hacer sobre tus datos y tu modelo en los sistemas de producción.
¿Cada función es útil?
Debes supervisar tu modelo de forma continua para quitar las características que contribuyen poco o nada a la capacidad predictiva del modelo. Si los datos de entrada de esa función cambian de forma abrupta, el comportamiento de tu modelo también podría cambiar de forma abrupta de maneras no deseadas.
Además, ten en cuenta la siguiente pregunta relacionada:
- ¿La utilidad de la función justifica el costo de incluirla?
Siempre es tentador agregar más funciones al modelo. Por ejemplo,
supongamos que encuentras una función nueva cuya adición mejora un poco las predicciones
de tu modelo. Las predicciones ligeramente mejores parecen ser mejores que las predicciones ligeramente peores. Sin embargo, la función adicional aumenta tu carga de mantenimiento.
¿Tu fuente de datos es confiable?
Preguntas para hacer sobre la fiabilidad de los datos de entrada:
- ¿La señal siempre estará disponible o proviene de una fuente que no es confiable? Por ejemplo:
- ¿La señal proviene de un servidor que falla con una carga pesada?
- ¿El indicador proviene de personas que se van de vacaciones todos los agostos?
- ¿El sistema que calcula los datos de entrada de tu modelo cambia alguna vez? Si es así, haz lo siguiente:
- ¿Cada cuánto tiempo?
- ¿Cómo sabrás cuándo cambie ese sistema?
Considera crear tu propia copia de los datos que recibes del proceso upstream. Luego, avanza a la siguiente versión de los datos upstream solo cuando tengas la seguridad de que es seguro hacerlo.
¿Tu modelo forma parte de un ciclo de retroalimentación?
A veces, un modelo puede afectar sus propios datos de entrenamiento. Por ejemplo, los resultados de algunos modelos, a su vez, se convierten (directa o indirectamente) en atributos de entrada para ese mismo modelo.
A veces, un modelo puede afectar a otro. Por ejemplo, considera dos
modelos para predecir los precios de las acciones:
- El modelo A, que es un modelo predictivo malo.
- Modelo B.
Como el modelo A tiene errores, decide comprar acciones de Stock X por error.
Esas compras aumentan el precio de las acciones X. El modelo B usa el precio de las acciones X como un atributo de entrada, por lo que puede llegar a algunas conclusiones falsas sobre el valor de las acciones X. Por lo tanto, el modelo B podría comprar o vender acciones de la acción X en función del comportamiento con errores del modelo A.
El comportamiento del modelo B, a su vez, puede afectar al modelo A, lo que podría activar una manía de tulipanes o una disminución en las acciones de la empresa X.
Ejercicio: Comprueba tu comprensión
¿Cuáles de los siguientes tres modelos son susceptibles a un ciclo de reacción?
Un modelo de pronóstico del tráfico que predice los atascos en las salidas de las autopistas cerca de la playa, con el tamaño de la multitud como uno de sus atributos.
Es probable que algunos bañistas basen sus planes en el pronóstico del tráfico. Si hay mucha gente en la playa y se prevé que el tráfico será denso, muchas personas pueden preferir hacer otros planes. Esto puede disminuir la concurrencia a la playa y, como resultado, se preverá menos tráfico del usual, lo que puede generar que aumente la cantidad de personas que irán a la playa y que el ciclo se repita.
Un modelo de recomendación de libros que sugiere novelas a los usuarios según la popularidad (es decir, la cantidad de ventas de los libros).
Es probable que las recomendaciones de libros aumenten las compras, y estas ventas adicionales se sumarán al modelo como entradas, lo que aumentará las posibilidades de que esos mismos libros se recomienden en el futuro.
Un modelo de clasificación de universidades que ordena las facultades en parte por su selectividad, es decir, el porcentaje de estudiantes que se presentaron para ingresar con respecto a los que efectivamente ingresaron.
Es posible que las clasificaciones del modelo generen un interés adicional hacia las facultades con mejor calificación, lo que aumenta la cantidad de solicitudes que reciben. Si estas facultades siguen recibiendo la misma cantidad de estudiantes, la selectividad aumentará (el porcentaje de estudiantes ingresantes se reducirá). Esto impulsará la clasificación de las facultades, lo que, a su vez, aumentará el interés de los estudiantes y así sucesivamente.
Un modelo de resultados de elecciones por la alcaldía que prevé el ganador a través de una encuesta al 2% de los votantes después del cierre de urnas.
Si el modelo no publica su pronóstico hasta después del cierre de urnas, no es posible que sus predicciones afecten el comportamiento de los votantes.
Un modelo de tasación de viviendas que predice el precio de las casas con el tamaño (el área en metros cuadrados), la cantidad de habitaciones y la ubicación geográfica como atributos.
No es posible cambiar rápidamente la ubicación, el tamaño y la cantidad de habitaciones de una casa en respuesta a los pronósticos de los precios, por lo que es poco probable que se produzca un ciclo de reacción. Sin embargo, posiblemente haya una correlación entre el tamaño y la cantidad de habitaciones (es probable que las casas más grandes tengan más habitaciones) que deba analizarse.
Un modelo de atributos faciales que detecta si una persona está sonriendo en una foto, el cual se entrena periódicamente con una base de datos de fotos de archivo que se actualiza cada mes de forma automática.
En este caso, no hay ciclo de retroalimentación, ya que las predicciones del modelo no tienen ningún impacto en la base de datos de fotos. Sin embargo, el control de versiones de los datos de entrada podría ser un problema, ya que estas actualizaciones mensuales podrían generar efectos imprevistos en el modelo.