¿Qué es model drift en machine learning?

| Última modificación: 4 de octubre de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

El model drift, también llamado model decay, hace referencia a la efectividad de predicción que va perdiendo un modelo debido a los cambios en el entorno y, por tanto, a las relaciones entre las variables. En este artículo, detallamos qué es y cómo funciona el model drift.

¿Cómo funciona el model drift?

En machine learning existe algo denominado reentrenamiento de modelos, un proceso según el cual los modelos deben ser constantemente entrenados, una y otra vez, ya que existe un fenómeno que se refiere a la degradación de modelos. En dicho fenómeno, la distribución de características y el rendimiento del modelo pierden su eficiencia y el aprendizaje automático no se da de manera óptima, con base en las propiedades del objetivo. De ahí la necesidad de volver a entrenar el modelo y de adaptar las características del mismo a las nuevas necesidades y novedades del entorno.

Puedes crear un modelo, pero este modelo al final va a ir empeorando; todos los modelos lo hacen. Con el tiempo van prediciendo peor, debido a que cambian las características de los datos. Algunos se comportan exactamente igual y esto es lo que se conoce como drift, la eventualidad en la que se van desplazando los modelos. Va a llegar un momento en el que los vas a tener que reentrenar.

Es necesario reentrenar todo, no algunas partes, como las medias o la actualización de desviaciones típicas.

Tipos de model drift

Existen varios tipos de model drift, como los siguientes:

Concept drift

Es un tipo de model drift en el que las propiedades de una variable dependiente cambian.

🔴 ¿Quieres formarte en Inteligencia Artificial a un nivel avanzado? 🔴

Descubre nuestro Inteligencia Artificial Full Stack Bootcamp. La formación más completa del mercado y con empleabilidad garantizada

👉 Prueba gratis el Bootcamp en Inteligencia Artificial por una semana

Data drift

Es un tipo de model drift en el cambian, contrario al anterior, las variables independientes. Entre estos están ejemplos como cambios en las preferencias de consumidor o adición de nuevos productos, entre otros.

Upstream data changes

Estos son cambios de datos operativos en una canalización de datos. Un ejemplo de este tipo de cambios se da cuando una característica ya no se genera, lo cual desencadena en valores faltantes; o el cambio en una medida (de pies a millas, de kilómetros a pies, etc).

Detectar un model drift

Existen diferentes métodos para detectar un model drift, es decir, una desviación en el modelo. Una de las más famosas es midiendo la precisión del modelo.

Esta forma consiste en comparar los valores predictivos de un modelo de aprendizaje automático determinado con los valores reales. La precisión del modelo empeorará a medida que los valores predichos se desvían más de la media, de los valores reales.

La métrica más utilizada para evaluar la precisión de un modelo es la F-Score o F-Measure, la cual se calcula partiendo de la precisión y recuerdo de la prueba.

La precisión es el número de resultados positivos reales dividido por el número de resultados positivos total, incluso los que no fueron correctamente identificados en la predicción. El recuerdo es el número de resultados positivos reales dividido por el número de todas las muestras que se esperaba fueran positivas.

El valor más alto que es posible alcanzar de una puntuación F es 1.0, lo cual indica precisión y recuperación perfectas; el valor más bajo posible es 0, si la precisión y la recuperación son 0.

model drift

Existen ocasiones en las que no es posible medir la precisión de un modelo con el método anterior. Para ello, existen otras alternativas, como:

  • Prueba de Kolmogorov-Smirnov o prueba K-S: es una prueba no paramétrica que compara distribuciones acumulativas de dos datasets; en este caso, los datos de training y los datos postraining. La teoría de esta prueba dice que las distribuciones de ambos datasets son idénticas.
  • Índice de estabilidad de la población o PSI: es una métrica utilizada para medir los cambios de la distribución de una variable con el tiempo. Se utiliza para medir cambios en las características de una población y, por tanto, para evaluar y detectar el deterioro del modelo.
  • Puntuación Z: con esta métrica puede comparar la distribución de funciones entre los datos de entrenamiento y los datos reales.

¿Quieres saber más?

Hemos visto cómo funciona el model drift y algunos modos de detectarlo. Si quieres seguir aprendiendo sobre esta temática, no olvides que tienes a tu disposición nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, en el que aprenderás, en unos cuantos meses, todo lo necesario para incursionar en un mercado laboral lleno de mejores oportunidades de empleo. ¡No esperes más para pedir más información!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Inteligencia artificial

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado