¿Qué es el overfitting?

| Última modificación: 18 de abril de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

El overfitting o sobreajuste es un error de modelado en estadística que ocurre cuando una función está demasiado alineada con un conjunto limitado de puntos de datos. El resultado es un modelo que es útil solo cuando se refiere a su conjunto de datos inicial y no a cualquier otro conjunto de datos.

¿Cómo funciona el overfitting?

Cuando los científicos de datos usan un modelo de aprendizaje automático para hacer predicciones, en primera instancia entrenan el modelo en un conjunto de datos conocido. Con base en los conjuntos de datos ya establecidos y la información dada, este modelo intenta predecir los datos futuros por medios de algoritmos de aprendizaje.

Lo que sucede con el overfitting en machine learning es que puede generar predicciones equivocadas y que no funcionen bien para todos los tipos de datos nuevos que se ingresen.

overfitting

Overfitting en contexto

Imaginemos el overfitting en un contexto más específico, como es el de las transacciones financieras y el mercado bursátil.

Bien sabemos que en Big Data las áreas que más se explotan son el minado de datos y la analítica predictiva. Lo que sucede es que en estos entornos tan específicos es muy probable que tengamos problemas de manera reiterada con el overfitting.

Este es un error que ocurre en un modelado de datos y que da como resultado una función particular que se alinea demasiado cerca de un conjunto mínimo de puntos de datos.

Así pues, los profesionales financieros corren el riesgo de sobreajustar un modelo basado en datos limitados y terminar con resultados catastróficos.

Cuando un modelo ha sufrido sobreajuste, puede perder su valor como herramienta predictiva y comercial para invertir, lo que hace que la complejidad del modelo de machine learning no esté solamente orientada a brindar resultados a partir de unos datos de entrada, sino que también debe poseer un sólido conjunto de entrenamiento cuyos datos sean suficientes para crear un modelo y una muestra de entrenamiento capaz de generalizar los datos sin incurrir en errores fatales para la organización.

Uno de los problemas más comunes es el uso de algoritmos para buscar datos históricos del mercado a partir de datos gigantes, con el fin de encontrar patrones y poder controlar el mercado bursátil.

Es posible desarrollar teoremas que aparentemente predicen los rendimientos del mercado de valores de manera precisa.

No obstante, cuando se aplican a datos fuera de la muestra, es probable que esos teoremas resulten ser el ajuste excesivo de un modelo a algo que simplemente fue una casualidad. De ahí la importancia de probar un modelo con muestras de datos fuera de la muestra utilizadas para desarrollarlo.

¿Cómo evitar el overfitting?

Una de las formas de evitar el overfitting consiste en ejecutar la validación cruzada. Este evento consiste en utilizar los datos de entrenamiento del modelo para dividirlos en pliegues o particiones y el modelo se ejecuta para pliegue. Posteriormente, se promedia la estimación del error general.

También podemos hacer ensamblaje, que consiste en combinar las predicciones de dos modelos separados, como mínimo, así como el aumento de datos en el que el conjunto de datos disponibles hace que parezca diverso.

También podemos ejecutar la simplificación de datos, en la que el modelo se simplifica para evitar el overfitting.

Ahora que has entendido qué es el overfitting y cómo funciona, puedes seguir ampliando tus conocimientos por medio de nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, en el que aprenderás todo lo necesario para incursionar en un mercado laboral lleno de oportunidades y adquirirás un buen empleo para seguir cumpliendo tus sueños. ¡No esperes para inscribirte y seguir forjando tu camino! ¡Inscríbete ya!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado