Así como cuando nos dicen que las matemáticas no sirven en la vida real o que nunca usaremos ciertas fórmulas realmente, pues yo me enteré tarde de que estaba usando regresión lineal para algo tan simple como determinar si el número de horas de estudio influía en mis calificaciones.
Años más tarde fue que entendí que es una herramienta excelente para lograr un buen análisis de datos. Por eso, te explicaré no solo qué es la regresión lineal, sino cómo se aplica. Usaré algunos ejemplos para que los pongas en práctica en tus proyectos.
¿Qué es la regresión lineal?
Es un método estadístico que permite modelar la relación entre una variable dependiente (lo que queremos predecir) y una o más variables independientes (los factores que influyen en esa predicción). Su objetivo es encontrar la mejor línea recta que describa la relación entre esas variables.
En términos simples, la regresión lineal responde a la pregunta: ¿Cómo cambia una variable cuando otra varía?
- Por ejemplo, si queremos predecir cuánto subirá el precio de una vivienda en función de su tamaño, la regresión lineal nos ayudará a encontrar una ecuación matemática que relacione ambas variables y permita hacer estimaciones futuras.
La ecuación general de una regresión lineal simple es: Y=a+bX+eY = a + bX + eY=a+bX+e
Donde:
Y es la variable dependiente (lo que queremos predecir).
X es la variable independiente (el factor que afecta la predicción).
a es la intersección con el eje Y (valor cuando X = 0).
b es la pendiente de la línea (cuánto cambia Y cuando X aumenta en 1 unidad).
e es el error o residuo (la diferencia entre la predicción y el valor real).
Cuando se incluyen múltiples variables independientes, hablamos de regresión lineal múltiple.
¿Cómo se aplica una regresión lineal efectiva?
En caso de que necesites aplicar una regresión lineal efectiva, tienes que seguir un proceso estructurado que garantice la calidad del modelo y la precisión de las predicciones. Estos son los pasos:
Recopila los datos adecuados
Antes de realizar cualquier análisis, necesitas datos confiables y estructurados. Búscalos en bases de datos empresariales, estudios científicos o registros históricos.
Comprueba la relación entre variables
Usa gráficos de dispersión para verificar si existe una relación lineal entre la variable independiente y la dependiente. Si los puntos forman un patrón recto, la regresión lineal puede ser una buena opción.
Ajusta el modelo
Utiliza herramientas como Excel, Python (con librerías como sklearn o statsmodels), R o MATLAB para calcular los coeficientes de la ecuación de regresión.
Evalúa la precisión
Verifica métricas como el coeficiente de determinación R² (cuánto de la variabilidad de la variable dependiente explica el modelo) y el error estándar de la estimación.
Realiza pruebas y ajustes
Si el modelo no predice con suficiente precisión, prueba agregar más variables, eliminar valores atípicos o usar transformaciones matemáticas para mejorar la linealidad de los datos.
Ejemplos prácticos de regresión lineal
Predicción de precios de vivienda
Imagina que eres un agente inmobiliario y quieres predecir el precio de una casa basándote en su tamaño. Después de analizar los datos históricos, descubres que, en promedio, cada metro cuadrado adicional aumenta el precio en 1.500€.
Si tienes una casa de 80m², podrías predecir su precio con la ecuación:
- Precio=50,000+(1,500×80)=170,000€
Aquí, el tamaño es la variable independiente (X) y el precio la dependiente (Y).
Análisis de ventas y publicidad
Una empresa quiere saber si aumentar su inversión en publicidad genera más ventas. Recopilan datos y aplican una regresión lineal.
El resultado es la ecuación:
- Ventas=10,000+(5×Gasto en publicidad)
Esto significa que por cada 1.000€ adicionales en publicidad, las ventas aumentan en 5.000€.
Análisis deportivo
En el mundo del deporte, la regresión lineal ayuda a identificar patrones. Un entrenador quiere saber si la cantidad de entrenamientos influye en la cantidad de puntos anotados por un jugador.
Si la ecuación obtenida es:
- Puntos=5+(2×Días de entrenamiento)
Esto indicaría que por cada día adicional de entrenamiento, un jugador podría anotar 2 puntos extra en promedio.
Te dejo este ejemplo adicional del uso de la regresión lineal en Deep Learning y cómo puedes ampliar una regresión lineal.
¿En qué casos no deberías usar la regresión lineal?
No te aconsejo usarla si:
- Los datos no tienen una relación lineal clara (por ejemplo, si la relación es curva o exponencial).
- Existen valores atípicos extremos que pueden distorsionar el modelo.
- Las variables no son independientes, lo que podría llevar a problemas de colinealidad.
- El modelo no explica bien la variabilidad de los datos (bajo valor de R²).
Yo te aconsejaría usar la regresión polinómica, árboles de decisión o redes neuronales que podrían ser más efectivas.
En el Bootcamp de Big Data, Data Science, Machine Learning e IA de KeepCoding, aprenderás a manejar datos como un profesional, aplicar modelos predictivos y desarrollar habilidades en inteligencia artificial con un enfoque 100% práctico. ¡Inscríbete ahora y da el salto a un sector con alta demanda!